Introdução


Contexto

O documento a seguir detalha o passo a passo da apuração da Variação da Despesa Assistencial (VDA) do ano de 2020 sobre o ano de 2019. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA 2020 e acompanhar a evolução da mesma ao longo do ano.

A VDA é um dos principais componentes do cálculo do Índice de Reajuste de Planos Individuais (IRPI), que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar. A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela RN nº 441/2018 e está detalhada no Espaço do Consumidor no site da ANS.

A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656, de 1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.

A medida de tendência central do setor de saúde suplementar é a média da VDA das operadoras ponderada pelo número de beneficiários do período mais recente, conforme consignada no Anexo II da Resolução Normativa - RN nº 441, de 19 de dezembro de 2018. A fórmula para o cálculo da média ponderada da VDA das operadoras do setor em determinado ano é:

\[VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}\]

Onde:
i = Operadora na base de cálculo
n = Todas as operadoras na base de cálculo
p = Período de janeiro a dezembro do ano calendário anterior ao início da aplicação do IRPI
DA = Despesa assistencial em carteira própria acumulada ao fim do período
Ben = Média mensal de beneficiários em carteira própria ao longo do período


Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de despesa assistencial, quantidade de beneficiários com vínculos ativos e características das operadoras de planos de saúde. Esses conjuntos de dados podem ser acessadas pelo portal de dados abertos da Agência Nacional de Saúde Suplementar (ANS). Os links específicos para cada base utilizada neste cálculo estão disponíveis na respectiva seção de “Limpeza e Tratamento de Dados”.


Setup

Desenvolvido em R versão 4.0.5 e RStudio versão 1.4.1106

# Setup (bibliotecas, funções e variáveis globais) =============================
library(data.table)
library(tidyverse)
library(dtplyr)
library(lubridate)

# "Desliga" notação científica. 
options(scipen=999)

# função para exclusão de valores extremos por boxplot 1.5xIQR
trim.df <- function(df, metrica){
  df %>% filter((metrica > quantile(metrica, 0.25) - 1.5 * IQR(metrica)) 
                & (metrica < quantile(metrica, 0.75) + 1.5 * IQR(metrica)))
}

# função para gerar resumo de estatísticas descritivas
statsVDA <- function(df){
  df %>% 
    summarise(n_ops = n_distinct(cd_ops),
              benef = sum(benefm),
              mediaP = weighted.mean(vda, w = benefm),
              min = min(vda),
              q1 = quantile(vda, p = .25, names = F),
              median = median(vda),
              q3 = quantile(vda, p = .75, names = F),
              max = max(vda),
              dp = sd(vda),
              media = mean(vda),
              .groups = 'drop') %>%
    mutate(across( c(mediaP:media), ~ round(.x, 2) ))
}

# período de análise
(periodo <- c(make_date(2019,01,01), make_date(2020,12,01)))
[1] "2019-01-01" "2020-12-01"

Limpeza e tratamento dos dados


Despesa Assistencial

As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das Demonstrações Contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS). A data limite de envio das informações do 4º trimestre ao DIOPS é o dia 31 de março do ano subsequente.

Todas as demonstrações financeiras publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela RN nº 435, de 23 de novembro de 2018.

A base de dados do DIOPS referente ao 4º trimestre de 2020 pode ser acessada no Portal de Dados Abertos da ANS - Demonstrações Contábeis. Esse conjunto de dados detalha o saldo acumulado em reais ao final de cada trimestre nas contas contábeis de cada operadora (incluindo contas de balanço e demonstrações de resultado).

A base referente ao 4º trimestre de 2019 disponível no Portal de Dados Abertos foi publicada em abril de 2020. Assim, faz-se necessário consultar uma versão atualizada dos dados do 4º trimestre de 2019 que contemple as retificações feitas pelas operadoras desde então. A base de Demonstrações Contábeis referentes a 2019 atualizada em 16/04/2021 pode ser acessada no site da ANS em Espaço do Consumidor > Reajuste > Individual ou familiar > Metodologia de Cálculo.

O código a seguir faz a leitura dos arquivos *.csv:

# Load dataset juntando vários arquivos a partir de uma pasta ==================
files <- list.files(path = "./datasets/diops/", pattern = "*.csv", full.names = T)
diops <- rbindlist(lapply(files, fread, 
                          dec=",", drop='DESCRICAO', 
                          colClasses = c(CD_CONTA_CONTABIL="character"))) %>% 
  lazy_dt() %>%
  rename_with(tolower) %>% 
  filter(
    nchar(cd_conta_contabil) == 9, # filtra contas contábeis de 9 dígitos
    vl_saldo_final != 0            # exclui linhas sem saldo
  ) %>% 
  mutate(id_calendar = dmy(data) + months(2)) %>% # altera para último mês do trimestre
  rename(cd_ops = reg_ans) %>% 
  select(cd_ops, cd_conta_contabil, id_calendar, vl_saldo_final) %>% 
  as_tibble()

remove(files)


O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela RN nº 435, de 23 de novembro de 2018:

Conta contábil Descrição Totalização
411X1 Eventos/ Sinistros Conhecidos ou Avisados de Assistência a Saúde Medico Hospitalar (+)
411X1XX8 Corresponsabilidade Assumida (-)
31171 (-) Contraprestações de Corresponsabilidade Cedida de Assistência Médico-Hospitalar (-)

Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria cedida a terceiros (contas contábeis redutoras de receita 31171). Valores de corresponsabilidade assumida são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).

O código a seguir totaliza a despesa assistencial por trimestre, operadora e tipo de carteira:

# seleciona as contas contábeis relevantes (despesa e receita) =================
diops <- diops %>% 
  filter( # filtra contas contábeis relevantes para a análise
    # despesa / corresponsabilidade assumida médico-hospitalar
    (substr(cd_conta_contabil, 1, 3) == '411' & substr(cd_conta_contabil, 5, 5) == '1')
    # receita / corresponsabilidade cedida médico-hospitalar
    | (substr(cd_conta_contabil, 1, 5) == '31111' | substr(cd_conta_contabil, 1, 5) == '31171')
  ) %>% 
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4' ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida', # redutora de receita
      TRUE ~ 'EXCLUIR'), 
  ) %>%
  group_by(cd_ops, cd_conta_contabil, id_calendar, gr_cc) %>% 
  summarise(vl_saldo_final = sum(vl_saldo_final), 
            .groups = 'drop') %>%  
  pivot_wider(names_from = gr_cc, values_from = vl_saldo_final, values_fill = 0) %>% 
  # identifica tipos de plano pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      TRUE ~ 'EXCLUIR'), 
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      TRUE ~ 'EXCLUIR'), 
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pre-estabelecido',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós-estabelecido',
      TRUE ~ 'EXCLUIR'), 
  ) %>% 
  filter(vigencia != 'corr_assumida') %>%     # exclui corr assumida
  mutate(despesa = eventos - corr_cedida,
         contratacao = as.factor(contratacao)) %>% # inclui corr cedida na despesa
  group_by(cd_ops, vigencia, contratacao, financiamento, id_calendar) %>% 
  summarise(receita = sum(receita), 
            despesa = sum(despesa), 
            .groups = 'drop')
  

diops %>% group_by(ano= year(id_calendar)) %>% 
  summarise(
    receita = round(sum(receita, na.rm = T)/1000000000, 1), # em R$ bilhões
    despesa = round(sum(despesa, na.rm = T)/1000000000, 1), # em R$ bilhões
    n_ops = n_distinct(cd_ops), 
    .groups = 'drop'
  ) %>% 
  mutate(pct_despesa = round(despesa/receita*100,2))


Filtra segmentos alvo da análise e totaliza por trimestre, operadora e tipo de plano:

diops <- diops %>% 
  filter( # filtra tipos de plano relevantes para a análise
    vigencia == 'P', # planos novos
    financiamento == 'Pre-estabelecido', # financiamento pre-estabelecido
  ) %>% 
  select(-vigencia, -financiamento)

diops %>% group_by(contratacao, ano= year(id_calendar)) %>% 
  summarise(
    receita = round(sum(receita, na.rm = T)/1000000000, 1), # em R$ bilhões
    despesa = round(sum(despesa, na.rm = T)/1000000000, 1), # em R$ bilhões
    n_ops = n_distinct(cd_ops),
    .groups = 'drop') %>% 
  mutate(pct_despesa = round(despesa/receita*100,2))

Beneficiários (semi-aditivo)

As informações de vínculos ativos de beneficiários são obtidas através da base do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente. A versão utilizada nos cálculos da VDA 2020/2019 é a versão atualizada até março de 2021.

A base de dados do SIB referente aos anos de 2019 e 2020 pode ser acessada no Portal de Dados Abertos da ANS - Beneficiários por operadora e tipo de carteira para cálculo da VDA no site da ANS. Esse conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.

O código a seguir faz a leitura dos arquivos *.csv:

# Load dataset
sib <- fread("./datasets/Beneficiarios_operadora_e_carteira.csv") %>%
  lazy_dt() %>%
  rename_with(tolower) %>% 
  mutate(
    id_calendar = make_date(as.integer(mes / 100), 
                            mes - as.integer(mes / 100) * 100, 1),
    modalidade = as.factor(gr_modalidade),
    vigencia = as.factor(vigencia_plano),
    contratacao = as.factor(gr_contratacao),
    financiamento = as.factor(tipo_financiamento),
  ) %>%
  filter(
    id_calendar >= periodo[1], id_calendar <= periodo[2],  # período de análise
    nr_benef != 0, !is.na(nr_benef)   # exclui zeros e nulos
  ) %>% 
  rename( cd_ops = cd_operadora, benef = nr_benef ) %>% 
  mutate(
    contratacao = case_when(
      contratacao == 'Coletivo empresarial' ~ 'Empresarial',
      contratacao == 'Coletivo por adesão' ~ 'Adesão',
      contratacao == 'Individual ou familiar' ~ 'Individual',
      TRUE ~ 'Não identificado')
  ) %>% 
  select(cd_ops, modalidade, 
         vigencia, contratacao, financiamento, 
         id_calendar, benef) %>% 
  as_tibble()

# segmenta porte da operadora pela quantidade de beneficiários médico-hospitalares
ops <- sib %>% 
  filter(id_calendar == periodo[2]) %>% 
  group_by(cd_ops) %>% 
  summarise(benef = sum(benef)) %>% 
  mutate(
    porte_ops = case_when(
      benef > 100000 ~ 'Grande',
      benef >= 20000 ~ 'Médio',
      TRUE ~ 'Pequeno' )
  )

sib %>% group_by(ano = year(id_calendar)) %>% 
  summarise(benef_media_agregada = round(sum(benef)/12,0),
            n_ops = n_distinct(cd_ops),
            .groups = 'drop') 


Filtra segmentos alvo da análise e totaliza por mês, operadora e tipo de plano.

sib <- sib %>% 
  filter(
    # operadoras médico-hospitalares
    modalidade %in% c('Autogestão', 'Cooperativa Médica', 'Filantropia',
                      'Medicina de Grupo','Seguradora'),
    vigencia == 'P', # planos novos
    financiamento != 'Pós-estabelecido', # financiamento pre-estabelecido
    contratacao %in% c('Empresarial', 'Individual', 'Adesão')) %>% 
  group_by(cd_ops, contratacao, id_calendar) %>% 
  summarise(benef = sum(benef), .groups = 'drop') 

sib %>% group_by(contratacao, ano = year(id_calendar)) %>% 
  summarise(benef_media_agregada = round(sum(benef)/12,0),
            n_ops = n_distinct(cd_ops),
            .groups = 'drop') 


Calcula média de beneficiários acumulada no ano por operadora e tipo de contratação:

sib <- sib %>% 
  arrange(cd_ops, contratacao, id_calendar) %>% 
  # cria coluna do ano
  mutate(id_calendar = ymd(id_calendar), 
         ano = as.integer(year(id_calendar))) %>% 
  # calcula a média por operadora, contratacao e ano
  group_by(cd_ops, contratacao, ano) %>% 
  mutate(
    benefm = cummean(benef),        # média acumulada no ano
    n_meses = length(benef),                 # qtd de meses com beneficiários
    mes = as.integer(month(id_calendar)),
    contratacao = as.factor(contratacao),
  ) %>% 
  ungroup() %>% 
  filter(mes %in% c(12)) %>% # seleciona o(s) período(s) alvo da análise
  select(-benef, -ano, -mes) 

sib %>% group_by(contratacao, ano = year(id_calendar)) %>% 
  summarise(benefm = round(sum(benefm),0), # soma das médias
            n_ops = n_distinct(cd_ops),
            .groups = 'drop')

Operadoras

As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).

Dois conjuntos de dados estão disponíveis no Portal de Dados Abertos da ANS: Cadastro das Operadoras de planos de saúde Ativas e das Operadoras de planos de saúde Canceladas. Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início e fim de operação (respectivamente data do registro e data do cancelamento do registro).

O código a seguir faz a leitura dos arquivos *.csv:

# Load dataset juntando vários arquivos a partir de uma pasta
files <- list.files(path="./datasets/cadop/", pattern="*.csv", full.names=T)

cadop <- rbindlist(lapply(files, fread), fill=T) %>% 
  lazy_dt() %>%
  rename_with(tolower) %>% 
  mutate(
    dt_registro = dmy(data_registro_ans), 
    dt_cancelamento = dmy(data_descredenciamento),
    modalidade = ifelse(modalidade == 'Seguradora Especializada em Saúde',
                        'Seguradora',
                        modalidade)) %>% 
  mutate(modalidade = as.factor(modalidade)) %>% 
  rename(cd_ops = registro_ans) %>% 
  select(cd_ops, razao_social, modalidade, dt_registro, dt_cancelamento) %>%
  as_tibble() %>% 
  left_join(ops, by='cd_ops') %>% 
  select(-benef) %>% 
  mutate(porte_ops = as.factor(ifelse(is.na(porte_ops), 'Pequeno', porte_ops)))

remove(files)


Para o cálculo da VDA no IRPI selecionam-se as operadoras médico-hospitalares e são desconsideradas

  1. Operadoras que iniciaram operação entre janeiro de 2019 e dezembro de 2020.
  2. Operadoras que tiveram registro cancelado até dezembro de 2020.
  3. Operadoras com ressalvas nas demonstrações financeiras protocoladas junto à ANS referentes a 2019 ou 2020.

O código a seguir filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:

ressalvas <- fread("./datasets/ressalvas.csv", encoding = 'UTF-8') %>% 
  distinct(cd_ops) %>% 
  mutate(lg_ressalva = 1) %>% 
  as_tibble()

cadop <- cadop %>% 
  filter(modalidade %in% c('Autogestão', 'Cooperativa Médica', 'Filantropia',
                           'Medicina de Grupo', 'Seguradora')) %>%  # ops médico-hospitalares
  mutate(
    lg_cancelada = ifelse(year(dt_cancelamento) <= year(periodo[2]) 
                          & !is.na(dt_cancelamento),
                          1, 0), # filtro de fim da operação
    lg_nova_ops  = ifelse(year(dt_registro) >= year(periodo[1]),
                          1, 0)) %>% # filtro de início de operação
  select(cd_ops, razao_social, modalidade, porte_ops, lg_cancelada, lg_nova_ops) %>%
  left_join(ressalvas, by = 'cd_ops') %>% 
  mutate(lg_ressalva = ifelse(is.na(lg_ressalva), 0, lg_ressalva))

remove(ops, ressalvas)
cadop %>% summarise(
  n_ops = n_distinct(cd_ops),
  n_canceladas = sum(lg_cancelada),
  n_nova_ops = sum(lg_nova_ops),
  n_ressalvas = sum(lg_ressalva)
)

Cálculo da VDA


Despesa por Beneficiário

Essa seção gera a base de despesa assistencial e beneficiários e calcula a despesa por beneficiário.

A despesa por beneficiário é a despesa assistencial da carteira própria de uma operadora incorrida em certo período, dividida pela média de vínculos ativos de beneficiários ao longo do mesmo período. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.

Nota:
Para facilitar a comparabilidade e acompanhamento da despesa por beneficiário ao longo do tempo, é possível normalizar a métrica dividindo-a pelo número de meses do período sem impacto sobre a VDA.

A base de cálculo da VDA considera apenas:

  • Operadoras válidas

  • Observações que apresentam valor positivo de despesa

  • Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários no ano

O código a seguir consolida os dados de operadoras, beneficiários e despesas, filtra as observações relevantes e calcula a Despesa por Beneficiário (média mensal):

df.vda <- diops %>% 
  select(-receita) %>% 
  inner_join(sib, by=c('cd_ops', 'contratacao', 'id_calendar')) %>% 
  inner_join(cadop, by='cd_ops') %>% 
  filter(
    lg_cancelada == 0, 
    lg_nova_ops  == 0, 
    lg_ressalva  == 0,
    despesa > 0,
    n_meses == 12 # ops com sequência ininterrupta de beneficiários no ano
  ) %>% 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, n_meses)) %>% 
  relocate(c(razao_social, modalidade, porte_ops), .after = cd_ops) %>% 
  arrange(cd_ops, contratacao, id_calendar) %>% 
  mutate(dpb = ifelse(benefm > 0, despesa/ benefm / month(id_calendar), NA))

df.vda %>% group_by(contratacao, ano= year(id_calendar)) %>% 
  summarise('Despesa (R$bn)' = round(sum(despesa)/1000000000,1),
            'Beneficiários (média)' = round(sum(benefm),0),
            'Qtd operadoras' = n_distinct(cd_ops),
            .groups = 'drop')


Visualização gráfica da distribuição da despesa por beneficiário das operadoras.
Nota: Excluíram-se os valores atípicos pelo método de boxplot 1,5xIQR para que fosse possível visualizar a distribuição da grande maioria dos dados.

trim.df(df.vda, df.vda$dpb) %>% ggplot(aes(x=dpb)) +
  geom_histogram(bins = 50, fill = 'white', color = "slategray") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank(),
        panel.background = element_blank()) +
  labs(x = "Despesa mensal por beneficiário (R$)",
       y = "Frequência") + 
  facet_grid(contratacao ~ year(id_calendar))


VDA por operadora

A VDA de uma operadora é a variação da despesa por beneficiário desta operadora sobre o mesmo período do ano anterior, conforme a seguinte fórmula:

\[VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1\]

Onde:
i = Operadora na base de cálculo
p = Período de janeiro a dezembro do ano calendário anterior ao início da aplicação do IRPI
DA = Despesa assistencial em carteira própria acumulada ao fim do período
Ben = Média mensal de beneficiários em carteira própria ao longo do período

O código a seguir calcula a VDA por operadora:

df.vda <- df.vda %>%
  arrange(cd_ops, contratacao, id_calendar) %>% 
  mutate(vda = ifelse(lag(cd_ops) == cd_ops 
                      & lag(contratacao) == contratacao
                      & year(lag(id_calendar)) == year(id_calendar) - 1, 
                      (dpb/lag(dpb) - 1) * 100, NA)) %>% 
  filter(!is.na(vda)) %>% 
  select(-id_calendar)

VDA do setor

Estatísticas descritivas da base de cálculo da VDA.

df.vda %>% group_by(contratacao) %>% 
  statsVDA() 

Visualização gráfica da distribuição da VDA das operadoras através de um gráfico boxplot.

O código a seguir identifica valores atípicos pela metodologia BoxPlot 1,5xIQR e calcula a proporção de valores atípicos por carteira:

# === IDENTIFICA OUTLIERS === CRITÉRIO: BOX-PLOT 1.5x ===
df.vda <- df.vda %>%
  group_by(contratacao) %>% 
  mutate(lg_outlier = ifelse(vda >= (quantile(vda, 0.75, names = F) + 1.5 * IQR(vda)) 
                             | vda <= (quantile(vda, 0.25, names = F) - 1.5 * IQR(vda)),
                             1, 0)) %>% 
  ungroup()

# Proporção de outliers
df.vda %>%
  group_by(contratacao, lg_outlier) %>%
  summarise(n_obs = n()) %>%
  add_tally(wt = n_obs) %>%
  mutate(pct_obs = round(n_obs / n * 100, 1))


Boxplot da distribuição da VDA após a exclusão dos valores atípicos.


Histograma da distribuição da VDA sem os valores atípicos.


A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores atípicos. A seguir, apresenta-se a média ponderada da VDA (mediaP) e demais estatísticas descritivas da sua distribuição em cada carteira.

df.vda %>% filter(lg_outlier == 0) %>% 
  group_by(contratacao) %>% 
  statsVDA()

Base de cálculo


Gera a base completa que reúne todas as observações de receita, despesa e beneficiários informadas pelas operadoras para os dois anos e o cálculo da VDA por operadora.

sib2 <- sib %>% 
  mutate(ano = year(id_calendar)) %>% 
  select(-id_calendar) %>% 
  rename(ben = benefm) %>% 
  pivot_wider(names_from = ano, values_from = c(ben, n_meses), 
              values_fill = 0) %>% 
  mutate(
    lg_benef = ifelse( # marca obs sem sequencia ininterrupta de ben em 1 dos anos
      ben_2019 < 1 | ben_2020 < 1 | (n_meses_2019 + n_meses_2020) != 24, 
      1, 0)
  ) %>% 
  select(-starts_with('n_meses'))

diops2 <- diops %>% 
  mutate(ano = year(id_calendar)) %>% 
  select(-id_calendar) %>% 
  pivot_wider(names_from = ano, values_from = c(despesa, receita), 
              values_fill = 0) %>% 
  mutate(lg_despesa = ifelse(
    despesa_2019 <=0 | despesa_2020 <= 0, 1, 0 # marca obs sem despesa em 1 dos anos
  )) 

df.vda2 <- df.vda %>% 
  select(cd_ops, contratacao, vda, lg_outlier)

df.reunida <-  sib2 %>% 
  full_join(diops2, by=c('cd_ops', 'contratacao')) %>% 
  mutate(dpb_2019 = ifelse(despesa_2019 > 0 & ben_2019 > 0, 
                           round(despesa_2019 / ben_2019 / 12, 0), NA),
         dpb_2020 = ifelse(despesa_2020 > 0 & ben_2020 > 0, 
                           round(despesa_2020 / ben_2020 / 12, 0), NA)) %>% 
  full_join(df.vda2, by=c('cd_ops', 'contratacao')) %>% 
  inner_join(cadop, by = 'cd_ops') %>% 
  mutate(despesa_2019 = ifelse(despesa_2019 == 0, NA, despesa_2019),
         despesa_2020 = ifelse(despesa_2020 == 0, NA, despesa_2020),
         receita_2019 = ifelse(receita_2019 == 0, NA, receita_2019),
         receita_2020 = ifelse(receita_2020 == 0, NA, receita_2020),
         ben_2019   = ifelse(ben_2019 == 0, NA, ben_2019),
         ben_2020   = ifelse(ben_2020 == 0, NA, ben_2020),
         lg_benef   = ifelse(is.na(lg_benef), 1, lg_benef),
         lg_despesa = ifelse(is.na(lg_despesa), 1, lg_despesa)
  ) %>% 
  relocate(razao_social:lg_ressalva, .after = cd_ops) %>% 
  select(cd_ops:contratacao, 
         starts_with('lg_'),
         starts_with('receita'), 
         starts_with('despesa'), 
         starts_with('ben'), 
         everything())

remove(diops2, sib2, df.vda2)

df.reunida %>% filter(lg_outlier == 0) %>% 
  group_by(contratacao) %>% 
  rename(benefm = ben_2020) %>% 
  statsVDA()


Calcula a proporção (representatividade) da base de cálculo sobre as bases originais.

df1 <- df.reunida %>% filter(!is.na(lg_outlier)) %>% 
  group_by(contratacao) %>% 
  summarise(benef.VDA = sum(ben_2020),
            despesa.VDA = sum(despesa_2020), 
            n_ops.VDA = n_distinct(cd_ops))

df2 <- df.reunida %>% 
  group_by(contratacao) %>% 
  summarise(benef.orig   = sum(ben_2020, na.rm = T),
            despesa.orig = sum(despesa_2020, na.rm = T),
            n_ops.orig.ben   = n_distinct(cd_ops, ben_2020, na.rm = TRUE),
            n_ops.orig_desp = n_distinct(cd_ops, despesa_2020, na.rm = TRUE)) %>% 
  inner_join(df1, by='contratacao') %>% 
  mutate(benef.pct    = benef.VDA / benef.orig * 100, 
         despesa.pct  = despesa.VDA / despesa.orig * 100,
         n_ops.benef.pct   = n_ops.VDA / n_ops.orig.ben * 100,
         n_ops.despesa.pct = n_ops.VDA / n_ops.orig_desp * 100) %>% 
  select(contratacao, starts_with("benef"), starts_with("despesa"), starts_with("n_ops"))


df2 %>% select(c(contratacao, ends_with('.pct'))) %>% 
  pivot_longer(cols = ends_with(".pct"), 
               values_to = "percentual", names_to = 'Metrica') %>% 
  mutate(Metrica = sub('.pct', '', Metrica),
         Metrica = case_when(
           Metrica == 'benef' ~ 'Beneficiários',
           Metrica == 'despesa' ~ 'Despesa',
           Metrica == 'n_ops.benef' ~ 'Ops (SIB)',
           Metrica == 'n_ops.despesa' ~ 'Ops (DIOPS)', 
           TRUE ~ 'ERRO'),
         percentual = round(percentual, 1)
         ) %>% 
  ggplot(aes(y = contratacao, x=percentual)) +
  geom_col(position = 'dodge', fill = "slategray4") +
  geom_text(aes(label = percentual, hjust = 1.2), color = "white", 
            position = position_dodge(1)) +
  labs(x=NULL, y=NULL, 
       title = "Representatividade da base de cálculo da VDA sobre as bases originais\n") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank()) + 
  facet_grid(Metrica ~ .)


Glossário

Beneficiário: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.

Contratante: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.

Operadora: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.

Plano Privado de Assistência à Saúde: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.

Tipo de contratação:

  • Individual ou Familiar, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar

  • Coletivo empresarial, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária

  • Coletivo por adesão, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)

Tipo de financiamento:

  • Pré-estabelecido, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.

  • Pós-estabelecido, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.

---
title: "Variação da Despesa Assistencial (VDA)"
author: "Agência Nacional de Saúde Suplementar"
date: "30 de abril de 2021"
output:
  html_notebook:
    toc: yes
    toc_depth: 3
    toc_float: yes
---
***
## Introdução
***

### Contexto

O documento a seguir detalha o passo a passo da apuração da **Variação da Despesa Assistencial (VDA)** do ano de 2020 sobre o ano de 2019. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA 2020 e acompanhar a evolução da mesma ao longo do ano.    

A VDA é um dos principais componentes do cálculo do **Índice de Reajuste de Planos Individuais (IRPI)**, que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar.  A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela [RN nº 441/2018](http://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY2Mg==) e está detalhada no [Espaço do Consumidor](http://www.ans.gov.br/planos-de-saude-e-operadoras/espaco-do-consumidor/reajuste-variacao-de-mensalidade/reajuste-anual-de-planos-individuais-familiares) no site da ANS.              

A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656, de 1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.    

A medida de tendência central do setor de saúde suplementar é a média da VDA das operadoras ponderada pelo número de beneficiários do período mais recente, conforme consignada no Anexo II da [Resolução Normativa - RN nº 441, de 19 de dezembro de 2018](http://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY2Mg==). A fórmula para o cálculo da média ponderada da VDA das operadoras do setor em determinado ano é:     
<br>
    

$$VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}$$
<br>
<div class="alert alert-block alert-info">
<b>Onde:</b>     
    i = Operadora na base de cálculo        
    n = Todas as operadoras na base de cálculo         
    p = Período de janeiro a dezembro do ano calendário anterior ao início da aplicação do IRPI    
    DA = Despesa assistencial em carteira própria acumulada ao fim do período     
    Ben = Média mensal de beneficiários em carteira própria ao longo do período     
</div>

<br>
Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de **despesa assistencial**, **quantidade de beneficiários com vínculos ativos** e **características das operadoras de planos de saúde**. Esses conjuntos de dados podem ser acessadas pelo [portal de dados abertos da Agência Nacional de Saúde Suplementar (ANS)](https://dados.gov.br/organization/agencia-nacional-de-saude-suplementar-ans?page=1). Os links específicos para cada base utilizada neste cálculo estão disponíveis na respectiva seção de *"Limpeza e Tratamento de Dados"*.       
    
***
### Setup
*Desenvolvido em R versão 4.0.5 e RStudio versão 1.4.1106*

```{r setup, include=FALSE}
knitr::opts_chunk$set(
  echo = TRUE, message=FALSE, warning=FALSE
)

setwd("C:/Users/catan.CAKEMIT-NB2/OneDrive - ANS/02. GEFAP/VDA/VDA 2020")

rm(list=ls()) # Limpa o global environment

library(RColorBrewer)

```


```{r inicio}
# Setup (bibliotecas, funções e variáveis globais) =============================
library(data.table)
library(tidyverse)
library(dtplyr)
library(lubridate)

# "Desliga" notação científica. 
options(scipen=999)

# função para exclusão de valores extremos por boxplot 1.5xIQR
trim.df <- function(df, metrica){
  df %>% filter((metrica > quantile(metrica, 0.25) - 1.5 * IQR(metrica)) 
                & (metrica < quantile(metrica, 0.75) + 1.5 * IQR(metrica)))
}

# função para gerar resumo de estatísticas descritivas
statsVDA <- function(df){
  df %>% 
    summarise(n_ops = n_distinct(cd_ops),
              benef = sum(benefm),
              mediaP = weighted.mean(vda, w = benefm),
              min = min(vda),
              q1 = quantile(vda, p = .25, names = F),
              median = median(vda),
              q3 = quantile(vda, p = .75, names = F),
              max = max(vda),
              dp = sd(vda),
              media = mean(vda),
              .groups = 'drop') %>%
    mutate(across( c(mediaP:media), ~ round(.x, 2) ))
}

# período de análise
(periodo <- c(make_date(2019,01,01), make_date(2020,12,01)))
```


***
## Limpeza e tratamento dos dados
***
### Despesa Assistencial

As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das Demonstrações Contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS).  A data limite de envio das informações do 4º trimestre ao DIOPS é o dia 31 de março do ano subsequente. 

Todas as demonstrações financeiras publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela [RN nº 435, de 23 de novembro de 2018](http://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY0Mg==). 

A base de dados do DIOPS referente ao 4º trimestre de 2020 pode ser acessada no [Portal de Dados Abertos da ANS - Demonstrações Contábeis](https://dados.gov.br/dataset/http-www-ans-gov-br-perfil-do-setor-dados-abertos-dados-abertos-disponiveis-n3). Esse conjunto de dados detalha o saldo acumulado em reais ao final de cada trimestre nas contas contábeis de cada operadora (incluindo contas de balanço e demonstrações de resultado).    

A base referente ao 4º trimestre de 2019 disponível no Portal de Dados Abertos foi publicada em abril de 2020. Assim, faz-se necessário consultar uma versão atualizada dos dados do 4º trimestre de 2019 que contemple as retificações feitas pelas operadoras desde então. A base de Demonstrações Contábeis referentes a 2019 atualizada em 16/04/2021 pode ser acessada no site da ANS em [Espaço do Consumidor > Reajuste > Individual ou familiar > Metodologia de Cálculo](https://www.gov.br/ans/pt-br/assuntos/consumidor/reajuste-variacao-de-mensalidade/reajuste-anual-de-planos-individuais-familiares-1/metodologia-de-calculo).

O código a seguir faz a leitura dos arquivos *.csv:

```{r despesa0, echo=TRUE, paged.print=TRUE}
# Load dataset juntando vários arquivos a partir de uma pasta ==================
files <- list.files(path = "./datasets/diops/", pattern = "*.csv", full.names = T)
diops <- rbindlist(lapply(files, fread, 
                          dec=",", drop='DESCRICAO', 
                          colClasses = c(CD_CONTA_CONTABIL="character"))) %>% 
  lazy_dt() %>%
  rename_with(tolower) %>% 
  filter(
    nchar(cd_conta_contabil) == 9, # filtra contas contábeis de 9 dígitos
    vl_saldo_final != 0            # exclui linhas sem saldo
  ) %>% 
  mutate(id_calendar = dmy(data) + months(2)) %>% # altera para último mês do trimestre
  rename(cd_ops = reg_ans) %>% 
  select(cd_ops, cd_conta_contabil, id_calendar, vl_saldo_final) %>% 
  as_tibble()

remove(files)
```

<br>
O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela [RN nº 435, de 23 de novembro de 2018](http://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY0Mg==):


| Conta contábil | Descrição | Totalização |
|:------|:-----------------------------------|:------:|
| 411X1 | Eventos/ Sinistros Conhecidos ou Avisados de Assistência a Saúde Medico Hospitalar | (+) |
| 411X1XX8 | Corresponsabilidade Assumida | (-) |
| 31171 | (-) Contraprestações de Corresponsabilidade Cedida de Assistência Médico-Hospitalar | (-) |


Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria *cedida* a terceiros (contas contábeis redutoras de receita 31171). Valores de corresponsabilidade *assumida* são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).          


O código a seguir totaliza a despesa assistencial por trimestre, operadora e tipo de carteira: 

```{r despesa1}
# seleciona as contas contábeis relevantes (despesa e receita) =================
diops <- diops %>% 
  filter( # filtra contas contábeis relevantes para a análise
    # despesa / corresponsabilidade assumida médico-hospitalar
    (substr(cd_conta_contabil, 1, 3) == '411' & substr(cd_conta_contabil, 5, 5) == '1')
    # receita / corresponsabilidade cedida médico-hospitalar
    | (substr(cd_conta_contabil, 1, 5) == '31111' | substr(cd_conta_contabil, 1, 5) == '31171')
  ) %>% 
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4' ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida', # redutora de receita
      TRUE ~ 'EXCLUIR'), 
  ) %>%
  group_by(cd_ops, cd_conta_contabil, id_calendar, gr_cc) %>% 
  summarise(vl_saldo_final = sum(vl_saldo_final), 
            .groups = 'drop') %>%  
  pivot_wider(names_from = gr_cc, values_from = vl_saldo_final, values_fill = 0) %>% 
  # identifica tipos de plano pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      TRUE ~ 'EXCLUIR'), 
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      TRUE ~ 'EXCLUIR'), 
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pre-estabelecido',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós-estabelecido',
      TRUE ~ 'EXCLUIR'), 
  ) %>% 
  filter(vigencia != 'corr_assumida') %>%     # exclui corr assumida
  mutate(despesa = eventos - corr_cedida,
         contratacao = as.factor(contratacao)) %>% # inclui corr cedida na despesa
  group_by(cd_ops, vigencia, contratacao, financiamento, id_calendar) %>% 
  summarise(receita = sum(receita), 
            despesa = sum(despesa), 
            .groups = 'drop')
  

diops %>% group_by(ano= year(id_calendar)) %>% 
  summarise(
    receita = round(sum(receita, na.rm = T)/1000000000, 1), # em R$ bilhões
    despesa = round(sum(despesa, na.rm = T)/1000000000, 1), # em R$ bilhões
    n_ops = n_distinct(cd_ops), 
    .groups = 'drop'
  ) %>% 
  mutate(pct_despesa = round(despesa/receita*100,2))
```

<br>
Filtra segmentos alvo da análise e totaliza por trimestre, operadora e tipo de plano:

```{r despesa2}
diops <- diops %>% 
  filter( # filtra tipos de plano relevantes para a análise
    vigencia == 'P', # planos novos
    financiamento == 'Pre-estabelecido', # financiamento pre-estabelecido
  ) %>% 
  select(-vigencia, -financiamento)

diops %>% group_by(contratacao, ano= year(id_calendar)) %>% 
  summarise(
    receita = round(sum(receita, na.rm = T)/1000000000, 1), # em R$ bilhões
    despesa = round(sum(despesa, na.rm = T)/1000000000, 1), # em R$ bilhões
    n_ops = n_distinct(cd_ops),
    .groups = 'drop') %>% 
  mutate(pct_despesa = round(despesa/receita*100,2))
```

***

### Beneficiários (semi-aditivo)

As informações de vínculos ativos de beneficiários são obtidas através da base do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente. A versão utilizada nos cálculos da VDA 2020/2019 é a versão atualizada até março de 2021.           

A base de dados do SIB referente aos anos de 2019 e 2020 pode ser acessada no [Portal de Dados Abertos da ANS -  Beneficiários por operadora e tipo de carteira para cálculo da VDA](https://dados.gov.br/dataset/beneficiarios-com-vinculos-ativos-por-tipo-de-contratacao-para-calculo-da-vda) no site da ANS. Esse conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.       

O código a seguir faz a leitura dos arquivos *.csv:

```{r benef0, echo=TRUE, paged.print=TRUE}
# Load dataset
sib <- fread("./datasets/Beneficiarios_operadora_e_carteira.csv") %>%
  lazy_dt() %>%
  rename_with(tolower) %>% 
  mutate(
    id_calendar = make_date(as.integer(mes / 100), 
                            mes - as.integer(mes / 100) * 100, 1),
    modalidade = as.factor(gr_modalidade),
    vigencia = as.factor(vigencia_plano),
    contratacao = as.factor(gr_contratacao),
    financiamento = as.factor(tipo_financiamento),
  ) %>%
  filter(
    id_calendar >= periodo[1], id_calendar <= periodo[2],  # período de análise
    nr_benef != 0, !is.na(nr_benef)   # exclui zeros e nulos
  ) %>% 
  rename( cd_ops = cd_operadora, benef = nr_benef ) %>% 
  mutate(
    contratacao = case_when(
      contratacao == 'Coletivo empresarial' ~ 'Empresarial',
      contratacao == 'Coletivo por adesão' ~ 'Adesão',
      contratacao == 'Individual ou familiar' ~ 'Individual',
      TRUE ~ 'Não identificado')
  ) %>% 
  select(cd_ops, modalidade, 
         vigencia, contratacao, financiamento, 
         id_calendar, benef) %>% 
  as_tibble()

# segmenta porte da operadora pela quantidade de beneficiários médico-hospitalares
ops <- sib %>% 
  filter(id_calendar == periodo[2]) %>% 
  group_by(cd_ops) %>% 
  summarise(benef = sum(benef)) %>% 
  mutate(
    porte_ops = case_when(
      benef > 100000 ~ 'Grande',
      benef >= 20000 ~ 'Médio',
      TRUE ~ 'Pequeno' )
  )

sib %>% group_by(ano = year(id_calendar)) %>% 
  summarise(benef_media_agregada = round(sum(benef)/12,0),
            n_ops = n_distinct(cd_ops),
            .groups = 'drop') 
```

<br>
Filtra segmentos alvo da análise e totaliza por mês, operadora e tipo de plano.

```{r benef1}
sib <- sib %>% 
  filter(
    # operadoras médico-hospitalares
    modalidade %in% c('Autogestão', 'Cooperativa Médica', 'Filantropia',
                      'Medicina de Grupo','Seguradora'),
    vigencia == 'P', # planos novos
    financiamento != 'Pós-estabelecido', # financiamento pre-estabelecido
    contratacao %in% c('Empresarial', 'Individual', 'Adesão')) %>% 
  group_by(cd_ops, contratacao, id_calendar) %>% 
  summarise(benef = sum(benef), .groups = 'drop') 

sib %>% group_by(contratacao, ano = year(id_calendar)) %>% 
  summarise(benef_media_agregada = round(sum(benef)/12,0),
            n_ops = n_distinct(cd_ops),
            .groups = 'drop') 
```

<br>
Calcula média de beneficiários acumulada no ano por operadora e tipo de contratação:

```{r benef2}
sib <- sib %>% 
  arrange(cd_ops, contratacao, id_calendar) %>% 
  # cria coluna do ano
  mutate(id_calendar = ymd(id_calendar), 
         ano = as.integer(year(id_calendar))) %>% 
  # calcula a média por operadora, contratacao e ano
  group_by(cd_ops, contratacao, ano) %>% 
  mutate(
    benefm = cummean(benef),        # média acumulada no ano
    n_meses = length(benef),                 # qtd de meses com beneficiários
    mes = as.integer(month(id_calendar)),
    contratacao = as.factor(contratacao),
  ) %>% 
  ungroup() %>% 
  filter(mes %in% c(12)) %>% # seleciona o(s) período(s) alvo da análise
  select(-benef, -ano, -mes) 

sib %>% group_by(contratacao, ano = year(id_calendar)) %>% 
  summarise(benefm = round(sum(benefm),0), # soma das médias
            n_ops = n_distinct(cd_ops),
            .groups = 'drop')
```

***
### Operadoras

As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).       

Dois conjuntos de dados estão disponíveis no Portal de Dados Abertos da ANS: Cadastro das  [Operadoras de planos de saúde Ativas](https://dados.gov.br/dataset/operadoras-de-planos-privados-de-saude) e das [Operadoras de planos de saúde Canceladas](https://dados.gov.br/dataset/operadoras-de-planos-de-saude-com-registro-cancelado). Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início e fim de operação (respectivamente data do registro e data do cancelamento do registro).      

O código a seguir faz a leitura dos arquivos *.csv:

```{r ops0, echo=TRUE, warning=FALSE, paged.print=TRUE}
# Load dataset juntando vários arquivos a partir de uma pasta
files <- list.files(path="./datasets/cadop/", pattern="*.csv", full.names=T)

cadop <- rbindlist(lapply(files, fread), fill=T) %>% 
  lazy_dt() %>%
  rename_with(tolower) %>% 
  mutate(
    dt_registro = dmy(data_registro_ans), 
    dt_cancelamento = dmy(data_descredenciamento),
    modalidade = ifelse(modalidade == 'Seguradora Especializada em Saúde',
                        'Seguradora',
                        modalidade)) %>% 
  mutate(modalidade = as.factor(modalidade)) %>% 
  rename(cd_ops = registro_ans) %>% 
  select(cd_ops, razao_social, modalidade, dt_registro, dt_cancelamento) %>%
  as_tibble() %>% 
  left_join(ops, by='cd_ops') %>% 
  select(-benef) %>% 
  mutate(porte_ops = as.factor(ifelse(is.na(porte_ops), 'Pequeno', porte_ops)))

remove(files)
```

<br>
Para o cálculo da VDA no IRPI selecionam-se as operadoras *médico-hospitalares* e são desconsideradas      

1. Operadoras que iniciaram operação entre janeiro de 2019 e dezembro de 2020.
2. Operadoras que tiveram registro cancelado até dezembro de 2020.
3. Operadoras com ressalvas nas demonstrações financeiras protocoladas junto à ANS referentes a 2019 ou 2020.

O código a seguir filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:

```{r ops1}
ressalvas <- fread("./datasets/ressalvas.csv", encoding = 'UTF-8') %>% 
  distinct(cd_ops) %>% 
  mutate(lg_ressalva = 1) %>% 
  as_tibble()

cadop <- cadop %>% 
  filter(modalidade %in% c('Autogestão', 'Cooperativa Médica', 'Filantropia',
                           'Medicina de Grupo', 'Seguradora')) %>%  # ops médico-hospitalares
  mutate(
    lg_cancelada = ifelse(year(dt_cancelamento) <= year(periodo[2]) 
                          & !is.na(dt_cancelamento),
                          1, 0), # filtro de fim da operação
    lg_nova_ops  = ifelse(year(dt_registro) >= year(periodo[1]),
                          1, 0)) %>% # filtro de início de operação
  select(cd_ops, razao_social, modalidade, porte_ops, lg_cancelada, lg_nova_ops) %>%
  left_join(ressalvas, by = 'cd_ops') %>% 
  mutate(lg_ressalva = ifelse(is.na(lg_ressalva), 0, lg_ressalva))

remove(ops, ressalvas)
cadop %>% summarise(
  n_ops = n_distinct(cd_ops),
  n_canceladas = sum(lg_cancelada),
  n_nova_ops = sum(lg_nova_ops),
  n_ressalvas = sum(lg_ressalva)
)
```

***
## Cálculo da VDA
***
### Despesa por Beneficiário

Essa seção gera a base de despesa assistencial e beneficiários e calcula a *despesa por beneficiário*.           

A despesa por beneficiário é a *despesa assistencial* da carteira própria de uma operadora incorrida em certo período, dividida pela *média de vínculos ativos de beneficiários* ao longo do mesmo período. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.           
            

> Nota:     
  Para facilitar a comparabilidade e acompanhamento da despesa por beneficiário ao longo do tempo, é possível normalizar a métrica dividindo-a pelo número de meses do período sem impacto sobre a VDA.

              
A base de cálculo da VDA considera apenas:      

* Operadoras válidas     

* Observações que apresentam valor positivo de despesa        

* Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários no ano        

O código a seguir consolida os dados de operadoras, beneficiários e despesas, filtra as observações relevantes e calcula a Despesa por Beneficiário (média mensal):


```{r dpb0}
df.vda <- diops %>% 
  select(-receita) %>% 
  inner_join(sib, by=c('cd_ops', 'contratacao', 'id_calendar')) %>% 
  inner_join(cadop, by='cd_ops') %>% 
  filter(
    lg_cancelada == 0, 
    lg_nova_ops  == 0, 
    lg_ressalva  == 0,
    despesa > 0,
    n_meses == 12 # ops com sequência ininterrupta de beneficiários no ano
  ) %>% 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, n_meses)) %>% 
  relocate(c(razao_social, modalidade, porte_ops), .after = cd_ops) %>% 
  arrange(cd_ops, contratacao, id_calendar) %>% 
  mutate(dpb = ifelse(benefm > 0, despesa/ benefm / month(id_calendar), NA))

df.vda %>% group_by(contratacao, ano= year(id_calendar)) %>% 
  summarise('Despesa (R$bn)' = round(sum(despesa)/1000000000,1),
            'Beneficiários (média)' = round(sum(benefm),0),
            'Qtd operadoras' = n_distinct(cd_ops),
            .groups = 'drop')
```


<br>
Visualização gráfica da distribuição da despesa por beneficiário das operadoras.     
*Nota: Excluíram-se os valores atípicos pelo método de boxplot 1,5xIQR para que fosse possível visualizar a distribuição da grande maioria dos dados.*

```{r plot1}
trim.df(df.vda, df.vda$dpb) %>% ggplot(aes(x=dpb)) +
  geom_histogram(bins = 50, fill = 'white', color = "slategray") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank(),
        panel.background = element_blank()) +
  labs(x = "Despesa mensal por beneficiário (R$)",
       y = "Frequência") + 
  facet_grid(contratacao ~ year(id_calendar))
```



***
### VDA por operadora

A VDA de uma operadora é a variação da despesa por beneficiário desta operadora sobre o mesmo período do ano anterior, conforme a seguinte fórmula:
<br>

$$VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1$$
<br>
    

<div class="alert alert-block alert-info">
<b>Onde:</b>     
    i = Operadora na base de cálculo         
    p = Período de janeiro a dezembro do ano calendário anterior ao início da aplicação do IRPI    
    DA = Despesa assistencial em carteira própria acumulada ao fim do período    
    Ben = Média mensal de beneficiários em carteira própria ao longo do período    
</div>

O código a seguir calcula a VDA por operadora:

```{r vda0}
df.vda <- df.vda %>%
  arrange(cd_ops, contratacao, id_calendar) %>% 
  mutate(vda = ifelse(lag(cd_ops) == cd_ops 
                      & lag(contratacao) == contratacao
                      & year(lag(id_calendar)) == year(id_calendar) - 1, 
                      (dpb/lag(dpb) - 1) * 100, NA)) %>% 
  filter(!is.na(vda)) %>% 
  select(-id_calendar)

```

***
### VDA do setor

Estatísticas descritivas da base de cálculo da VDA.


```{r vda0a}
df.vda %>% group_by(contratacao) %>% 
  statsVDA() 
```


Visualização gráfica da distribuição da VDA das operadoras através de um gráfico boxplot.

```{r plot2a, echo=FALSE}
df.vda %>% 
  ggplot(aes(x=vda, y=contratacao)) +
  geom_boxplot(aes(fill=contratacao), show.legend = FALSE) + 
  scale_fill_brewer(palette = "Dark2") +
  labs(y="") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank())
```


```{r plot2b, echo=FALSE}
df.vda %>% filter(contratacao == "Individual") %>% 
  ggplot(aes(x=vda, y=contratacao)) +
  geom_boxplot(fill='#7570B3', show.legend = FALSE) +
  labs(y="") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank(),
        aspect.ratio = 0.4/2) 
```


O código a seguir identifica valores atípicos pela metodologia BoxPlot 1,5xIQR e calcula a proporção de valores atípicos por carteira: 

```{r vda1, message=FALSE, warning=FALSE}
# === IDENTIFICA OUTLIERS === CRITÉRIO: BOX-PLOT 1.5x ===
df.vda <- df.vda %>%
  group_by(contratacao) %>% 
  mutate(lg_outlier = ifelse(vda >= (quantile(vda, 0.75, names = F) + 1.5 * IQR(vda)) 
                             | vda <= (quantile(vda, 0.25, names = F) - 1.5 * IQR(vda)),
                             1, 0)) %>% 
  ungroup()

# Proporção de outliers
df.vda %>%
  group_by(contratacao, lg_outlier) %>%
  summarise(n_obs = n()) %>%
  add_tally(wt = n_obs) %>%
  mutate(pct_obs = round(n_obs / n * 100, 1))
```

<br>
Boxplot da distribuição da VDA após a exclusão dos valores atípicos.

```{r plot3b, echo=FALSE}
df.vda %>% filter(lg_outlier == 0) %>% 
  ggplot(aes(x=vda, y=contratacao)) +
  geom_boxplot(aes(fill=contratacao), show.legend = FALSE) + 
  scale_fill_brewer(palette = "Dark2") +
  labs(y="") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank())
```
<br>
Histograma da distribuição da VDA sem os valores atípicos.

```{r plot3c, echo=FALSE}
df.vda %>% filter(lg_outlier == 0) %>% 
  ggplot(aes(x=vda)) +
  geom_histogram(bins = 50, fill = 'white', color = "slategray") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank(),
        panel.background = element_blank()) +
  labs(x = "Despesa mensal por beneficiário (R$)",
       y = "Frequência") + 
  facet_grid(contratacao ~ .)
```



<br>
A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores atípicos. A seguir, apresenta-se a média ponderada da VDA (mediaP) e demais estatísticas descritivas da sua distribuição em cada carteira.

```{r vda2}
df.vda %>% filter(lg_outlier == 0) %>% 
  group_by(contratacao) %>% 
  statsVDA()
```
***
### Base de cálculo

<br>
Gera a base completa que reúne todas as observações de receita, despesa e beneficiários informadas pelas operadoras para os dois anos e o cálculo da VDA por operadora.


```{r base_reunida}
sib2 <- sib %>% 
  mutate(ano = year(id_calendar)) %>% 
  select(-id_calendar) %>% 
  rename(ben = benefm) %>% 
  pivot_wider(names_from = ano, values_from = c(ben, n_meses), 
              values_fill = 0) %>% 
  mutate(
    lg_benef = ifelse( # marca obs sem sequencia ininterrupta de ben em 1 dos anos
      ben_2019 < 1 | ben_2020 < 1 | (n_meses_2019 + n_meses_2020) != 24, 
      1, 0)
  ) %>% 
  select(-starts_with('n_meses'))

diops2 <- diops %>% 
  mutate(ano = year(id_calendar)) %>% 
  select(-id_calendar) %>% 
  pivot_wider(names_from = ano, values_from = c(despesa, receita), 
              values_fill = 0) %>% 
  mutate(lg_despesa = ifelse(
    despesa_2019 <=0 | despesa_2020 <= 0, 1, 0 # marca obs sem despesa em 1 dos anos
  )) 

df.vda2 <- df.vda %>% 
  select(cd_ops, contratacao, vda, lg_outlier)

df.reunida <-  sib2 %>% 
  full_join(diops2, by=c('cd_ops', 'contratacao')) %>% 
  mutate(dpb_2019 = ifelse(despesa_2019 > 0 & ben_2019 > 0, 
                           round(despesa_2019 / ben_2019 / 12, 0), NA),
         dpb_2020 = ifelse(despesa_2020 > 0 & ben_2020 > 0, 
                           round(despesa_2020 / ben_2020 / 12, 0), NA)) %>% 
  full_join(df.vda2, by=c('cd_ops', 'contratacao')) %>% 
  inner_join(cadop, by = 'cd_ops') %>% 
  mutate(despesa_2019 = ifelse(despesa_2019 == 0, NA, despesa_2019),
         despesa_2020 = ifelse(despesa_2020 == 0, NA, despesa_2020),
         receita_2019 = ifelse(receita_2019 == 0, NA, receita_2019),
         receita_2020 = ifelse(receita_2020 == 0, NA, receita_2020),
         ben_2019   = ifelse(ben_2019 == 0, NA, ben_2019),
         ben_2020   = ifelse(ben_2020 == 0, NA, ben_2020),
         lg_benef   = ifelse(is.na(lg_benef), 1, lg_benef),
         lg_despesa = ifelse(is.na(lg_despesa), 1, lg_despesa)
  ) %>% 
  relocate(razao_social:lg_ressalva, .after = cd_ops) %>% 
  select(cd_ops:contratacao, 
         starts_with('lg_'),
         starts_with('receita'), 
         starts_with('despesa'), 
         starts_with('ben'), 
         everything())

remove(diops2, sib2, df.vda2)

df.reunida %>% filter(lg_outlier == 0) %>% 
  group_by(contratacao) %>% 
  rename(benefm = ben_2020) %>% 
  statsVDA()
```

<br>
Calcula a proporção (representatividade) da base de cálculo sobre as bases originais.

```{r plot4}
df1 <- df.reunida %>% filter(!is.na(lg_outlier)) %>% 
  group_by(contratacao) %>% 
  summarise(benef.VDA = sum(ben_2020),
            despesa.VDA = sum(despesa_2020), 
            n_ops.VDA = n_distinct(cd_ops))

df2 <- df.reunida %>% 
  group_by(contratacao) %>% 
  summarise(benef.orig   = sum(ben_2020, na.rm = T),
            despesa.orig = sum(despesa_2020, na.rm = T),
            n_ops.orig.ben   = n_distinct(cd_ops, ben_2020, na.rm = TRUE),
            n_ops.orig_desp = n_distinct(cd_ops, despesa_2020, na.rm = TRUE)) %>% 
  inner_join(df1, by='contratacao') %>% 
  mutate(benef.pct    = benef.VDA / benef.orig * 100, 
         despesa.pct  = despesa.VDA / despesa.orig * 100,
         n_ops.benef.pct   = n_ops.VDA / n_ops.orig.ben * 100,
         n_ops.despesa.pct = n_ops.VDA / n_ops.orig_desp * 100) %>% 
  select(contratacao, starts_with("benef"), starts_with("despesa"), starts_with("n_ops"))


df2 %>% select(c(contratacao, ends_with('.pct'))) %>% 
  pivot_longer(cols = ends_with(".pct"), 
               values_to = "percentual", names_to = 'Metrica') %>% 
  mutate(Metrica = sub('.pct', '', Metrica),
         Metrica = case_when(
           Metrica == 'benef' ~ 'Beneficiários',
           Metrica == 'despesa' ~ 'Despesa',
           Metrica == 'n_ops.benef' ~ 'Ops (SIB)',
           Metrica == 'n_ops.despesa' ~ 'Ops (DIOPS)', 
           TRUE ~ 'ERRO'),
         percentual = round(percentual, 1)
         ) %>% 
  ggplot(aes(y = contratacao, x=percentual)) +
  geom_col(position = 'dodge', fill = "slategray4") +
  geom_text(aes(label = percentual, hjust = 1.2), color = "white", 
            position = position_dodge(1)) +
  labs(x=NULL, y=NULL, 
       title = "Representatividade da base de cálculo da VDA sobre as bases originais\n") +
  theme(axis.line = element_line(color = 'gray'),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank(),
        panel.border = element_blank()) + 
  facet_grid(Metrica ~ .)
```



```{r eval=FALSE, include=FALSE}
# multiple dataframes to a folder
remove(df1,df2)

dfs <- ls()[sapply(mget(ls(), .GlobalEnv), is.data.frame)]
for (df in dfs) {
  get(df) %>%
    mutate(across(where(is.factor), ~ enc2utf8(as.character(.x)))) %>% 
    mutate(across(where(is.character), ~ enc2utf8(as.character(.x)))) %>% 
    fwrite(str_c(c("./basesR/", df, ".csv"), sep = "", collapse = ""))
}
remove(df, dfs)

```
***
## Glossário    

**Beneficiário**: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.              

**Contratante**: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.          

**Operadora**: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.             

**Plano Privado de Assistência à Saúde**: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.             

**Tipo de contratação**:           

  + *Individual ou Familiar*, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar            
  
  + *Coletivo empresarial*, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária           
  
  + *Coletivo por adesão*, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)            
  
              
              
**Tipo de financiamento**:               

  + *Pré-estabelecido*, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.            
  
  + *Pós-estabelecido*, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.               
