Introdução


Contexto

O documento a seguir detalha o passo a passo da apuração da Variação da Despesa Assistencial por Beneficiário (VDA) do ano de 2022 sobre o ano de 2021. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA e acompanhar a evolução da mesma ao longo do ano.

A VDA é um dos principais componentes do cálculo do Índice de Reajuste de Planos Individuais (IRPI), que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar. A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela Resolução Normativa - RN nº 441, de 19 de dezembro de 2018 e está detalhada no site da ANS em Espaço do Consumidor > Reajuste/Variação de mensalidade > Reajuste anual de planos individuais/familiares > Metodologia de Cálculo.

A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656/1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.

A medida de tendência central do setor de saúde suplementar é a média da VDA das operadoras ponderada pela quantidade de beneficiários do período mais recente, conforme consignada no Anexo II da RN nº 441/2018. Assim, fórmula para o cálculo da média ponderada da VDA das operadoras do setor em determinado ano é:

\[VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}\]

Onde:
i = Operadora na base de cálculo
n = Todas as operadoras na base de cálculo
p = Período de janeiro a dezembro do ano calendário
DA = Despesa assistencial em carteira própria acumulada no período
Ben = Média mensal de beneficiários em carteira própria ao longo do período


Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de despesa assistencial, quantidade de beneficiários com vínculos ativos e características das operadoras de planos de saúde. Esses conjuntos de dados podem ser acessados pelo Portal Brasileiro de Dados Abertos do Governo Federal. Os links para cada conjunto de dados utilizado neste cálculo estão disponíveis a seguir na seção de “Limpeza e Tratamento de Dados”.


Setup

Desenvolvido em R 4.2.2 (2022-10-31 ucrt) e RStudio 2023.03.0+386 for Windows

# bibliotecas, funções e variáveis globais =============================
library(data.table)
library(tidyverse)
library(dtplyr)
library(lubridate)
# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"

Limpeza e tratamento dos dados


Operadoras

As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).

Dois conjuntos de dados estão disponíveis no Portal Brasileiro de Dados Abertos (https://dados.gov.br/dados/conjuntos-dados):

Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início (data do registro da operadora junto à ANS) e fim de operação (data do cancelamento do registro).

O código a seguir faz a leitura dos arquivos *.csv do cadastro de operadoras ativas e canceladas:

ta.cadop <- fread(paste0(url_raiz,"operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"),
               colClasses = c(rep("character",20))) |> 
  # Cria campos de cancelamento de registro para juntar com dataset de operadoras canceladas
  mutate(Data_Descredenciamento = "", Motivo_do_Descredenciamento = "") |>
  # Inclui dataset de operadoras com registro cancelado
  rbind(
    fread(paste0(url_raiz,"operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"),
          colClasses = c(rep("character",22))) 
  ) |>  
  lazy_dt() |> as_tibble() |> 
  
  rename_with(tolower) |> 
  # Formata as colunas relevantes
  mutate(
    id_ops = as.integer(registro_ans),
    dt_registro = as_date(data_registro_ans), 
    dt_cancelamento = as_date(data_descredenciamento),
    modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde', 'Seguradora',
                         modalidade),
    razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ") 
  ) |> 
  # Seleciona as colunas de interesse
  select(id_ops, razao_social, modalidade, dt_registro, dt_cancelamento) 


Para o cálculo da VDA no IRPI selecionam-se as operadoras médico-hospitalares e são desconsideradas

  1. Operadoras que iniciaram operação entre janeiro de 2021 e dezembro de 2022.
  2. Operadoras que tiveram registro cancelado até dezembro de 2022.
  3. Operadoras com ressalvas nas demonstrações financeiras protocoladas junto à ANS referentes a 2021 ou 2022.

O código a seguir filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:

ressalvas <- read.csv("_datasets/ressalvas.csv") |> 
  distinct(id_ops) |> 
  mutate(lg_ressalva = 1L, id_ops = as.integer(id_ops))

ta.cadop <- ta.cadop |> 
  # Filtra apenas operadoras médico-hospitalares
  filter(modalidade %in% c('Autogestão', 'Cooperativa Médica', 'Filantropia',
                           'Medicina de Grupo', 'Seguradora')) |>  
  # Identifica operadoras em fim de operação e/ou início de operação
  mutate(
    lg_cancelada = ( year(dt_cancelamento)<=year(periodo[2]) & !is.na(dt_cancelamento) ), 
    lg_nova_ops  = ( year(dt_registro) >= year(periodo[1]) )
  ) |> 
  select(id_ops, razao_social, modalidade, lg_cancelada, lg_nova_ops) |>
  left_join(ressalvas, by = 'id_ops') |> 
  mutate(lg_ressalva = ( !is.na(lg_ressalva) ))

remove(ressalvas)


Despesa Assistencial

As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das demonstrações contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS). O prazo de envio das demonstrações contábeis ao DIOPS referente ao 4º trimestre se encerrou em 31 de março.

Todas as demonstrações contábeis publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela RN nº 528/2022, que dispõe sobre o plano de contas do exercício de 2022 e pela RN nº 435/2018, que dispõe sobre o plano de contas do exercício de 2021.

O conjunto de dados “Demonstrações Contábeis” do 4º trimestre de 2022 pode ser acessado no Portal Brasileiro de Dados Abertos do Governo Federal. Este conjunto de dados detalha o saldo acumulado em reais ao final do trimestre nas contas contábeis de cada operadora.

O conjunto de dados do 4º trimestre de 2021 foi atualizado para contemplar as retificações feitas ao longo do ano por operadoras com ressalvas. Esta base atualizada acompanha a Nota Técnica nº 1/2023/COREF/GEFAP/DIRAD-DIPRO/DIPRO que está publicada no site oficial da agência na página Portal ANS > Espaço do Consumidor > Reajuste > Individual ou Familiar > Metodologia de Cálculo > Reajuste 2023

O código a seguir faz a leitura dos arquivos *.csv:

files <- list.files(path = "_datasets/diops", full.names = T)
diops <- rbindlist(
  lapply(files, fread, 
         dec=",", drop='DESCRICAO', colClasses = c(CD_CONTA_CONTABIL="character"))) |> 
  lazy_dt() |> 
  rename_with(tolower) |> 
  filter(nchar(cd_conta_contabil) == 9,          # filtra contas contábeis de 9 dígitos
         vl_saldo_final != 0) |>                 # exclui linhas sem saldo final
  mutate(id_calendar = ymd(data) + months(2)) |> # altera para último mês do trimestre
  rename(id_ops = reg_ans) |> 
  select(id_ops, cd_conta_contabil, id_calendar, vl_saldo_final) |> 
  as_tibble()

remove(files)


O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS:

Conta contábil Descrição Totalização
411X1XXXX Eventos/sinistros conhecidos ou avisados de assistência à saúde médico-hospitalar (+)
411X1XX8X Corresponsabilidade Assumida (-)
31171XXXX (-) Contraprestações de corresponsabilidade cedida de assistência médico-hospitalar (-)

Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria cedida a terceiros (contas contábeis redutoras de receita 31171XXXX). Valores de corresponsabilidade assumida (contas contábeis de despesa 411X1XX8X) são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).

O código a seguir totaliza a despesa assistencial por trimestre, operadora e tipo de carteira:

diops <- diops |>  
  # filtra contas contábeis relevantes para a análise
  filter( 
    # eventos/sinistros conhecidos médico-hospitalar, incluindo corresponsabilidade assumida 
    (substr(cd_conta_contabil, 1, 3) == '411' & substr(cd_conta_contabil, 5, 5) == '1')
    # receita de contraprestações médico-hospitalares e 
    # corresponsabilidade cedida médico-hospitalar (redutor de receita)
    | (substr(cd_conta_contabil, 1, 5) == '31111' | substr(cd_conta_contabil, 1, 5) == '31171')
  ) |> 
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4' ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida', # redutora de receita
      .default =  'EXCLUIR'), 
  ) |>
  # Totaliza por operadora, conta contábil e período
  summarise(vl_saldo_final = sum(vl_saldo_final), 
            .by = c(id_ops, cd_conta_contabil, id_calendar, gr_cc)) |>  
  # Separa os saldos por grupo de conta em colunas (eventos, receita e corr_cedida)
  pivot_wider(names_from = gr_cc, values_from = vl_saldo_final, values_fill = 0) |> 
  # identifica tipos de plano pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      .default =  'EXCLUIR'), 
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      .default =  'EXCLUIR'), 
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pre-estabelecido',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós-estabelecido',
      .default =  'EXCLUIR'), 
  ) |> 
  
  filter(vigencia != 'corr_assumida') |>          # Exclui corr assumida
  mutate(despesa = eventos - corr_cedida,         # Inclui corr cedida na despesa trocando o sinal
         contratacao = as.factor(contratacao)) |> 
  
  summarise(receita = sum(receita), 
            despesa = sum(despesa), 
            .by = c(id_ops, vigencia, contratacao, financiamento, id_calendar))


Filtra segmentos alvo da análise e totaliza por período, operadora e tipo de plano:

diops <- diops |> 
  filter( 
    vigencia == 'P',                     # Filtra planos novos (posteriores à Lei)
    financiamento == 'Pre-estabelecido', # Filtra formação de preço pré-estabelecida
  ) |> 
  select(-vigencia, -financiamento) |> 
  inner_join(select(ta.cadop,id_ops),  by=join_by(id_ops)) # Filtra operadoras


Beneficiários (semi-aditivo)

As informações de vínculos ativos de beneficiários são obtidas através do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente.

A base de dados do SIB referente aos anos de 2021 e 2022 pode ser acessada no Portal Brasileiro de Dados Abertos do Governo Federal, conjunto de dados Beneficiários por operadora e tipo de carteira para cálculo da VDA. Este conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.

O código a seguir faz a leitura dos arquivos publicados no portal de dados abertos:

sib <- fread(
  paste0(url_raiz,
         "beneficiarios_vinculos_tipo_contratacao_vda/Beneficiarios_operadora_e_carteira.csv"),
  encoding = "UTF-8", showProgress = F
) |>
  lazy_dt() |> as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops = cd_operadora, 
    vigencia = vigencia_plano, contratacao = gr_contratacao, financiamento = tipo_financiamento,
    benef = nr_benef
  ) |> 
  mutate(id_calendar = make_date(as.integer(mes/100), mes - (as.integer(mes/100)) * 100, 1)) |>
  filter(
    id_calendar >= periodo[1], id_calendar <= periodo[2]  # Filtra período de análise
    & benef != 0 & !is.na(benef)                          # Exclui zeros e nulos
  ) |> 
  mutate(contratacao = case_when(
    contratacao == 'Coletivo empresarial' ~ 'Empresarial',
    contratacao == 'Coletivo por adesão' ~ 'Adesão',
    contratacao == 'Individual ou familiar' ~ 'Individual',
    .default =  'Não identificado')) |> 
  select(id_ops, cobertura, vigencia, contratacao, financiamento, id_calendar, benef) 


Filtra segmentos alvo da análise e totaliza por mês, operadora e tipo de plano.

sib <- sib |> 
  filter(
    vigencia == 'P',                        # Filtra planos novos (posteriores à Lei)
    financiamento != 'Pós-estabelecido',    # Filtra formação de preço pré-estabelecida
    contratacao %in% c('Empresarial', 'Individual', 'Adesão'), # Filtra tipo de contratação
    cobertura == "Médico-hospitalar"                    # Filtra cobertura médico-hospitalar
  ) |> 
  inner_join(select(ta.cadop,id_ops), by=join_by(id_ops)) |> # Filtra operadoras médico-hospitalares
  # Totaliza por operadora, tipo de contratação e período
  summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) 


Calcula média de beneficiários no ano por operadora e tipo de contratação:

sib <- sib |> 
  arrange(id_ops, contratacao, id_calendar) |> 
  mutate(ano = as.integer(year(id_calendar))) |>  # cria coluna do ano
  # Calcula a média dos últimos 12 meses por operadora, contratacao e ano
  # NOTA: a função só calcula quando há 12 meses em cada ano
  mutate(
    benefm = RcppRoll::roll_meanr(benef, n = 12, fill = NA_real_, na.rm = FALSE),
    .by = c(id_ops, contratacao, ano)
  ) |> 
  filter(
    as.integer(month(id_calendar)) == 12 # Filtra a média dos 12 meses de janeiro a dezembro
    & !is.na(benefm)                     # Exclui quando não há média de 12 meses calculada
  ) |> 
  select(-benef, -ano) 

Cálculo da VDA


Despesa por Beneficiário

Esta seção gera a base de despesa assistencial e beneficiários e calcula a despesa por beneficiário.

A despesa por beneficiário é a despesa assistencial da carteira própria de uma operadora incorrida em certo período, dividida pela média de vínculos ativos de beneficiários ao longo do mesmo período. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.

Nota:
Para facilitar a comparabilidade e acompanhamento da despesa por beneficiário ao longo do tempo, é possível normalizar a métrica dividindo-a pelo número de meses do período sem impacto sobre a VDA.

A base de cálculo da VDA considera apenas:

  • Operadoras sem ressalvas com registro ativo nos dois anos

  • Observações que apresentam valor positivo de despesa nos dois anos

  • Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários nos dois anos

O código a seguir consolida os dados de operadoras, beneficiários e despesas, filtra as observações relevantes e calcula a Despesa por Beneficiário (média mensal):

df.vda <- diops |> 
  select(-receita) |> filter( despesa > 0 ) |> 
  inner_join(sib, by=join_by(id_ops, contratacao, id_calendar)) |> 
  
  # Exclui operadoras inválidas:
  inner_join(ta.cadop, by=join_by(id_ops)) |> 
  filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |> 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
  relocate(razao_social, .after = id_ops) |> 
  
  # Calcula despesa por beneficiário:
  mutate(dpb = if_else(benefm > 0, despesa/benefm/12, NA),
         contratacao = factor(contratacao, levels=c("Empresarial", 
                                                    "Individual", 
                                                    "Adesão"))) |> 
  
  arrange(id_ops, contratacao, id_calendar)


Despesa por beneficiário (R$/mês)


Visualização gráfica da distribuição da despesa por beneficiário das operadoras.

Nota: O gráfico a seguir exclui os 5% maiores e menores valores de cada carteira para que seja possível visualizar a distribuição dos dados.


Estatísticas descritivas da distribuição da despesa por beneficiário


VDA por operadora

A VDA de uma operadora é a variação da despesa por beneficiário desta operadora sobre o mesmo período do ano anterior, conforme a seguinte fórmula:

\[VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1\]

Onde:
i = Operadora na base de cálculo
p = Ano calendário anterior ao início da aplicação do IRPI
DA = Despesa assistencial em carteira própria acumulada ao fim do período
Ben = Média mensal de beneficiários em carteira própria ao longo do período

O código a seguir calcula a VDA por operadora:

df.vda <- df.vda |>
  arrange(id_ops, contratacao, id_calendar) |> 
  # CALCULA VDA POR OPERADORA EM CADA CARTEIRA
  mutate(
    vda = if_else(
      !is.na(lag(id_ops)) & lag(id_ops) == id_ops 
      & !is.na(lag(contratacao)) & lag(contratacao) == contratacao
      & !is.na(lag(id_calendar)) & year(lag(id_calendar)) == year(id_calendar) - 1, 
      (dpb/lag(dpb)-1)*100, NA
    ),
    .by = c(id_ops, contratacao)
  ) |> 
  # IDENTIFICA OUTLIERS (valores extremos) pelo critério BOXPLOT 1.5xIQR
  mutate(
    lg_outlier = vda>=(quantile(vda,0.75,na.rm = T)+1.5*IQR(vda, na.rm = T)) 
                 | vda<=(quantile(vda,0.25, na.rm = T)-1.5*IQR(vda, na.rm = T)),
    .by = contratacao
  )


Estatísticas descritivas da distribuição da VDA por operadora


Valores extremos (outliers)


Valores extremos (outliers) identificados pela metodologia de intervalo interquartílico (boxplot 1.5xIQR).


Visualizações gráficas da distribuição da VDA das operadoras.

Os gráficos a seguir excluem valores extremos (outliers) para que seja possível visualizar a distribuição da grande maioria dos dados.



VDA do setor


A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores extremos.


Base de cálculo


Representatividade de base de cálculo da VDA (após exclusões por dados incompletos, ressalva, início de operação ou cancelamento de registro) sobre as bases extraídas dos sistemas de origem.


Gera uma base completa que reúne todas as observações dos dois anos e o cálculo da VDA para gravar.

sib2 <- sib |> 
  mutate(ano = if_else(year(id_calendar)==year(periodo[1]),"ano1","ano2")) |> 
  select(-id_calendar) |> 
  pivot_wider(names_from = ano, values_from = benefm, values_fill = 0, names_prefix = "ben_") |> 
  # Calcula % da carteira da operadora
  mutate(pct_ben_ano2 = ben_ano2/sum(ben_ano2), .by = id_ops) |> 
  # Identifica observações sem sequência de beneficiários no período
  mutate(lg_excl_benef = if_else(is.na(ben_ano1)|ben_ano1<1|is.na(ben_ano2)|ben_ano2<1, 1L, 0L))

diops2 <- diops |> 
  mutate(ano = if_else(year(id_calendar)==year(periodo[1]),"ano1","ano2")) |> 
  select(-id_calendar) |> 
  pivot_wider(names_from = ano, values_from = c(despesa, receita), values_fill = 0) |> 
  # Identifica observações que não têm despesa nos dois anos
  mutate(lg_excl_despesa = if_else(
    is.na(despesa_ano1)|despesa_ano1<=0|is.na(despesa_ano2)|despesa_ano2<=0, 1L, 0L
    )) 

df.reunida <-  sib2 |> 
  full_join(diops2, by=join_by(id_ops, contratacao)) |> 
  
  mutate(dpb_ano1 = if_else(despesa_ano1>0 & ben_ano1>0, despesa_ano1/ben_ano1/12, NA),
         dpb_ano2 = if_else(despesa_ano2>0 & ben_ano2>0, despesa_ano2/ben_ano2/12, NA)) |> 
  
  full_join(
    df.vda |> filter(!is.na(vda)) |> select(id_ops, contratacao, vda, lg_outlier), 
    by = join_by(id_ops, contratacao)
  ) |> 
  
  inner_join(ta.cadop, by = join_by(id_ops)) |> 
  
  select(id_ops, razao_social, modalidade, contratacao, 
         starts_with('lg_'), starts_with('receita'), starts_with('despesa'), starts_with('ben'), 
         everything()) |> 
  mutate(across(receita_ano1:ben_ano2, ~if_else(.x==0, NA, .x)),
         across(lg_excl_benef:lg_excl_despesa, ~if_else(is.na(.x),1L,.x))) |> 
  # Exclui observações que não tenham nem informação de despesa nem de beneficiários da base
  filter( !(is.na(despesa_ano1) & is.na(despesa_ano2) & is.na(ben_ano1) & is.na(ben_ano2)) )

Glossário

Beneficiário: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.

Contratante: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.

Operadora: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.

Plano Privado de Assistência à Saúde: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.

Tipo de contratação:

  • Individual ou Familiar, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar

  • Coletivo empresarial, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária

  • Coletivo por adesão, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)

Tipo de financiamento:

  • Pré-estabelecido, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.

  • Pós-estabelecido, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.

---
title: "Variação da Despesa Assistencial (VDA)"
author: "Agência Nacional de Saúde Suplementar"
date: "Atualizado em `r format(Sys.time(), '%d/%m/%Y')`"
output:
  html_notebook:
    toc: yes
    toc_depth: 3
    toc_float: yes
  word_document:
    toc: yes
    toc_depth: '3'
---

***

# Introdução

<br>

## Contexto

O documento a seguir detalha o passo a passo da apuração da **Variação da Despesa Assistencial por Beneficiário (VDA)** do ano de `r year(periodo[2])` sobre o ano de `r year(periodo[1])`. Espera-se que esse documento possa auxiliar o público a replicar o cálculo da VDA e acompanhar a evolução da mesma ao longo do ano.    

A VDA é um dos principais componentes do cálculo do **Índice de Reajuste de Planos Individuais (IRPI)**, que estabelece o teto máximo para o reajuste anual por variação de custos das mensalidades dos planos de saúde de contratação individual ou familiar.  A metodologia de cálculo do IRPI e da própria VDA foi estabelecida pela [Resolução Normativa - RN nº 441, de 19 de dezembro de 2018](https://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY2Mg==) e está detalhada no site da ANS em [Espaço do Consumidor > Reajuste/Variação de mensalidade > Reajuste anual de planos individuais/familiares > Metodologia de Cálculo](https://www.gov.br/ans/pt-br/assuntos/consumidor/reajuste-variacao-de-mensalidade/reajuste-anual-de-planos-individuais-familiares-1/metodologia-de-calculo).              

A VDA expressa a variação da despesa assistencial média por beneficiário dos contratos dos planos individuais de cobertura médico-hospitalar regulamentados pela Lei nº 9.656/1998. A VDA, para fins do cálculo do IRPI, tem como base as despesas assistenciais incorridas de janeiro a dezembro e a média de beneficiários ao longo dos 12 meses de janeiro a dezembro nos dois anos imediatamente anteriores ao ano de divulgação do índice de reajuste.    

A medida de tendência central do setor de saúde suplementar é a média da VDA das operadoras ponderada pela quantidade de beneficiários do período mais recente, conforme consignada no Anexo II da [RN nº 441/2018](http://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY2Mg==). Assim, fórmula para o cálculo da média ponderada da VDA das operadoras do setor em determinado ano é:     
<br>
    

$$VDA_{p} = \sum_{i=1}^{n} \left[\left(\displaystyle\frac{\frac{DA_{p}}{Ben_{p}}}{\frac{DA_{p-1}}{Ben_{p-1}}} - 1\right) \times Ben_{p}\right]\div\sum_{i=1}^{n} Ben_{p}$$
<br>
<div class="alert alert-block alert-info">
<b>Onde:</b>     
    i = Operadora na base de cálculo        
    n = Todas as operadoras na base de cálculo         
    p = Período de janeiro a dezembro do ano calendário    
    DA = Despesa assistencial em carteira própria acumulada no período     
    Ben = Média mensal de beneficiários em carteira própria ao longo do período     
</div>

<br>
Três conjuntos de dados do setor de saúde suplementar foram utilizados para extrair informações de **despesa assistencial**, **quantidade de beneficiários com vínculos ativos** e **características das operadoras de planos de saúde**. Esses conjuntos de dados podem ser acessados pelo [Portal Brasileiro de Dados Abertos do Governo Federal](https://dados.gov.br/dados/conjuntos-dados). Os links para cada conjunto de dados utilizado neste cálculo estão disponíveis a seguir na seção de *"Limpeza e Tratamento de Dados"*.       
    
<br>

## Setup   

*Desenvolvido em R 4.2.2 (2022-10-31 ucrt) e RStudio 2023.03.0+386 for Windows*

```{r setup, include=FALSE}
# "Desliga" notação científica. 
options(scipen=999)

library(data.table)
library(tidyverse)
library(dtplyr)
library(lubridate)

theme_set(theme_light())
theme_update(
  plot.caption = element_text(colour = "gray50", hjust=0, size = 8),
  legend.title = element_blank(),
  panel.grid.minor = element_blank(),
  panel.grid.major = element_line(linetype = "dotted")
)

# período de análise
periodo <- c(as.Date("2021-01-01"), as.Date("2022-12-01"))
```


```{r}
# bibliotecas, funções e variáveis globais =============================
library(data.table)
library(tidyverse)
library(dtplyr)
library(lubridate)
```


```{r}
# url do FTP PDA ANS
url_raiz <- "https://dadosabertos.ans.gov.br/FTP/PDA/"
```



***

# Limpeza e tratamento dos dados

<br>

## Operadoras

As características das operadoras são obtidas do Sistema de Cadastro de Operadoras (CADOP).       

Dois conjuntos de dados estão disponíveis no Portal Brasileiro de Dados Abertos (https://dados.gov.br/dados/conjuntos-dados): 

* [Operadoras de planos de saúde Ativas](https://dados.gov.br/dados/conjuntos-dados/operadoras-de-planos-privados-de-saude) e 
* [Operadoras de planos de saúde Canceladas](https://dados.gov.br/dados/conjuntos-dados/operadoras-de-planos-de-saude-com-registro-cancelado). 

Esses conjuntos de dados incluem características como o razão social, modalidade da operadora, assim como as datas de início (data do registro da operadora junto à ANS) e fim de operação (data do cancelamento do registro).     

O código a seguir faz a leitura dos arquivos *.csv do cadastro de operadoras ativas e canceladas:

```{r}
ta.cadop <- fread(paste0(url_raiz,"operadoras_de_plano_de_saude_ativas/Relatorio_cadop.csv"),
               colClasses = c(rep("character",20))) |> 
  # Cria campos de cancelamento de registro para juntar com dataset de operadoras canceladas
  mutate(Data_Descredenciamento = "", Motivo_do_Descredenciamento = "") |>
  # Inclui dataset de operadoras com registro cancelado
  rbind(
    fread(paste0(url_raiz,"operadoras_de_plano_de_saude_canceladas/Relatorio_cadop_canceladas.csv"),
          colClasses = c(rep("character",22))) 
  ) |>  
  lazy_dt() |> as_tibble() |> 
  
  rename_with(tolower) |> 
  # Formata as colunas relevantes
  mutate(
    id_ops = as.integer(registro_ans),
    dt_registro = as_date(data_registro_ans), 
    dt_cancelamento = as_date(data_descredenciamento),
    modalidade = if_else(modalidade == 'Seguradora Especializada em Saúde', 'Seguradora',
                         modalidade),
    razao_social = str_replace_all(str_trim(razao_social), "[\r\n]", " ") 
  ) |> 
  # Seleciona as colunas de interesse
  select(id_ops, razao_social, modalidade, dt_registro, dt_cancelamento) 
```


<br>

Para o cálculo da VDA no IRPI selecionam-se as operadoras *médico-hospitalares* e são desconsideradas      

1. Operadoras que iniciaram operação entre janeiro de `r year(periodo[1])` e dezembro de `r year(periodo[2])`.
2. Operadoras que tiveram registro cancelado até dezembro de `r year(periodo[2])`.
3. Operadoras com ressalvas nas demonstrações financeiras protocoladas junto à ANS referentes a `r year(periodo[1])` ou `r year(periodo[2])`.

O código a seguir filtra operadoras médico-hospitalares e identifica operadoras a serem desconsideradas na base de cálculo da VDA:

```{r}
ressalvas <- read.csv("_datasets/ressalvas.csv") |> 
  distinct(id_ops) |> 
  mutate(lg_ressalva = 1L, id_ops = as.integer(id_ops))

ta.cadop <- ta.cadop |> 
  # Filtra apenas operadoras médico-hospitalares
  filter(modalidade %in% c('Autogestão', 'Cooperativa Médica', 'Filantropia',
                           'Medicina de Grupo', 'Seguradora')) |>  
  # Identifica operadoras em fim de operação e/ou início de operação
  mutate(
    lg_cancelada = ( year(dt_cancelamento)<=year(periodo[2]) & !is.na(dt_cancelamento) ), 
    lg_nova_ops  = ( year(dt_registro) >= year(periodo[1]) )
  ) |> 
  select(id_ops, razao_social, modalidade, lg_cancelada, lg_nova_ops) |>
  left_join(ressalvas, by = 'id_ops') |> 
  mutate(lg_ressalva = ( !is.na(lg_ressalva) ))

remove(ressalvas)
```


```{r echo=FALSE}
ta.cadop |> summarise(
  n_operadoras = n_distinct(id_ops),
  n_canceladas = sum(lg_cancelada),
  n_nova_operadora = sum(lg_nova_ops),
  n_ressalvas = sum(lg_ressalva)
) |> pivot_longer(everything())
```


<br>

## Despesa Assistencial

As informações das despesas incorridas na prestação de assistência médico-hospitalar são extraídas das demonstrações contábeis informadas pelas operadoras no Documento de Informações Periódicas das Operadoras de Planos de Assistência à Saúde (DIOPS).  O prazo de envio das demonstrações contábeis ao DIOPS referente ao 4º trimestre se encerrou em 31 de março.  

Todas as demonstrações contábeis publicadas seguem os critérios do Plano de Contas Padrão da ANS para as operadoras de planos de saúde, conforme estabelecido pela [RN nº 528/2022](https://www.ans.gov.br/component/legislacao/?view=legislacao&task=textoLei&format=raw&id=NDIzNg==), que dispõe sobre o plano de contas do exercício de 2022 e pela [RN nº 435/2018](http://www.ans.gov.br/component/legislacao/?view=legislacao&task=TextoLei&format=raw&id=MzY0Mg==), que dispõe sobre o plano de contas do exercício de 2021.

O conjunto de dados [**"Demonstrações Contábeis"**](https://dados.gov.br/dados/conjuntos-dados/http-www-ans-gov-br-perfil-do-setor-dados-abertos-dados-abertos-disponiveis-n3) do 4º trimestre de `r year(periodo[2])` pode ser acessado no [Portal Brasileiro de Dados Abertos do Governo Federal](https://dados.gov.br/dados/conjuntos-dados). Este conjunto de dados detalha o saldo acumulado em reais ao final do trimestre nas contas contábeis de cada operadora.    

O conjunto de dados do 4º trimestre de `r year(periodo[1])` foi atualizado para contemplar as retificações feitas ao longo do ano por operadoras com ressalvas. Esta base atualizada acompanha a Nota Técnica nº 1/2023/COREF/GEFAP/DIRAD-DIPRO/DIPRO que está publicada no site oficial da agência na página [Portal ANS > Espaço do Consumidor > Reajuste > Individual ou Familiar > Metodologia de Cálculo > Reajuste 2023](https://www.gov.br/ans/pt-br/assuntos/consumidor/reajuste-variacao-de-mensalidade/reajuste-anual-de-planos-individuais-familiares-1/metodologia-de-calculo)

O código a seguir faz a leitura dos arquivos *.csv:

```{r}
files <- list.files(path = "_datasets/diops", full.names = T)
diops <- rbindlist(
  lapply(files, fread, 
         dec=",", drop='DESCRICAO', colClasses = c(CD_CONTA_CONTABIL="character"))) |> 
  lazy_dt() |> 
  rename_with(tolower) |> 
  filter(nchar(cd_conta_contabil) == 9,          # filtra contas contábeis de 9 dígitos
         vl_saldo_final != 0) |>                 # exclui linhas sem saldo final
  mutate(id_calendar = ymd(data) + months(2)) |> # altera para último mês do trimestre
  rename(id_ops = reg_ans) |> 
  select(id_ops, cd_conta_contabil, id_calendar, vl_saldo_final) |> 
  as_tibble()

remove(files)
```

<br>

O alvo da análise é a despesa assistencial incorrida pela operadora em carteira própria. Os valores de Despesa Assistencial em Carteira Própria correspondem à totalização dos saldos dos seguintes grupos de contas contábeis do Plano de Contas Padrão da ANS:


| Conta contábil | Descrição | Totalização |
|:------|:-----------------------------------|:------:|
| 411X1XXXX | Eventos/sinistros conhecidos ou avisados de assistência à saúde médico-hospitalar | (+) |
| 411X1XX8X | Corresponsabilidade Assumida | (-) |
| 31171XXXX | (-) Contraprestações de corresponsabilidade cedida de assistência médico-hospitalar | (-) |


Dessa forma, o valor da despesa assistencial em carteira própria inclui valores de Eventos/ Sinistros conhecidos ou avisados e valores de gastos de corresponsabilidade de carteira própria *cedida* a terceiros (contas contábeis redutoras de receita 31171XXXX). Valores de corresponsabilidade *assumida* (contas contábeis de despesa 411X1XX8X) são desconsiderados, pois referem-se a despesas assistenciais incorridas em atendimento a carteira de terceiros (outras operadoras).          


O código a seguir totaliza a despesa assistencial por trimestre, operadora e tipo de carteira: 

```{r}
diops <- diops |>  
  # filtra contas contábeis relevantes para a análise
  filter( 
    # eventos/sinistros conhecidos médico-hospitalar, incluindo corresponsabilidade assumida 
    (substr(cd_conta_contabil, 1, 3) == '411' & substr(cd_conta_contabil, 5, 5) == '1')
    # receita de contraprestações médico-hospitalares e 
    # corresponsabilidade cedida médico-hospitalar (redutor de receita)
    | (substr(cd_conta_contabil, 1, 5) == '31111' | substr(cd_conta_contabil, 1, 5) == '31171')
  ) |> 
  mutate(
    gr_cc = case_when(
      substr(cd_conta_contabil, 1, 1) == '4' ~ 'eventos',
      substr(cd_conta_contabil, 1, 5) == '31111' ~ 'receita', 
      substr(cd_conta_contabil, 1, 5) == '31171' ~ 'corr_cedida', # redutora de receita
      .default =  'EXCLUIR'), 
  ) |>
  # Totaliza por operadora, conta contábil e período
  summarise(vl_saldo_final = sum(vl_saldo_final), 
            .by = c(id_ops, cd_conta_contabil, id_calendar, gr_cc)) |>  
  # Separa os saldos por grupo de conta em colunas (eventos, receita e corr_cedida)
  pivot_wider(names_from = gr_cc, values_from = vl_saldo_final, values_fill = 0) |> 
  # identifica tipos de plano pela conta contábil
  mutate(
    vigencia = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','3','5') ~ 'A',
      substr(cd_conta_contabil, 8, 8) %in% c('2','4','6') ~ 'P',
      .default =  'EXCLUIR'), 
    contratacao = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 8, 8) %in% c('1','2') ~ 'Individual',
      substr(cd_conta_contabil, 8, 8) %in% c('3','4') ~ 'Adesão',
      substr(cd_conta_contabil, 8, 8) %in% c('5','6') ~ 'Empresarial',
      .default =  'EXCLUIR'), 
    financiamento = case_when(
      substr(cd_conta_contabil, 8, 8) == '8' ~ 'corr_assumida', 
      substr(cd_conta_contabil, 6, 6) == '1' ~ 'Pre-estabelecido',
      substr(cd_conta_contabil, 6, 6) == '2' ~ 'Pós-estabelecido',
      .default =  'EXCLUIR'), 
  ) |> 
  
  filter(vigencia != 'corr_assumida') |>          # Exclui corr assumida
  mutate(despesa = eventos - corr_cedida,         # Inclui corr cedida na despesa trocando o sinal
         contratacao = as.factor(contratacao)) |> 
  
  summarise(receita = sum(receita), 
            despesa = sum(despesa), 
            .by = c(id_ops, vigencia, contratacao, financiamento, id_calendar))
```

```{r echo=FALSE}
diops |> 
  mutate(ano = year(id_calendar)) |> 
  summarise(Operadoras = n_distinct(id_ops), 
            "Receita (R$bn)" = round(sum(receita, na.rm = T)/1e9, 1), # em R$ bilhões
            "Despesa (R$bn)" = round(sum(despesa, na.rm = T)/1e9, 1), # em R$ bilhões
            .by = ano) 
```



<br>

Filtra segmentos alvo da análise e totaliza por período, operadora e tipo de plano:

```{r}
diops <- diops |> 
  filter( 
    vigencia == 'P',                     # Filtra planos novos (posteriores à Lei)
    financiamento == 'Pre-estabelecido', # Filtra formação de preço pré-estabelecida
  ) |> 
  select(-vigencia, -financiamento) |> 
  inner_join(select(ta.cadop,id_ops),  by=join_by(id_ops)) # Filtra operadoras
```

```{r echo=FALSE}
diops |> 
  mutate(ano = year(id_calendar)) |> 
  summarise(Operadoras = n_distinct(id_ops), 
            "Receita (R$bn)" = round(sum(receita, na.rm = T)/1e9, 1), # em R$ bilhões
            "Despesa (R$bn)" = round(sum(despesa, na.rm = T)/1e9, 1), # em R$ bilhões
            .by = ano) 
```


<br>

## Beneficiários (semi-aditivo)

As informações de vínculos ativos de beneficiários são obtidas através do Sistema de Informação de Beneficiários (SIB), que é atualizado mensalmente.            

A base de dados do SIB referente aos anos de `r year(periodo[1])` e `r year(periodo[2])` pode ser acessada no [Portal Brasileiro de Dados Abertos do Governo Federal](https://dados.gov.br/dados/conjuntos-dados), conjunto de dados [**Beneficiários por operadora e tipo de carteira para cálculo da VDA**](https://dados.gov.br/dados/conjuntos-dados/beneficiarios-com-vinculos-ativos-por-tipo-de-contratacao-para-calculo-da-vda). Este conjunto de dados informa a quantidade de vínculos ativos de beneficiários em planos de saúde médico-hospitalar mês a mês por operadora e tipo de plano.       

O código a seguir faz a leitura dos arquivos publicados no portal de dados abertos:

```{r}
sib <- fread(
  paste0(url_raiz,
         "beneficiarios_vinculos_tipo_contratacao_vda/Beneficiarios_operadora_e_carteira.csv"),
  encoding = "UTF-8", showProgress = F
) |>
  lazy_dt() |> as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops = cd_operadora, 
    vigencia = vigencia_plano, contratacao = gr_contratacao, financiamento = tipo_financiamento,
    benef = nr_benef
  ) |> 
  mutate(id_calendar = make_date(as.integer(mes/100), mes - (as.integer(mes/100)) * 100, 1)) |>
  filter(
    id_calendar >= periodo[1], id_calendar <= periodo[2]  # Filtra período de análise
    & benef != 0 & !is.na(benef)                          # Exclui zeros e nulos
  ) |> 
  mutate(contratacao = case_when(
    contratacao == 'Coletivo empresarial' ~ 'Empresarial',
    contratacao == 'Coletivo por adesão' ~ 'Adesão',
    contratacao == 'Individual ou familiar' ~ 'Individual',
    .default =  'Não identificado')) |> 
  select(id_ops, cobertura, vigencia, contratacao, financiamento, id_calendar, benef) 
```

```{r include=FALSE}
sib <- fread( "_datasets/sib.csv", encoding = "UTF-8", showProgress = F ) |>
  lazy_dt() |> as_tibble() |> 
  rename_with(tolower) |> 
  rename(
    id_ops = cd_operadora, 
    vigencia = vigencia_plano, contratacao = gr_contratacao, financiamento = tipo_financiamento,
    benef = nr_benef
  ) |> 
  mutate(id_calendar = make_date(as.integer(mes/100), mes - (as.integer(mes/100)) * 100, 1)) |>
  filter(
    id_calendar >= periodo[1], id_calendar <= periodo[2]  # Filtra período de análise
    & benef != 0 & !is.na(benef)                          # Exclui zeros e nulos
  ) |> 
  mutate(contratacao = case_when(
    contratacao == 'Coletivo empresarial' ~ 'Empresarial',
    contratacao == 'Coletivo por adesão' ~ 'Adesão',
    contratacao == 'Individual ou familiar' ~ 'Individual',
    .default =  'Não identificado')) |> 
  select(id_ops, cobertura, vigencia, contratacao, financiamento, id_calendar, benef) 
```

<br>

Filtra segmentos alvo da análise e totaliza por mês, operadora e tipo de plano.

```{r}
sib <- sib |> 
  filter(
    vigencia == 'P',                        # Filtra planos novos (posteriores à Lei)
    financiamento != 'Pós-estabelecido',    # Filtra formação de preço pré-estabelecida
    contratacao %in% c('Empresarial', 'Individual', 'Adesão'), # Filtra tipo de contratação
    cobertura == "Médico-hospitalar"                    # Filtra cobertura médico-hospitalar
  ) |> 
  inner_join(select(ta.cadop,id_ops), by=join_by(id_ops)) |> # Filtra operadoras médico-hospitalares
  # Totaliza por operadora, tipo de contratação e período
  summarise(benef = sum(benef), .by = c(id_ops, contratacao, id_calendar)) 
```

```{r echo=FALSE}
sib |> mutate(ano = year(id_calendar)) |> 
  summarise(
    Operadoras = n_distinct(id_ops),
    "Benef (média agregada)" = format(round(sum(benef)/12,0),decimal.mark=",", big.mark="."),
    .by = ano
  ) 
```

```{r echo=FALSE}
sib |> mutate(ano = year(id_calendar)) |> 
  summarise(
    Operadoras = n_distinct(id_ops),
    "Benef (média agregada)" = format(round(sum(benef)/12,0),decimal.mark=",", big.mark="."),
    .by = c(ano, contratacao)) |> 
  arrange(desc(contratacao), ano)
```

<br>

Calcula média de beneficiários no ano por operadora e tipo de contratação:

```{r}
sib <- sib |> 
  arrange(id_ops, contratacao, id_calendar) |> 
  mutate(ano = as.integer(year(id_calendar))) |>  # cria coluna do ano
  # Calcula a média dos últimos 12 meses por operadora, contratacao e ano
  # NOTA: a função só calcula quando há 12 meses em cada ano
  mutate(
    benefm = RcppRoll::roll_meanr(benef, n = 12, fill = NA_real_, na.rm = FALSE),
    .by = c(id_ops, contratacao, ano)
  ) |> 
  filter(
    as.integer(month(id_calendar)) == 12 # Filtra a média dos 12 meses de janeiro a dezembro
    & !is.na(benefm)                     # Exclui quando não há média de 12 meses calculada
  ) |> 
  select(-benef, -ano) 
```

```{r echo=FALSE}
sib |> mutate(ano = year(id_calendar)) |> 
  summarise(Operadoras = n_distinct(id_ops),
            "Benef (soma das médias)" = format(round(sum(benefm),0),decimal.mark=",", big.mark="."),
            .by = c(ano, contratacao)) |> 
  arrange(desc(contratacao), ano)
```




***

# Cálculo da VDA

<br>

## Despesa por Beneficiário

Esta seção gera a base de despesa assistencial e beneficiários e calcula a *despesa por beneficiário*.           

A despesa por beneficiário é a *despesa assistencial* da carteira própria de uma operadora incorrida em certo período, dividida pela *média de vínculos ativos de beneficiários* ao longo do mesmo período. Essa métrica representa o principal componente de custo de um plano de saúde e está expressa de forma a permitir compará-la entre operadoras por tipo de carteira e acompanhar sua evolução ao longo do tempo.           
            

> Nota:     
  Para facilitar a comparabilidade e acompanhamento da despesa por beneficiário ao longo do tempo, é possível normalizar a métrica dividindo-a pelo número de meses do período sem impacto sobre a VDA.

              
A base de cálculo da VDA considera apenas:      

* Operadoras sem ressalvas com registro ativo nos dois anos     

* Observações que apresentam valor positivo de despesa nos dois anos        

* Observações que apresentam uma sequência ininterrupta de 12 meses de beneficiários nos dois anos        

O código a seguir consolida os dados de operadoras, beneficiários e despesas, filtra as observações relevantes e calcula a Despesa por Beneficiário (média mensal):


```{r}
df.vda <- diops |> 
  select(-receita) |> filter( despesa > 0 ) |> 
  inner_join(sib, by=join_by(id_ops, contratacao, id_calendar)) |> 
  
  # Exclui operadoras inválidas:
  inner_join(ta.cadop, by=join_by(id_ops)) |> 
  filter( !lg_cancelada & !lg_nova_ops & !lg_ressalva ) |> 
  select(-c(lg_cancelada, lg_nova_ops, lg_ressalva, modalidade)) |>
  relocate(razao_social, .after = id_ops) |> 
  
  # Calcula despesa por beneficiário:
  mutate(dpb = if_else(benefm > 0, despesa/benefm/12, NA),
         contratacao = factor(contratacao, levels=c("Empresarial", 
                                                    "Individual", 
                                                    "Adesão"))) |> 
  
  arrange(id_ops, contratacao, id_calendar)
```


<br>

Despesa por beneficiário (R$/mês)

```{r echo=FALSE}
df.vda |> filter(id_calendar == max(id_calendar)) |> 
  filter(!is.na(despesa) & !is.na(benefm) & despesa>0 & benefm>0) |> 
  summarise(
    "Média agregada" = round(sum(despesa)/sum(benefm)/12),
    .by = c(contratacao)
  )
```



<br>

**Visualização gráfica da distribuição da despesa por beneficiário das operadoras.**     

*Nota: O gráfico a seguir exclui os 5% maiores e menores valores de cada carteira para que seja possível visualizar a distribuição dos dados.*


```{r echo=FALSE, fig.width=6, fig.asp=1}
df.vda |> 
  mutate(Ano = year(id_calendar)) |> 
  mutate(
    lg_outlier = (dpb > quantile(dpb,0.95)) | (dpb < quantile(dpb,0.05)),
    .by = c(Ano, contratacao)) |> 
  filter( !lg_outlier ) |> 
  ggplot(aes(x=dpb, fill=contratacao, color=contratacao, weight=benefm)) +
  geom_density(alpha=.4, adjust=.5) +
  viridis::scale_color_viridis(discrete = TRUE, option = "D") +
  viridis::scale_fill_viridis(discrete = TRUE, option = "D") +
  # ggsci::scale_color_lancet() +
  # ggsci::scale_fill_lancet() +
  scale_y_continuous(expand = expansion(mult = c(0,0.1))) +
  scale_x_continuous(expand = expansion(mult = c(0,0)), breaks = scales::breaks_width(100)) +
  theme(legend.position = "top",
        panel.spacing = unit(0.02, units = "npc"),
        panel.grid.major.x = element_line(linetype = "dashed")) +
  labs(
    title = "Distribuição Ponderada da Despesa Mensal por Beneficiário",
    caption = paste0(
      "Notas:\n",
      "Exclui os 5% maiores e menores valores de cada carteira.\n",
      "Frequência ponderada pelo tamanho da carteira da operadora.\n",
      "Estimativa Gaussiana de densidade por Kernel para função de densidade de probabilidade."
    ),
    x = "Despesa mensal por beneficiário (R$/mês)",
    y = "Frequência"
  ) + 
  facet_wrap(~Ano, ncol = 1)
```


<br>

Estatísticas descritivas da distribuição da despesa por beneficiário

```{r echo=FALSE}
df.vda |> mutate(Ano = year(id_calendar)) |> 
  summarise(
    mínimo = min(dpb),
    q1 = quantile(dpb,0.25,names = F),
    mediana = median(dpb),
    q3 = quantile(dpb,0.75,names = F),
    máximo = max(dpb),
    média = mean(dpb),
    "cv (%)" = round( sd(dpb)/`média`*100 ),
    .by = c(Ano, contratacao)
  ) |> mutate(across(`mínimo`:`média`, ~round(.x))) |> arrange(Ano, contratacao)
```



<br>

## VDA por operadora

A VDA de uma operadora é a variação da despesa por beneficiário desta operadora sobre o mesmo período do ano anterior, conforme a seguinte fórmula:
<br>

$$VDA_{ip} = \displaystyle\frac{\frac{DA_{ip}}{Ben_{ip}}}{\frac{DA_{i\ \left(p-1\right)}}{Ben_{i\ \left(p-1\right)}}} - 1$$
<br>
    

<div class="alert alert-block alert-info">
<b>Onde:</b>     
    i = Operadora na base de cálculo         
    p = Ano calendário anterior ao início da aplicação do IRPI    
    DA = Despesa assistencial em carteira própria acumulada ao fim do período    
    Ben = Média mensal de beneficiários em carteira própria ao longo do período    
</div>

O código a seguir calcula a VDA por operadora:

```{r}
df.vda <- df.vda |>
  arrange(id_ops, contratacao, id_calendar) |> 
  # CALCULA VDA POR OPERADORA EM CADA CARTEIRA
  mutate(
    vda = if_else(
      !is.na(lag(id_ops)) & lag(id_ops) == id_ops 
      & !is.na(lag(contratacao)) & lag(contratacao) == contratacao
      & !is.na(lag(id_calendar)) & year(lag(id_calendar)) == year(id_calendar) - 1, 
      (dpb/lag(dpb)-1)*100, NA
    ),
    .by = c(id_ops, contratacao)
  ) |> 
  # IDENTIFICA OUTLIERS (valores extremos) pelo critério BOXPLOT 1.5xIQR
  mutate(
    lg_outlier = vda>=(quantile(vda,0.75,na.rm = T)+1.5*IQR(vda, na.rm = T)) 
                 | vda<=(quantile(vda,0.25, na.rm = T)-1.5*IQR(vda, na.rm = T)),
    .by = contratacao
  )
```


<br>

Estatísticas descritivas da distribuição da VDA por operadora


```{r echo=FALSE}
df.vda |> 
  filter(!is.na(vda)) |> 
  summarise(Operadoras = n_distinct(id_ops),
            mínimo = min(vda),
            q1 = quantile(vda, p = .25, names = F),
            mediana = median(vda),
            q3 = quantile(vda, p = .75, names = F),
            máximo = max(vda),
            média = mean(vda), 
            "cv (%)"= round(sd(vda)/`média`*100),
            .by = contratacao) |>
  mutate(across( c(`mínimo`:`média`), ~ round(.x, 2) ))
```



<br>

**Valores extremos (outliers)**


```{r echo=FALSE, fig.width=9, fig.asp=.7}
df.plt <- df.vda |> filter(!is.na(vda)) |> 
  # filter(vda <= 2000) |>
  mutate(n=n(), .by = contratacao) |> 
  mutate(
    outlier.color = if_else(lg_outlier, "red", NA),
    contratacao = factor(contratacao, 
                         levels = c("Empresarial","Individual","Adesão"))
  ) 

contratacao_n <- df.plt |> 
    summarise(n=n(), .by = contratacao) |> 
    mutate(label=paste0(contratacao," (",n," operadoras)")) |> 
    select(-n) 
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

suppressWarnings(print(
df.plt |> 
  ggplot(aes(x=contratacao, y=vda, fill=contratacao)) +
  stat_boxplot(geom='errorbar', linetype=1, width=0.5)+  #whiskers
  geom_boxplot(alpha=.5, show.legend = F, outlier.colour = NA) +
  # stat_summary(fun.y=mean, geom="point", size=2) +  #dot for the mean
  geom_jitter(color=df.plt$outlier.color, width = .3, alpha=.4) +
  facet_wrap(~contratacao, ncol = 1, scales = "free", labeller = as_labeller(contratacao_n)) +
  viridis::scale_fill_viridis(discrete = TRUE, option = "D") +
  # ggsci::scale_fill_lancet() +
  scale_y_continuous(labels = scales::label_number(big.mark = ".", decimal.mark = ",")) +
  theme(legend.position = "none",
        axis.text.y = element_blank(),
        panel.grid.major.x = element_line(linetype = "dashed"))  +
  labs(
    title = "Boxplot da Variação da Despesa por Beneficiário (VDA) das Operadoras",
    subtitle = "Valores extremos (outliers) em vermelho",
    caption = "Fonte: ANS/DIOPS, ANS/SIB",
    x=NULL, y="VDA (%)"
  ) +
  coord_flip()
))
```

<br>

Valores extremos (outliers) identificados pela metodologia de intervalo interquartílico (boxplot 1.5xIQR).

```{r echo=FALSE, message=FALSE, warning=FALSE}
df.vda |>
  filter(!is.na(vda)) |> 
  mutate(
    lg_outlier = case_when(
      vda >= (quantile(vda,0.75,na.rm = T)+1.5*IQR(vda, na.rm = T)) ~ "superiores",
      vda <= (quantile(vda,0.25, na.rm = T)-1.5*IQR(vda, na.rm = T)) ~ "inferiores",
      .default = NA
    ),
    .by = contratacao
  ) |> 
  summarise(
    Operadoras = n(),
    Outliers = sum(!is.na(lg_outlier)),
    "%" = round(Outliers/Operadoras*100,1),
    "Outliers inferiores" = sum(lg_outlier=="inferiores", na.rm = T),
    "Outliers superiores" = sum(lg_outlier=="superiores", na.rm = T),
    .by = contratacao
  )
```


<br>

**Visualizações gráficas da distribuição da VDA das operadoras.**


Os gráficos a seguir excluem valores extremos (outliers) para que seja possível visualizar a distribuição da grande maioria dos dados.

<br>

```{r echo=FALSE, fig.width=6.5, fig.asp=.65}
df.plt <- df.vda |> filter(!is.na(vda)) |> filter(!lg_outlier) |>
  mutate(contratacao = factor(contratacao, levels=c("Empresarial", "Individual", "Adesão"))) 

contratacao_n <- df.plt |> 
    summarise(n=n(), .by = contratacao) |> 
    mutate(label=paste0(contratacao," (",n," operadoras)")) |> 
    select(-n) 
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

df.plt |> 
  ggplot(aes(x=vda, fill=contratacao, color=contratacao, weight=benefm)) +
  geom_density(alpha=.4, adjust=.5) +
  viridis::scale_color_viridis(discrete = TRUE, option = "D", labels=contratacao_n) +
  viridis::scale_fill_viridis(discrete = TRUE, option = "D", labels=contratacao_n) +
  # ggsci::scale_fill_lancet(labels = contratacao_n) +
  # ggsci::scale_color_lancet(labels = contratacao_n) +
  scale_y_continuous(expand = expansion(mult = c(0,0.1))) +
  scale_x_continuous(expand = expansion(mult = c(0,0)), breaks = scales::breaks_width(10)) +
  theme(legend.position = "top",
        panel.grid.major.x = element_line(linetype = "dashed")) +
  labs(
    title = "Distribuição Ponderada da VDA das Operadoras",
    caption = paste0(
      "Fonte: ANS/DIOPS, ANS/SIB\n",
      "Notas:\n",
      "Exclui valores extremos pela metodologia de intervalo interquartílico (boxplot).\n",
      "Frequência ponderada pelo tamanho da carteira da operadora.\n",
      "Estimativa Gaussiana de densidade por Kernel para função de densidade de probabilidade."
    ),
    x = "Variação da Despesa Assistencial por Beneficiário - VDA (%)",
    y = "Frequência"
  ) 
```

<br>


## VDA do setor

<br>

A metodologia de cálculo da VDA do setor para aplicação como componente do IRPI adota a VDA média ponderada pela quantidade de beneficiários no ano mais recente, após a exclusão dos valores extremos. 

```{r echo=FALSE, fig.width=7, fig.asp=1}
df.plt <- df.vda |> filter(!is.na(vda)) |> 
  filter(!lg_outlier) |>
  mutate(contratacao = factor(contratacao, levels=c("Empresarial", "Individual", "Adesão"))) 

contratacao_n <- df.plt |> 
    summarise(n=n(), .by = contratacao) |> 
    mutate(label=paste0(contratacao," (",n," operadoras)")) |> 
    select(-n) 
contratacao_n <- setNames(contratacao_n$label, contratacao_n$contratacao)

mediaP <- df.plt |> summarise(gr.mediaP = weighted.mean(vda, w=benefm), 
                              .by=contratacao) |> 
  mutate(benefm=.14)

df.plt |> 
  ggplot(aes(x=vda, fill=contratacao, color=contratacao, weight=benefm)) +
  geom_histogram(aes(y=after_stat(density)*.5), fill="white", binwidth = 1) +
  geom_density(alpha=.4, adjust=.5) + 
  geom_vline(data=mediaP, aes(xintercept=gr.mediaP), color="black") +
  geom_text(data=mediaP, 
            aes(x=gr.mediaP, y = benefm, 
                label = paste0("Média ponderada: ",scales::number(gr.mediaP, accuracy = .01),"%")),
            nudge_x = 1, color = "black", size=3, hjust=0) +
  facet_wrap(~contratacao, ncol = 1, labeller = as_labeller(contratacao_n)) +
  
  viridis::scale_fill_viridis(discrete = TRUE, option = "D", direction = 1) +
  viridis::scale_color_viridis(discrete = TRUE, option = "D", direction = 1) +
  # ggsci::scale_fill_lancet() +
  # ggsci::scale_color_lancet() +
  scale_x_continuous(expand = expansion(mult = c(0,0)), breaks = scales::breaks_width(10)) +
  scale_y_continuous(expand = expansion(mult = c(0,.1))) +
  theme(legend.position = "none",
        panel.grid.major.x = element_line(linetype = "dashed"))  +
  labs(
    title = "Distribuição Ponderada da VDA das Operadoras",
    caption = paste0(
      "Fonte: ANS/DIOPS, ANS/SIB\n",
      "Notas:\n",
      "Exclui valores extremos pela metodologia de intervalo interquartílico (boxplot).\n",
      "Histograma com intervalos de 1 ponto percentual. Frequência ponderada pelo tamanho da carteira da operadora.\n",
      "Estimativa Gaussiana de densidade por Kernel para função de densidade de probabilidade."
    ),
    y="Frequência",
    x="Variação da Despesa Assistencial por Beneficiário (%)"
  ) 
```




<br>

## Base de cálculo

<br>

Representatividade de base de cálculo da VDA (após exclusões por dados incompletos, ressalva, início de operação ou cancelamento de registro) sobre as bases extraídas dos sistemas de origem.


```{r echo=FALSE, fig.asp=.8, fig.width=6}
df.reunida |> 
  summarise(
    "Beneficiários" = sum(ben_ano2[!is.na(vda)])/sum(ben_ano2, na.rm = T),
    "Operadoras (SIB)" = sum(!is.na(vda))/sum(!is.na(ben_ano2)),
    "Despesa" = sum(despesa_ano2[!is.na(vda)])/sum(despesa_ano2, na.rm = T),
    "Operadoras (DIOPS)" = sum(!is.na(vda))/sum(!is.na(ben_ano2)),
    .by = contratacao
  ) |> 
  pivot_longer(cols = 2:5, values_to = "percentual", names_to = 'Metrica') |> 
  mutate(Metrica = factor(Metrica, levels=c("Beneficiários","Operadoras (SIB)",
                                            "Despesa", "Operadoras (DIOPS)"))) |> 
  ggplot(aes(x = contratacao, y=percentual)) +
  geom_col(fill = "slategray4") +
  geom_text(aes(label = scales::percent(percentual, accuracy = .1), vjust = 1.2), 
            position = position_dodge(1), size=3, color = "white") +
  scale_y_continuous(label=scales::percent, expand = expansion(mult = c(0,0.01)),
                     limits = c(0,1)) +
  theme(panel.grid.major.x = element_blank()) +
  labs(x=NULL, y=NULL, 
       title = "Representatividade da base de cálculo da VDA",
       subtitle = "% da base original") +
  facet_wrap(Metrica ~ ., nrow = 2)
```

```{r echo=FALSE}
df.reunida |> 
  summarise(
    Beneficiários = sum(ben_ano2, na.rm = T),
    "Beneficiários VDA" = sum(ben_ano2[!is.na(vda)], na.rm = T),
    "%" = round(`Beneficiários VDA`/`Beneficiários`*100,1),
    .by = contratacao
  )
```

<br>

Gera uma base completa que reúne todas as observações dos dois anos e o cálculo da VDA para gravar.

```{r include=FALSE}
# GERA O CADOP NOVAMENTE COM NOMES DE OPERADORAS APÓS TRATAMENTO e LG_ ALTERADO PARA 1/0
ta.cadop <- fread("_datasets/vw_cadop.csv") |> lazy_dt() |> as_tibble() |> 
  select(id_ops, razao_social) |> 
  inner_join(ta.cadop |> select(-razao_social), by=join_by(id_ops)) |> 
  mutate(across(starts_with("lg_"), ~if_else(.x,1L,0L)))
```


```{r}
sib2 <- sib |> 
  mutate(ano = if_else(year(id_calendar)==year(periodo[1]),"ano1","ano2")) |> 
  select(-id_calendar) |> 
  pivot_wider(names_from = ano, values_from = benefm, values_fill = 0, names_prefix = "ben_") |> 
  # Calcula % da carteira da operadora
  mutate(pct_ben_ano2 = ben_ano2/sum(ben_ano2), .by = id_ops) |> 
  # Identifica observações sem sequência de beneficiários no período
  mutate(lg_excl_benef = if_else(is.na(ben_ano1)|ben_ano1<1|is.na(ben_ano2)|ben_ano2<1, 1L, 0L))

diops2 <- diops |> 
  mutate(ano = if_else(year(id_calendar)==year(periodo[1]),"ano1","ano2")) |> 
  select(-id_calendar) |> 
  pivot_wider(names_from = ano, values_from = c(despesa, receita), values_fill = 0) |> 
  # Identifica observações que não têm despesa nos dois anos
  mutate(lg_excl_despesa = if_else(
    is.na(despesa_ano1)|despesa_ano1<=0|is.na(despesa_ano2)|despesa_ano2<=0, 1L, 0L
    )) 

df.reunida <-  sib2 |> 
  full_join(diops2, by=join_by(id_ops, contratacao)) |> 
  
  mutate(dpb_ano1 = if_else(despesa_ano1>0 & ben_ano1>0, despesa_ano1/ben_ano1/12, NA),
         dpb_ano2 = if_else(despesa_ano2>0 & ben_ano2>0, despesa_ano2/ben_ano2/12, NA)) |> 
  
  full_join(
    df.vda |> filter(!is.na(vda)) |> select(id_ops, contratacao, vda, lg_outlier), 
    by = join_by(id_ops, contratacao)
  ) |> 
  
  inner_join(ta.cadop, by = join_by(id_ops)) |> 
  
  select(id_ops, razao_social, modalidade, contratacao, 
         starts_with('lg_'), starts_with('receita'), starts_with('despesa'), starts_with('ben'), 
         everything()) |> 
  mutate(across(receita_ano1:ben_ano2, ~if_else(.x==0, NA, .x)),
         across(lg_excl_benef:lg_excl_despesa, ~if_else(is.na(.x),1L,.x))) |> 
  # Exclui observações que não tenham nem informação de despesa nem de beneficiários da base
  filter( !(is.na(despesa_ano1) & is.na(despesa_ano2) & is.na(ben_ano1) & is.na(ben_ano2)) )
```




```{r eval=FALSE, include=FALSE}
# remove(diops2, sib2, df.vda2, df.plt)
# dfs <- ls()[sapply(mget(ls(), .GlobalEnv), is.data.frame)]
# for (df in dfs) {
#   get(df) |>
#     mutate(across(where(is.factor), ~ enc2utf8(as.character(.x)))) |> 
#     mutate(across(where(is.character), ~ enc2utf8(as.character(.x)))) |> 
#     fwrite(str_c(c("_basesR/", df, ".csv"), sep = "", collapse = ""))
# }
# remove(df, dfs)
```


***


# Glossário    

**Beneficiário**: Indivíduo (pessoa física) beneficiário de cobertura de plano privado de assistência à saúde e consumidor de serviços de assistência à saúde.              

**Contratante**: Pessoa física ou jurídica responsável pela contratação do plano privado de assistência à saúde.          

**Operadora**: Pessoa jurídica constituída sob a modalidade de sociedade civil ou comercial, cooperativa ou entidade de autogestão, que opere produto, serviço ou contrato de plano privado de assistência à saúde.             

**Plano Privado de Assistência à Saúde**: Prestação continuada de serviços ou cobertura de custos assistenciais a preço pré ou pós estabelecido, por prazo indeterminado, com a finalidade de garantir, sem limite financeiro, a assistência à saúde, pela faculdade de acesso e atendimento por profissionais ou serviços de saúde, livremente escolhidos, integrantes ou não de rede credenciada, contratada ou referenciada, visando a assistência médica, hospitalar e odontológica, a ser paga integral ou parcialmente às expensas da operadora contratada, mediante reembolso ou pagamento direto ao prestador, por conta e ordem do consumidor.             

**Tipo de contratação**:           

  + *Individual ou Familiar*, oferece cobertura da atenção prestada para a livre adesão de beneficiários, pessoas naturais, com ou sem grupo familiar            
  
  + *Coletivo empresarial*, quando a contratação é feita por meio de pessoa jurídica para a cobertura de pessoas a ela vinculadas por relação empregatícia ou estatutária           
  
  + *Coletivo por adesão*, quando a contratação é feita por meio de pessoa jurídica de caráter profissional, classista ou setorial (e.g. conselhos profissionais, entidades de classe, sindicatos, cooperativas, etc.)            
  
              
              
**Tipo de financiamento**:               

  + *Pré-estabelecido*, quando o valor da contraprestação pecuniária é pré-fixado mediante negociação anual, caracterizando contrato de risco.            
  
  + *Pós-estabelecido*, quando o valor da contraprestação pecuniária é estabelecido após a ocorrência dos procedimentos de assistência à saúde.               
