Discussão
Comentário sobre: “O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio”
Comment on: “The critical use of statistical inference in occupational epidemiology: essay”
Received: 22 August 2024
Accepted: 23 August 2024
O artigo “O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio”1 é uma contribuição bem-vinda para a discussão e interpretação dos resultados de estudos epidemiológicos. O foco do artigo é a estatística inferencial, mas toca em vários outros pontos que são relevantes para todos os campos biomédicos, não apenas para a epidemiologia ocupacional. Trabalho em um hospital e tenho colaborado com muitos profissionais de saúde, incluindo médicos (ocupacionais e não ocupacionais), enfermeiros e biólogos: ao longo dos anos, aprendi que eles têm concepções errôneas infundadas (costumo chamá-las de mitos), sendo a mais perigosa a centralidade da “significância estatística”. Com base nessa experiência, apresento aqui meu ponto de vista pessoal sobre algumas questões epidemiológicas importantes que considero muito relevantes e que são frequentemente mal interpretadas.
Muitos não epidemiologistas ficam confusos com relação à representatividade. Quando chegam a minha sala, alguns se desculpam antecipadamente dizendo: ”Minha amostra não é aleatória, então não é representativa”. Tento tranquilizá-los dizendo que nenhum estudo epidemiológico é representativo de populações-alvo, que todos os estudos são selecionados de uma forma ou de outra e que, às vezes, essa seleção é benéfica. É claro que é importante fazer uma distinção clara, de acordo com o objetivo do estudo.
Quando o objetivo é apenas uma variável (uma medida de ocorrência, por exemplo, incidência ou prevalência de determinada doença, prevalência de fumantes), a representatividade é necessária2. É preciso estudar toda a população (por exemplo, por meio de um registro de câncer) ou realizar uma pesquisa em uma amostra representativa da população, geralmente selecionada aleatoriamente de uma fonte de dados apropriada. Ao escolher a amostra incorreta, é possível facilmente obter estimativas inválidas (muito altas ou muito baixas). A analogia com as pesquisas eleitorais é evidente. Obviamente, vieses de seleção ou de informação podem afetar o estudo (por exemplo, nem todas as pessoas aceitam participar e os participantes podem não ser precisos).
Ao contrário, quando o interesse é a associação entre duas variáveis (geralmente com o objetivo de investigar se existe uma relação causal entre a exposição e o resultado), a representatividade não é importante2,3. Nesse caso, o que importa é ter uma amostra de estudo que forneça a associação correta entre exposição e doença, ou seja, a medida correta de associação absoluta (diferença) ou relativa (proporção). No jargão epidemiológico, o que importa aqui é a validade do estudo, e não se a amostra do estudo foi selecionada aleatoriamente para ser representativa de alguma população-alvo.
É fácil perceber a irrelevância da representatividade: estudos clínicos sobre a eficácia de medicamentos ou vacinas são realizados em grupos não representativos de pacientes selecionados (não aleatoriamente) em uma ou várias unidades de saúde; estudos ocupacionais são realizados em amostras (não aleatórias) de trabalhadores. Um exemplo histórico eminente é o estudo sobre câncer de pulmão e tabagismo realizado entre médicos britânicos do sexo masculino, claramente um caso de não representatividade. De fato, a seleção cuidadosa (“não representatividade intencional”) às vezes é fundamental para reduzir o viés2; por exemplo, para evitar fator de confusão muito forte por tabagismo ativo, o efeito do tabagismo passivo foi validamente estudado restringindo-se de maneira deliberada a seleção a nunca fumantes.
A única situação em que a representatividade é importante ocorre em estudos de caso-controle: os controles devem ser representativos da base de estudo (a população-tempo) da qual os casos se originaram. Existem exceções, por exemplo, quando há um registro de doenças que coleta rotineiramente todos os casos em uma área, mas os recursos para recrutar indivíduos para o grupo de controle são limitados4.
Na Epidemiologia, a validade refere-se à capacidade de obter estimativas de exposição ou doença (ou seja, medidas de ocorrência: incidência ou prevalência) ou de associação entre exposição e doença (ou seja, medidas de associações: diferenças ou proporções de risco e taxas, em termos gerais), que estão, em média, próximas do valor real. Como o valor verdadeiro é, em geral, desconhecido, a avaliação da validade é indireta e consiste em avaliar a ausência de erros sistemáticos ou vieses importantes (fator de confusão, seleção e falta de informações). Observe que os erros sistemáticos não podem ser reduzidos com o aumento do tamanho do estudo.
Os autores do ensaio1 observam corretamente que a validade suficiente (não existe perfeição) é o pré-requisito fundamental de um bom estudo epidemiológico. De fato, nos últimos anos, um grande conjunto de técnicas, chamadas de “análises quantitativas de viés”, foi desenvolvido para quantificar vieses relacionados a fatores de confusão, seleção e informação5. Infelizmente, essas ferramentas ainda não são amplamente usadas na pesquisa biomédica.
Observei que existem muitas dúvidas sobre fatores de confusão fora do campo epidemiológico. Em primeiro lugar, um mito comum é que qualquer “terceira variável” (além da exposição e do efeito) é um fator de confusão a ser ajustado com análises multivariáveis; não reconhecendo que essas terceiras variáveis podem ter funções diferentes nos caminhos causais, atuando como mediadores, modificadores de efeito, fatores sinérgicos ou colisores, cada um exigindo tratamento específico nas fases de projeto ou análise6-9. Em segundo lugar, muitos ainda pensam, incorretamente, que os possíveis fatores de confusão são as variáveis que foram “estatisticamente significativas” na análise univariada, quando, na verdade, deve-se usar outras ferramentas não estatísticas para identificar fatores de confusão, por exemplo, gráficos acíclicos direcionados (DAGs)6-9.
Na Epidemiologia, a precisão refere-se à capacidade de obter estimativas de medidas de ocorrência ou de associação entre exposição e doença que tenham pouca variabilidade (em repetições hipotéticas do estudo). Formalmente, Precisão = 1/Variância(Estimativa), em que a variância é o erro-padrão ao quadrado (SE) da estimativa. Para medidas relativas (“riscos relativos”, RR), é melhor considerar o SE de ln(RR). A precisão reflete a quantidade de informações (ou, ao contrário, a quantidade de incerteza, o erro aleatório) no estudo. Ao contrário da validade, a precisão pode ser aumentada com o aumento do tamanho do estudo.
A precisão estatística de um estudo é facilmente avaliada pela amplitude do intervalo de confiança (IC), que depende do SE. No entanto, os autores do ensaio1 apontam corretamente que, com muita frequência, o IC é mal interpretado, rotulando um resultado como “estatisticamente significativo” (ou não) com base no fato de que o IC não inclui (ou inclui) o valor nulo, assim reduzindo o IC a um teste de hipóteses.
Podemos dizer que “o principal objetivo de uma análise estatística deve ser a produção das estimativas de efeito mais exatas (válidas e precisas) que podem ser obtidas a partir dos dados”10. Infelizmente, embora as questões de validade geralmente tenham um impacto maior sobre a precisão do estudo, grande parte da ênfase do ensino de estatística ainda está na estatística inferencial, para tratar de erros aleatórios. Há duas classes amplas de métodos estatísticos usados para esse escopo: teste de hipótese e intervalo de confiança (IC).
O teste de hipótese produz valores-P, que estão amplamente sujeitos a interpretações errôneas. Os autores do ensaio1 lembram que a estatística inferencial é totalmente apropriada somente quando a randomização foi usada. Mas a maioria das pesquisas é observacional: nessas situações, pode-se usar a estatística como um auxílio para avaliar a incerteza nos resultados. Infelizmente, frequentemente esse não é o caso. Muitos livros (por exemplo, Rothman et al., 2008)11 e artigos (por exemplo, Sterne e Davey Smith, 2001)12 discutiram os diversos problemas dos valores-p. Acredito que o uso indevido mais pernicioso é a tendência generalizada de dicotomizar o valor-p em “P < 0,05” (chamado de estatisticamente significativo e, portanto, “positivo”) e “P > 0,05” (qualificado como estatisticamente não significativo e, portanto, “negativo”). Esse comportamento foi rotulado como dicotomania13.
O IC é uma maneira muito melhor de expressar e comunicar resultados científicos. Ao se concentrar na precisão em vez de na significância estatística, três números (a estimativa do efeito e os limites de confiança inferior e superior) transmitem tanto a significância para a saúde quanto a incerteza estatística14. Infelizmente, conforme observado acima, com muita frequência os ICs são reduzidos a testes de hipótese, caindo na armadilha da dicotomania.
Como corretamente observado pelos autores do ensaio1, o conhecimento na ciência avança por meio da replicação de resultados em diferentes condições, com o auxílio de várias outras disciplinas fora do campo epidemiológico (por exemplo, biologia, toxicologia). A esse respeito, observe que os famosos “critérios de Hill” para avaliar a causalidade não incluem a significância estatística11. Na maioria das situações, um único estudo não pode levar a uma avaliação conclusiva por si só. Ferramentas importantes para decidir sobre relações causais são as revisões sistemáticas, em especial as revisões sistemáticas quantitativas ou meta-análises. Seria fácil avaliar a irrelevância da significância estatística ao refletir por alguns segundos sobre o fato de que a meta-análise faz uso de intervalos de confiança, sem considerar os valores-P de cada estudo.
A ciência é uma tarefa mais complexa do que calcular um único número e compará-lo a um limite completamente arbitrário7. É necessária uma forte mudança cultural (que inclui o abandono do foco no teste de hipóteses) na forma como a estatística é ensinada, usada e interpretada13,15. Enquanto aguardam esse momento, os leitores podem seguir três recomendações simples ao enviar manuscritos16: 1) Apresente estimativas de efeito juntamente com seus intervalos de confiança em vez de valores-P, evitando qualificar o resultado como estatisticamente significativo ou não com base no fato de que o intervalo inclui (ou não) o valor nulo. 2) Não escreva na seção de métodos do artigo frases como “Consideramos estatisticamente significativo um valor-P < 0,05”. 3) Se você informar os valores-P, evite rotulá-los como estatisticamente significativos ou não; em vez disso, avalie-os de forma qualitativa e não rígida e considere a relevância dos resultados para a saúde (por exemplo, a magnitude do risco relativo ou da diferença de risco). Independentemente dos valores-P, seu estudo pode ser incluído em uma meta-análise no futuro.
Para finalizar, gosto de citar uma frase incisiva de um editorial recente de uma importante revista de estatística17: “statistically significant – don’t say it and don’t use it [estatisticamente significativo - não diga isso e não use isso]”.
Contato: Dario Consonni E-mail dario.consonni@unimi.it