Discussão

Comentário sobre: “O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio”

Comment on: “The critical use of statistical inference in occupational epidemiology: essay”

Dario Consonni
Fondazione IRCCS Ca’ Granda Ospedale Maggiore Policlinico, Itália

Comentário sobre: “O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio”

Revista Brasileira de Saúde Ocupacional, vol. 50, edisfl2, 2025

Fundação Jorge Duprat Figueiredo de Segurança e Medicina do Trabalho - Fundacentro

Received: 22 August 2024

Accepted: 23 August 2024

O artigo “O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio”1 é uma contribuição bem-vinda para a discussão e interpretação dos resultados de estudos epidemiológicos. O foco do artigo é a estatística inferencial, mas toca em vários outros pontos que são relevantes para todos os campos biomédicos, não apenas para a epidemiologia ocupacional. Trabalho em um hospital e tenho colaborado com muitos profissionais de saúde, incluindo médicos (ocupacionais e não ocupacionais), enfermeiros e biólogos: ao longo dos anos, aprendi que eles têm concepções errôneas infundadas (costumo chamá-las de mitos), sendo a mais perigosa a centralidade da “significância estatística”. Com base nessa experiência, apresento aqui meu ponto de vista pessoal sobre algumas questões epidemiológicas importantes que considero muito relevantes e que são frequentemente mal interpretadas.

Representatividade

Muitos não epidemiologistas ficam confusos com relação à representatividade. Quando chegam a minha sala, alguns se desculpam antecipadamente dizendo: ”Minha amostra não é aleatória, então não é representativa”. Tento tranquilizá-los dizendo que nenhum estudo epidemiológico é representativo de populações-alvo, que todos os estudos são selecionados de uma forma ou de outra e que, às vezes, essa seleção é benéfica. É claro que é importante fazer uma distinção clara, de acordo com o objetivo do estudo.

Quando o objetivo é apenas uma variável (uma medida de ocorrência, por exemplo, incidência ou prevalência de determinada doença, prevalência de fumantes), a representatividade é necessária2. É preciso estudar toda a população (por exemplo, por meio de um registro de câncer) ou realizar uma pesquisa em uma amostra representativa da população, geralmente selecionada aleatoriamente de uma fonte de dados apropriada. Ao escolher a amostra incorreta, é possível facilmente obter estimativas inválidas (muito altas ou muito baixas). A analogia com as pesquisas eleitorais é evidente. Obviamente, vieses de seleção ou de informação podem afetar o estudo (por exemplo, nem todas as pessoas aceitam participar e os participantes podem não ser precisos).

Ao contrário, quando o interesse é a associação entre duas variáveis (geralmente com o objetivo de investigar se existe uma relação causal entre a exposição e o resultado), a representatividade não é importante2,3. Nesse caso, o que importa é ter uma amostra de estudo que forneça a associação correta entre exposição e doença, ou seja, a medida correta de associação absoluta (diferença) ou relativa (proporção). No jargão epidemiológico, o que importa aqui é a validade do estudo, e não se a amostra do estudo foi selecionada aleatoriamente para ser representativa de alguma população-alvo.

É fácil perceber a irrelevância da representatividade: estudos clínicos sobre a eficácia de medicamentos ou vacinas são realizados em grupos não representativos de pacientes selecionados (não aleatoriamente) em uma ou várias unidades de saúde; estudos ocupacionais são realizados em amostras (não aleatórias) de trabalhadores. Um exemplo histórico eminente é o estudo sobre câncer de pulmão e tabagismo realizado entre médicos britânicos do sexo masculino, claramente um caso de não representatividade. De fato, a seleção cuidadosa (“não representatividade intencional”) às vezes é fundamental para reduzir o viés2; por exemplo, para evitar fator de confusão muito forte por tabagismo ativo, o efeito do tabagismo passivo foi validamente estudado restringindo-se de maneira deliberada a seleção a nunca fumantes.

A única situação em que a representatividade é importante ocorre em estudos de caso-controle: os controles devem ser representativos da base de estudo (a população-tempo) da qual os casos se originaram. Existem exceções, por exemplo, quando há um registro de doenças que coleta rotineiramente todos os casos em uma área, mas os recursos para recrutar indivíduos para o grupo de controle são limitados4.

Validade

Na Epidemiologia, a validade refere-se à capacidade de obter estimativas de exposição ou doença (ou seja, medidas de ocorrência: incidência ou prevalência) ou de associação entre exposição e doença (ou seja, medidas de associações: diferenças ou proporções de risco e taxas, em termos gerais), que estão, em média, próximas do valor real. Como o valor verdadeiro é, em geral, desconhecido, a avaliação da validade é indireta e consiste em avaliar a ausência de erros sistemáticos ou vieses importantes (fator de confusão, seleção e falta de informações). Observe que os erros sistemáticos não podem ser reduzidos com o aumento do tamanho do estudo.

Os autores do ensaio1 observam corretamente que a validade suficiente (não existe perfeição) é o pré-requisito fundamental de um bom estudo epidemiológico. De fato, nos últimos anos, um grande conjunto de técnicas, chamadas de “análises quantitativas de viés”, foi desenvolvido para quantificar vieses relacionados a fatores de confusão, seleção e informação5. Infelizmente, essas ferramentas ainda não são amplamente usadas na pesquisa biomédica.

Observei que existem muitas dúvidas sobre fatores de confusão fora do campo epidemiológico. Em primeiro lugar, um mito comum é que qualquer “terceira variável” (além da exposição e do efeito) é um fator de confusão a ser ajustado com análises multivariáveis; não reconhecendo que essas terceiras variáveis podem ter funções diferentes nos caminhos causais, atuando como mediadores, modificadores de efeito, fatores sinérgicos ou colisores, cada um exigindo tratamento específico nas fases de projeto ou análise6-9. Em segundo lugar, muitos ainda pensam, incorretamente, que os possíveis fatores de confusão são as variáveis que foram “estatisticamente significativas” na análise univariada, quando, na verdade, deve-se usar outras ferramentas não estatísticas para identificar fatores de confusão, por exemplo, gráficos acíclicos direcionados (DAGs)6-9.

Precisão

Na Epidemiologia, a precisão refere-se à capacidade de obter estimativas de medidas de ocorrência ou de associação entre exposição e doença que tenham pouca variabilidade (em repetições hipotéticas do estudo). Formalmente, Precisão = 1/Variância(Estimativa), em que a variância é o erro-padrão ao quadrado (SE) da estimativa. Para medidas relativas (“riscos relativos”, RR), é melhor considerar o SE de ln(RR). A precisão reflete a quantidade de informações (ou, ao contrário, a quantidade de incerteza, o erro aleatório) no estudo. Ao contrário da validade, a precisão pode ser aumentada com o aumento do tamanho do estudo.

A precisão estatística de um estudo é facilmente avaliada pela amplitude do intervalo de confiança (IC), que depende do SE. No entanto, os autores do ensaio1 apontam corretamente que, com muita frequência, o IC é mal interpretado, rotulando um resultado como “estatisticamente significativo” (ou não) com base no fato de que o IC não inclui (ou inclui) o valor nulo, assim reduzindo o IC a um teste de hipóteses.

Significância estatística

Podemos dizer que “o principal objetivo de uma análise estatística deve ser a produção das estimativas de efeito mais exatas (válidas e precisas) que podem ser obtidas a partir dos dados10. Infelizmente, embora as questões de validade geralmente tenham um impacto maior sobre a precisão do estudo, grande parte da ênfase do ensino de estatística ainda está na estatística inferencial, para tratar de erros aleatórios. Há duas classes amplas de métodos estatísticos usados para esse escopo: teste de hipótese e intervalo de confiança (IC).

O teste de hipótese produz valores-P, que estão amplamente sujeitos a interpretações errôneas. Os autores do ensaio1 lembram que a estatística inferencial é totalmente apropriada somente quando a randomização foi usada. Mas a maioria das pesquisas é observacional: nessas situações, pode-se usar a estatística como um auxílio para avaliar a incerteza nos resultados. Infelizmente, frequentemente esse não é o caso. Muitos livros (por exemplo, Rothman et al., 2008)11 e artigos (por exemplo, Sterne e Davey Smith, 2001)12 discutiram os diversos problemas dos valores-p. Acredito que o uso indevido mais pernicioso é a tendência generalizada de dicotomizar o valor-p em “P < 0,05” (chamado de estatisticamente significativo e, portanto, “positivo”) e “P > 0,05” (qualificado como estatisticamente não significativo e, portanto, “negativo”). Esse comportamento foi rotulado como dicotomania13.

O IC é uma maneira muito melhor de expressar e comunicar resultados científicos. Ao se concentrar na precisão em vez de na significância estatística, três números (a estimativa do efeito e os limites de confiança inferior e superior) transmitem tanto a significância para a saúde quanto a incerteza estatística14. Infelizmente, conforme observado acima, com muita frequência os ICs são reduzidos a testes de hipótese, caindo na armadilha da dicotomania.

Como corretamente observado pelos autores do ensaio1, o conhecimento na ciência avança por meio da replicação de resultados em diferentes condições, com o auxílio de várias outras disciplinas fora do campo epidemiológico (por exemplo, biologia, toxicologia). A esse respeito, observe que os famosos “critérios de Hill” para avaliar a causalidade não incluem a significância estatística11. Na maioria das situações, um único estudo não pode levar a uma avaliação conclusiva por si só. Ferramentas importantes para decidir sobre relações causais são as revisões sistemáticas, em especial as revisões sistemáticas quantitativas ou meta-análises. Seria fácil avaliar a irrelevância da significância estatística ao refletir por alguns segundos sobre o fato de que a meta-análise faz uso de intervalos de confiança, sem considerar os valores-P de cada estudo.

A ciência é uma tarefa mais complexa do que calcular um único número e compará-lo a um limite completamente arbitrário7. É necessária uma forte mudança cultural (que inclui o abandono do foco no teste de hipóteses) na forma como a estatística é ensinada, usada e interpretada13,15. Enquanto aguardam esse momento, os leitores podem seguir três recomendações simples ao enviar manuscritos16: 1) Apresente estimativas de efeito juntamente com seus intervalos de confiança em vez de valores-P, evitando qualificar o resultado como estatisticamente significativo ou não com base no fato de que o intervalo inclui (ou não) o valor nulo. 2) Não escreva na seção de métodos do artigo frases como “Consideramos estatisticamente significativo um valor-P < 0,05”. 3) Se você informar os valores-P, evite rotulá-los como estatisticamente significativos ou não; em vez disso, avalie-os de forma qualitativa e não rígida e considere a relevância dos resultados para a saúde (por exemplo, a magnitude do risco relativo ou da diferença de risco). Independentemente dos valores-P, seu estudo pode ser incluído em uma meta-análise no futuro.

Para finalizar, gosto de citar uma frase incisiva de um editorial recente de uma importante revista de estatística17: “statistically significant – don’t say it and don’t use it [estatisticamente significativo - não diga isso e não use isso]”.

Referências

Fernandes RCP, Lima VMC, Carvalho FM. O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio. Res Bras Saude Ocup 2024;49:e13. Disponível em: https://doi.org/10.1590/2317-6369/35622pt2024v49e13

Richiardi L, Pizzi C, Pearce N. Commentary: Representativeness is usually not necessary and often should be avoided. Int J Epidemiol. 2013 Aug;42(4):1018-22. https://doi.org/10.1093/ije/dyt103

Rothman KJ, Gallacher JE, Hatch EE. Why representativeness should be avoided. Int J Epidemiol. 2013 Aug;42(4):1012-4. https://doi.org/10.1093/ije/dys223

Consonni D, Calvi C, De Matteis S, Mirabelli D, Landi MT, Caporaso NE, et al. Peritoneal mesothelioma and asbestos exposure: a population-based case-control study in Lombardy, Italy. Occup Environ Med. 2019 Aug;76(8):545-53. https://doi.org/10.1136/oemed-2019-105826

Lash TL, Fox MP, MacLehose RF, Maldonado G, McCandless LC, Greenland S. Good practices for quantitative bias analysis. Int J Epidemiol. 2014 Dec;43(6):1969-85. https://doi.org/10.1093/ije/dyu149

Corraini P, Olsen M, Pedersen L, Dekkers OM, Vandenbroucke JP. Effect modification, interaction and mediation: an overview of theoretical insights for clinical investigators. Clin Epidemiol. 2017 Jun;9:331-8. https://doi.org/10.2147/CLEP.S129728

Pearce N, Lawlor DA. Causal inference-so much more than statistics. Int J Epidemiol. 2016 Dec;45(6):1895-903. https://doi.org/10.1093/ije/dyw328

Digitale JC, Martin JN, Glymour MM. Tutorial on directed acyclic graphs. J Clin Epidemiol. 2022 Feb;142:264-7. https://doi.org/10.1016/j.jclinepi.2021.08.001

Lipsky AM, Greenland S. Causal directed acyclic graphs. JAMA. 2022 Feb;327(11):1083-4. https://doi.org/10.1001/jama.2022.1816

Greenland S, Daniel R, Pearce N. Outcome modelling strategies in epidemiology: traditional methods and basic alternatives. Int J Epidemiol. 2016 Apr;45(2):565-75. https://doi.org/10.1093/ije/dyw040

Rothman KJ, Greenland S, Lash TL. Modern epidemiology 3rd rd. Philadelphia: Lippincott Williams & Wilkins; 2008.

Sterne JA, Davey Smith G. Sifting the evidence: what's wrong with significance tests? BMJ. 2017 Jan;322(7280):226-31. https://doi.org/10.1136/bmj.322.7280.226

Greenland S. Invited commentary: the need for cognitive science in methodology. Am J Epidemiol. 2017;186(6):639-45. https://doi.org/10.1093/aje/kwx259

Poole C. Low P-values or narrow confidence intervals: which are more durable? Epidemiology. 2001 May;12(3):291-4. https://doi.org/10.1097/00001648-200105000-00005

Lash TL. The harm done to reproducibility by the culture of null hypothesis significance testing. Am J Epidemiol. 2017 Sep;186(6):627-35. https://doi.org/10.1093/aje/kwx261

Consonni D, Bertazzi PA. Health significance and statistical uncertainty: the value of P-value. Med Lav. 2017 oct;108(5):327-31. https://doi.org/10.23749/mdl.v108i5.6603

Wasserstein RL, Schirm AL, Lazar NA. Moving to a world beyond “p < 0.05” Am Stat. 2019;73(sup1):1-19. https://doi.org/10.1080/00031305.2019.1583913

Notes

Disponibilidade de dados: O autor informa que todas as informações que dão suporte a esta Discussão foram publicadas no próprio texto.
Apresentação do estudo em evento científico: O autor informa que esta Discussão é original e não foi apresentada em evento científico.
Financiamento: O autor declara que seu trabalho nesta Discussão não foi financiado.

Author notes

Editor-Chefe: Eduardo Algranti

Contato: Dario Consonni E-mail dario.consonni@unimi.it

Conflict of interest declaration

Conflitos de interesses: O autor declara que não há conflitos de interesses.
HTML generated from XML JATS by