Discussão

Inferência estatística versus inferência causal

Statistical inference versus causal inference

Ronir Raggio Luiz
Universidade Federal do Rio de Janeiro, Brasil

Inferência estatística versus inferência causal

Revista Brasileira de Saúde Ocupacional, vol. 50, edisfl1, 2025

Fundação Jorge Duprat Figueiredo de Segurança e Medicina do Trabalho - Fundacentro

Received: 12 August 2024

Accepted: 13 August 2024

De pronto, louvo a Revista Brasileira de Saúde Ocupacional (RBSO) e Rita Fernades, Veronica Lima e Fernando Carvalho, autores do artigo O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio1, por trazerem à baila a importantíssima temática do (mal) uso da estatística na Epidemiologia. Apesar de antiga e já bastante discutida e bem documentada, a sua recorrência na literatura continua sendo bem-vinda, especialmente em língua portuguesa. O lamentável fato de ela ainda não estar sequer devidamente reconhecida por muitos como um sério “problema” no desenvolvimento do conhecimento científico em geral e, mais particularmente, no nosso campo, reforça essa necessidade. Assim, fazendo coro ao seu conteúdo, pertinência e ensejo, o artigo1 é mais um texto que merece aplausos e a nossa criteriosa consideração.

Categoricamente, ouso dizer que o ponto central para avançarmos nessa discussão é reconhecer a importante e talvez mal-entendida (ou não entendida) distinção entre “inferência estatística” e “inferência causal”. E, para além dos estudos que dimensionem a gravidade de certo problema de saúde, é exatamente com o objetivo de se fazer inferências causais que se concentram os desenhos de estudos epidemiológicos, quer sejam experimentais ou observacionais. A seguir, pois, tentando justificar e defender esta posição, apresento alguns comentários, contrapontos e reflexões similares às questões levantadas no artigo e que, também, têm estado presentes há muito em minhas preocupações e textosb. Explorarei questões mais gerais, que entendo serem pouco percebidas como fundamentais para este debate. Deixarei de lado questões mais específicas, como, por exemplo, o uso de intervalos de confiança para considerar um resultado estatisticamente significativo ou não, abordado no artigo e bem explorado na literatura3.

Embora o artigo toque explicitamente neste aspecto da causalidade, sua maior preocupação está em chamar atenção para a mandatória presença de aleatoriedade no processo amostral se se quer fazer inferências estatísticas e, de certa forma questionável, até inferências causais. Adicionalmente, com a proposta de delimitar os usos da estatística nos estudos epidemiológicos e, com isso, talvez, minimizar os mal-entendidos desses usos, o artigo propõe que os estudos sejam classificados de acordo com a sua finalidade em descritivos, analíticos ou inferenciais. Com a devida vênia e reconhecendo sua propriedade, não entendo que tal classificação contribua significativamente quando queremos usar a teoria e a prática estatística com o intuito explícito de fazermos inferências causais. Além disso, se é ponto pacífico que a seleção aleatória da amostra é condição sine qua non para se fazer inferências estatísticas – sendo este exatamente um ponto central dos mal-entendidos –, ele é controverso quando o foco é estabelecer causalidade.

Em inferência causal, a questão central é a validade interna. Ou seja, usando a classificação consolidada da literaturac, a preocupação é com os clássicos vieses de seleção e informação e com o complexo e desafiante fenômeno conhecido como “confundimento”. Este, bem resumidamente, se refere a uma falta de comparabilidade que acontece na população. Em outras palavras, conceitualmente falando, o confundimento não é um viés no sentido epidemiológico, não é um erro cometido pelo pesquisador, mas enviesa a estimativa de um efeito causal, em um sentido estatístico, portanto. Nesse sentido, em um estudo de coorte, por exemplo – ou em qualquer outro estudo observacional cuja intenção seja identificar fatores de risco, ou seja, desvendar nexos causais –, mesmo que selecionemos uma amostra aleatória da população de expostos e, também, da população de não expostos, esses grupos podem continuar sendo não comparáveis por algum confundidor. E, a menos que possamos controlar a associação por este confundidor (se já se desconfiava dele e ele foi medido!), a estimativa do efeito causal estará enviesada. O mesmo vale, inclusive, para os estudos seccionaisd.

A randomização, isto é, o processo de alocação aleatória de certo suposto agente causal, se possível, é o mecanismo estatístico que, em tese, ou melhor, em média, “garantiria” probabilisticamente uma inferência causal (condicionado, claro, a não existência de outras explicações alternativas, outros vieses), pois tem o “poder” de controlar potenciais variáveis confundidoras conhecidas e até desconhecidas. Já, se houve ou não uma seleção aleatória das unidades que foram randomizadas, ou seja, se faz sentido ou não uma validação externa, a generalização deste resultado para certa população, nesse sentido inferencial, é uma questão secundária. Dada a inerente variabilidade interpessoal, nos remetendo, inclusive, potencialmente, ao conceito de interação, uma vez reconhecida e aceita (nunca demonstrada) que certa condição possa ter um efeito causal – pelo menos em média, que é o “máximo” que podemos fazer a partir de um estudo bem planejado –, é o perfil biológico, social, cultural etc. das pessoas daquela população que “validaria”, ou não, eventuais extrapolações causais, ou seja, fora do escopo da inferência estatística. A questão da representatividade amostral não é, pois, essencial em inferenciais causais. Por exemplo, suponha que determinado estudo clínico randomizado, bem planejado, e conduzido apenas em uma amostra não aleatória de trabalhadores, homens brancos, concluiu haver um efeito causal significativo (estatístico e/ou relevante em termos práticos) de certo equipamento de proteção individual. Por que não poderíamos prontamente generalizar este resultado para homens não brancos ou mesmo para mulheres?

Em síntese, penso, pois, que o problema parece acontecer quando temos explicitamente o interesse em fazer inferências causais e acreditar que todo o poderoso suporte teórico e prático da estatística, considerando, inclusive, a estatística descritiva, seria eventualmente suficiente para tamanho desafio. De fato, não é, mas há uma percepção generalizada de que seja. Esta percepção, porém, ainda que equivocada, talvez tenha lá suas “explicações”. Primeiro, pela absoluta falta de treinamentos metodológicos e teóricos no campo da inferência causal, que não só são razoavelmente recentes, mas também podem ser bem complexos. Por outro lado, a estatística tem revolucionado o conhecimento científico de tal maneira desde o século passado5, que talvez ela tenha se enraizado no imaginário coletivo do meio acadêmico como a pedra fundamental do raciocínio científico, especialmente por conta da sentença onipresente e onipotente “esse resultado é estatisticamente significativo”. Como, de fato, em qualquer análise de dados empíricos de certa população são necessários procedimentos estatísticos – quer sejam amostrais ou não, quer sejam derivados de desenhos de estudos bem planejados ou não, quer tenham algum processo aleatório ou não –, parece que esse apelo ganhou “fiéis” mundo acadêmico afora, particularmente na área biomédica6. Assim, pode-se suspeitar que as dificuldades intrínsecas ao processo de inferência causal tenham levado a uma supervalorização de eventuais associações observadas, apenas por serem estatisticamente significativas. O p-valor, ou seja, o critério de significância estatística (ou mesmo um intervalo de confiança) se refere apenas ao erro aleatório, sendo, pois, absolutamente insuficiente para o estabelecimento de relações de causa e efeito.

Nesse contexto, o uso e a interpretação do p-valor na pesquisa biomédica têm sido ponto de intenso debate e controvérsias há mais de 30 anos, tendo, inclusive, obrigado a American Statistical Association (ASA) a se pronunciar oficialmente7. Não que haja alguma coisa errada na teoria subjacente aos testes estatísticos de hipóteses, que redundam no nível de significância, mas tem havido sistematicamente equívocos sérios na sua interpretação com consequente comprometimento do desenvolvimento científico, como denunciado por muitos em dezenas de artigos científicos e até em livros. Por exemplo, a interpretação, com suas consequências, do que é ou não estatisticamente significativo a partir de um ponto de corte previamente fixado (o fatídico p < 0,05), tem sido criticada8, apesar de haver defensores e, recentemente, até a proposição de um nível de significância mais rígido, de 0,005 9,10.

Para concretizar as ideias, avancemos um pouco mais nesta discussão, mas ainda com reflexões conceituais a partir de um exemplo clássico e emblemático citado no artigo: como podemos afirmar, com “segurança” científica, que seria verdade que o tabagismo causa câncer de pulmão, como a literatura há muitos anos vem acumulando evidências? Colocando de uma forma estatístico-epidemiológica, quão mais provável seria a incidência de câncer de pulmão em fumantes comparativamente aos não fumantes? Temos condições de fazer este tipo de inferência de forma válida e precisa? Os grifos nas palavras “verdade” e “causa” neste parágrafo e em “erro”, em dois momentos anteriores, foram propositais. Elas merecem mais reflexões e podemos conectá-las.

Primeiro, devemos reconhecer que o conceito de causa, por si só, é bem complexo, com raízes na filosofia. Para simplificar e “fugir” estrategicamente deste imbróglio conceitual, podemos entender uma causa, neste contexto, como qualquer condição que altere o risco (ou seja, a probabilidade, a incidência) de ocorrência de certa doença. E, mais estrategicamente ainda, para viabilizar a inserção da estatística, podemos nos concentrar em definir e estimar parâmetros causais, como o risco relativo, por exemplo. Pronto, esta primeira etapa nos parece bem resolvida.

Agora, estabelecer, conhecer ou reconhecer uma verdade não é tarefa simples, senão impossível, como podemos depreender da filosofia. Mas algumas ideias ajudam. Por exemplo, atribui-se a Hanna Arendt a ideia de que podemos pensar em três tipos de verdade: a factual, a filosófica e a científica. Fica fácil caracterizá-las, ou entendê-las, pelos seus significados opostos. O contrário da verdade factual é a mentira, o da verdade filosófica é a ilusão e, de forma reveladora, o contrário da verdade científica é o erro. Muito pertinente e apropriada esta ideia à pesquisa epidemiológica. Assim, pelas evidências científicas até então acumuladas, é muitíssimo pouco provável que a verdade estabelecida de que fumar causa câncer de pulmão esteja errada. Enfim, por que é tão difícil estabelecer uma “verdade” epidemiológica? Exatamente pela onipresença do erro nas pesquisas, quer seja ele de natureza aleatória ou, principalmente, devido a algum viés, em um sentido lato.

Outro ponto que identifico como fundamental para ficarmos mais atentos, apesar de talvez bem reconhecido enquanto hipótese, é que a teoria estatística não se presta exatamente a “compreender” singularidades. Porém, em qualquer análise estatística de dados haverá sempre implícita uma certa premissa – não testável – de homogeneidade das unidades. Desse modo, diferente talvez de outras áreas de aplicação, a interpretação de estatísticas oriunda de pesquisas na área biomédica apresenta um caráter peculiar, e uma contribuição fundamental para entendimento deste processo pode vir da Epidemiologia, ajudada e complementada pela Biologia11. Como consequência, concordando com o artigo1, os resultados de um estudo em particular devem contribuir mais para aumentar o conhecimento sobre certo fenômeno do que para “revolucionar” a teoria sobre ele. A sutil questão aqui é que, usando um jargão estatístico, as observações dos estudos são comumente assumidas serem realizações de variáveis aleatórias “i.i.d.”, isto é, independentes e identicamente distribuídas. Serem independentes, ou não, é mais fácil reconhecer e temos estratégicas analíticas para lidar com as duas situações. O detalhe “perigoso” está na premissa “identicamente distribuídas”! E aqui, sem mais delongas, cabe uma pergunta provocativa para reflexão: os resultados estatísticos de uma análise de sobrevida em um estudo bem conduzido com 100 pacientes com câncer deve ser tão “esclarecedor” cientificamente quanto um outro igualmente bem conduzido e bem analisado com, por exemplo, 100 lâmpadas?

Em síntese, não obstante as dezenas de definições formais sobre a estatística e a bioestatística, informalmente pode-se dizer que a estatística é a ciência da incerteza e da variabilidade e a bioestatística é esta ciência aplicada ao campo da saúde, considerando duas importantes peculiaridades deste campo: a intrínseca heterogeneidade das unidades de análise (as pessoas) e o interesse central em estabelecer relações de causa e efeito. Penso que estas reflexões podem nos ajudar a melhor interpretar os resultados estatísticos de um estudo epidemiológico ou clínico.

Referências

Fernandes RCP, Lima VMC, Carvalho FM. O uso crítico da inferência estatística na epidemiologia ocupacional: ensaio. Res Bras Saude Ocup. 2024;49:e13. Disponível em: https://doi.org/10.1590/2317-6369/35622pt2024v49e13

Luiz RR, Struchiner CJ. Inferência causal em epidemiologia: o modelo de respostas potenciais. Rio de Janeiro: Editora Fiocruz; 2002.

Gardner MJ, Altman DG. Confidence intervals rather than p-values: estimation rather then hypothesis testing. British Medical Journal, 292:746-750, 1986. https://doi.org/10.1136/bmj.292.6522.746

Greenland S. Concepts of validity in epidemiological research. In: Holland WW, Detels R, Knox G, editors. 2nd ed. New York, Oxford University Press; 1991. (Oxford textbook of public health, vol. 2).

Salsburg DS. Uma senhora toma chá…: como a estatística revolucionou a ciência no século XX. Rio de Janeiro: Zahar; 2009.

Salsburg DS. The religion of statistics as practiced in medical journals. Am Statistician, 1985;39(3):220-3. https://doi.org/10.2307/2683942

Wasserstein RL, Lazar NA. The ASA's Statement on p-values: context, process, and purpose. Am Statistician. 2016;70(2):129-33. https://doi.org/10.1080/00031305.2016.1154108

Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31:337-50. https://doi.org/10.1007%2Fs10654-016-0149-3

Benjamin DJ, Berger JO, Johannesson M, Nosek BA, Wagenmakers EJ, Berk R. et al. Redefine statistical significance. Nature Human Behaviour. 2018; Jan;2(1):6-10. https://doi.org/10.1038/s41562-017-0189-z

Ioannidis JPA. The proposal to lower p-value thresholds to .005. JAMA. 2018;319(14):1429-30. https://doi.org/10.1001/jama.2018.1536

Schlesselman JJ. Biostatistics in epidemiology: a view from the faultline. J Clin Epidemiol. 1996 June;49(6):627-9. https://doi.org/10.1016/0895-4356 (96)00036-4

Notes

Disponibilidade de dados: O autor informa que todas as informações que dão suporte a esta Discussão foram publicadas no próprio texto.
Apresentação do estudo em evento científico: O autor informa que esta Discussão é original e não foi apresentada em evento científico.
b Particularmente em vários capítulos do livro intitulado “Epidemiologia”, da Editora Atheneu, com previsão de lançamento de sua 3ª edição no 12º Congresso Brasileiro de Epidemiologia, no Rio de Janeiro, no final de novembro de 2024. Outra referência que destaco é o livro “Inferência causal em epidemiologia”.
c Esta classificação, embora bem consolidada, talvez não seja completa exatamente por uma questão estatística. Greenland (1991) propôs uma classificação bem mais interessante a partir do conceito de validade, mas, infelizmente, não “pegou” na literatura, talvez por ter sido publicada como um capítulo de um compêndio não muito acessível, apesar de já estar em uma 7ª edição. Nessa classificação, podemos reconhecer o confundimento como “Validade de comparação”, o viés de seleção como “Validade de seguimento” e o viés de informação como “Validade de mensuração”. A novidade é o que ele chamou de “Validade de especificação”, que se relaciona a todas as eventuais premissas das análises estatísticas usadas no processo de inferência causal.
d Cabe aqui uma reflexão paralela, mas que também se relaciona a esses mal-entendidos associados à estatística na Epidemiologia. Alguns, talvez muitos, são radicais em afirmar que estudos seccionais não se prestam a inferências causais basicamente porque não se pode de imediato garantir que a exposição em questão preceda temporalmente o desfecho. Embora, de fato, neste tipo de estudo, não se possa descartar pelos dados disponíveis o problema em potencial conhecido como “causalidade reversa”, este não costuma ser o problema mais grave. Dependendo de quais sejam a exposição e a doença, conhecendo um pouco de sua fisiopatologia, uma eventual causalidade reversa poderia ser descartada. Por exemplo, no estudo da associação causal entre tabagismo e certo tipo de câncer, não faz muito sentido pensarmos em causalidade reversa. O que efetivamente fragiliza muito um estudo seccional, mas não é um impeditivo categórico, é o potencial viés de prevalência (ou viés de sobrevivência). Ou seja, ao estudarmos apenas os casos prevalentes de certa doença, e não os incidentes, mesmo que sejam todos os existentes, estamos diante de apenas uma “amostra” (não em um sentido estatístico) que pode não ser representativa de todos os casos.
Financiamento: O autor declara que seu trabalho nesta Discussão não foi financiado.

Author notes

Editor-Chefe: Eduardo Algranti

Contato: Ronir Raggio Luiz E-mail: ronir@iesc.ufrj.br

Conflict of interest declaration

Conflitos de interesses: O autor declara que não há conflitos de interesses.
HTML generated from XML JATS by