Causa ou associação hoje

Hill como considerações, triangulação e o debate atual

Hill são considerações, não critérios

As considerações de Hill são auxiliares, não critérios (1). Causalidade não é uma propriedade categórica adquirida pela soma de itens em uma checklist. Estudos que satisfazem mecanicamente cinco ou seis pontos de Hill não estabelecem causa por isso; estudos que falham em alguns dos nove podem, ainda assim, apresentar evidência causal robusta caso outras formas de evidência indiquem a mesma direção. O que sustenta inferência causal não é a contagem dos pontos, mas a robustez da associação a explicações alternativas explicitadas. A inferência causal é processo indireto e gradual, em que uma associação resiste a desafios sucessivos de explicações concorrentes — viés, confundimento, acaso, causalidade reversa, erro de medida — até que a explicação causal se cristaliza como a mais provável.

Os pontos de Hill na leitura contemporânea

A literatura metodológica recente reavaliou cada um dos nove pontos à luz de evidência empírica acumulada e do aparato de resultados potenciais.

Temporalidade, evidência experimental e consistência (replicação) permanecem como pontos com peso significativo. Temporalidade é condição lógica da relação causal, não um indicador. Evidência experimental ganha contraparte observacional precisa via target trial. Consistência atua via heterogeneidade entre populações com diferentes vieses; quando estimativas convergem apesar de vieses divergentes, a explicação causal ganha credibilidade — e quando divergem, a inconsistência informa onde os vieses operam.

Força de associação foi reinterpretada criticamente por Ioannidis (2): efeitos pequenos podem ser causais, e efeitos muito grandes em estudos observacionais frequentemente refletem mais viés do que causalidade, porque vieses produzem mais facilmente efeitos grandes do que efeitos pequenos. Gradiente biológico pode surgir por confundimento — usuários de doses maiores são também os mais aderentes, o que correlaciona com outros comportamentos protetores não medidos. Plausibilidade biológica permanece relevante, mas com a ressalva já feita por Hill: ela é contingente ao conhecimento mecanístico do período.

Especificidade raramente se aplica em doenças crônicas multifatoriais. Coerência e analogia têm utilidade prática limitada (2,3) — coerência é difícil de operacionalizar, e analogia justifica suspeita mas raramente sustenta inferência.

A leitura ponto a ponto deixa três sobreviventes robustos (temporalidade, experimentação, consistência), três cujo peso foi recalibrado para baixo (força, gradiente, plausibilidade) e três largamente abandonados na prática metodológica contemporânea (especificidade, coerência, analogia).

Triangulação

O recurso que substitui a soma mecânica dos pontos é a triangulação: combinar fontes de evidência com vieses de direções diferentes. Se um efeito é estimado por estudo de coorte, ensaio randomizado, randomização mendeliana e desenho com controle negativo, e as estimativas convergem, é improvável que cada método tenha viés exatamente compensatório. A convergência sob vieses heterogêneos é o que sustenta a inferência causal.

O argumento, articulado por Savitz, Pearce e Rothman (1), representa uma virada epistemológica: o que separa associação de causa não é a presença de propriedades estruturais (força, gradiente, coerência), mas a resistência da associação a múltiplas tentativas de explicação alternativa, vindas de fontes metodologicamente independentes. Inconsistência, sob essa leitura, é informativa: revela onde os vieses operam, e o passo seguinte é entender por que vieses específicos atuam em direções específicas em cada desenho.

GRADE: Hill na lógica da decisão clínica

Schünemann et al. (4) articulam como o sistema GRADE — adotado por mais de cem organizações para elaboração de diretrizes clínicas — incorpora considerações tipo Hill em uma estrutura de avaliação de qualidade da evidência e força de recomendação. GRADE parte de uma classificação inicial baseada no desenho (ensaios randomizados começam como qualidade alta; observacionais, baixa) e permite ajustes a partir de oito fatores: risco de viés, inconsistência, indireção, imprecisão e viés de publicação podem rebaixar; magnitude do efeito, gradiente dose-resposta e direção plausível do confundimento residual podem elevar.

Os três fatores que elevam a qualidade da evidência são reconhecíveis em Hill: força (magnitude do efeito), gradiente biológico (dose-resposta), plausibilidade direcional do viés. GRADE reabsorve, portanto, os pontos de Hill que perderam peso isolado, mas os reintegra como modificadores em arcabouço hierárquico mais amplo, conectado à decisão sobre conduta clínica.

A implicação é que Hill não foi descartado pela epidemiologia contemporânea: foi reformulado como conjunto de considerações secundárias dentro de uma estrutura — desenho > qualidade do estudo > magnitude e direção do efeito — que opera no plano da decisão clínica concreta.

Debate contemporâneo

O debate metodológico recente articula três posições sobre o futuro do arcabouço.

Revisão. Olsen e Jensen (5) argumentam que o conjunto original de Hill deve ser revisitado por uma comissão internacional, e propõem a adição de um critério de consequência: a avaliação causal deve incluir consideração explícita das consequências da intervenção (ou não-intervenção) baseada na inferência. Classificar uma associação como causal raramente é exercício acadêmico desinteressado; em saúde pública, a classificação orienta ação, e a moldura metodológica deve refletir essa estrutura. A proposta separa explicitamente o argumento causal do argumento sobre o que fazer, ainda que ambos coexistam na prática.

Modernização. Cox (6) propõe sete princípios alinhados a algoritmos de descoberta causal automatizada — informação mútua, dependência direcionada, consistência interna e externa, explicação causal coerente da plausibilidade biológica, confirmação por mediação causal, refutação de explicações não causais. A reformulação se afasta do vocabulário associativo de Hill em direção a um vocabulário de causalidade manipulativa — o que muda no desfecho quando a exposição é manipulada, não meramente observada — alinhado com a definição em termos de resultados potenciais.

Releitura. Lesko e Fox (7) propõem reinterpretação dos pontos de Hill que preserva o espírito original do texto de 1965, mas integrada à epistemologia moderna do arcabouço de resultados potenciais e dos grafos causais. Cada ponto se traduz em uma preocupação metodológica específica que o aparato contemporâneo formaliza: força conecta-se à magnitude do efeito identificável e à robustez a confundimento não medido (E-value); gradiente biológico, a hipóteses sobre forma funcional do efeito e a refutações por dose-resposta esperada.

As três posições não são mutuamente excludentes. A primeira adiciona um critério; a segunda substitui o vocabulário; a terceira reinterpreta o conjunto. Convergem na rejeição da leitura de Hill como checklist mecânica.

Aplicações de domínio

Em áreas específicas, Hill permanece operacional como vocabulário de discussão metodológica, ainda que com adaptações. Frank (8) aplica os pontos a estudos de exposição a radiofrequência e saúde — campo com medida de exposição imprecisa e período de latência ainda insuficiente —, mostrando como cada ponto funciona quando esses limites estão presentes. Shakir e Layton (9) formalizam a aplicação dos pontos à farmacovigilância, em que sinais de eventos adversos surgem de notificação espontânea com sub-relato e ruído. Gvozdenović et al. (10) mostram como combinar Hill, raciocínio em resultados potenciais e DAGs em três estudos observacionais no contexto de desenvolvimento de vacinas — uma aplicação concreta do que Lesko e Fox descrevem em termos abstratos.

A persistência dos pontos de Hill em domínios específicos não invalida a crítica metodológica. Confirma, ao contrário, que o vocabulário tem valor descritivo e comunicativo — funciona como linguagem comum entre epidemiologistas — mesmo onde a inferência causal propriamente dita é fundamentada em outros aparatos.

Três perguntas-âncora para a prática clínica

A síntese metodológica acumulada nos cinco capítulos pode ser destilada em três perguntas que orientam a leitura crítica de qualquer alegação observacional sobre tratamento e desfecho:

Qual target trial esta análise está tentando emular? Especificar o protocolo (elegibilidade, estratégias, zero do tempo, atribuição, seguimento, desfecho, análise) revela onde o desenho falha em emular um ensaio sensato — frequentemente, viés de seleção de prevalentes, viés de tempo imortal, ou comparação implausível entre grupos não comparáveis.
Qual a direção do viés mais plausível, e qual seria o E-value necessário para anular o efeito? A pergunta substitui o reconhecimento qualitativo de “pode haver confundimento residual” por uma quantificação específica. E-values que requerem confundimento implausivelmente forte aumentam a credibilidade do achado; E-values próximos de um indicam fragilidade.
Que outras fontes independentes de evidência existem, e elas triangulam? Coortes em populações com vieses diferentes, randomização mendeliana, desenhos com controle negativo, ensaios randomizados em populações análogas, evidência mecanística — convergência sob heterogeneidade de viés sustenta inferência causal.

As três perguntas codificam o aparato moderno em prática reproduzível. Não dispensam julgamento epidemiológico, e tampouco oferecem algoritmo. Disciplinam a discussão.

Considerações

A epidemiologia contemporânea ganhou precisão sem ter alcançado certeza. A inferência causal, como Hill já notava em 1965, permanece indireta e gradual: a interpretação causal de uma associação não decorre de uma checklist preenchida, mas da resistência dessa associação a sucessivas tentativas de explicá-la por outras vias — viés, confundimento, acaso, causalidade reversa, erro de medida. O que muda, da formulação de 1965 ao aparato atual, não é a natureza da tarefa, mas o rigor com que cada explicação concorrente pode ser especificada, quantificada e, quando possível, descartada.

Exercícios

1. Selecione um estudo observacional recente publicado em periódico de impacto (Lancet, NEJM, JAMA, BMJ) que faça afirmação causal sobre relação tratamento-desfecho. Aplique a leitura de Hill como considerações: identifique quais dos nove pontos os autores invocam (explícita ou implicitamente), avalie a evidência para cada ponto invocado, e julgue se a afirmação causal é sustentada — não pela soma dos pontos, mas pela capacidade do estudo de excluir explicações alternativas.

2. Para a relação entre níveis de vitamina D e mortalidade — em que estudos observacionais consistentes sustentam associação inversa, mas o ensaio VITAL não confirmou benefício de suplementação —, esboce uma análise de triangulação: liste pelo menos três fontes independentes de evidência (com seus próprios vieses) e discuta o que a (não-)convergência delas revela. Qual a explicação metodológica mais provável para a discrepância entre evidência observacional e experimental?

3. Olsen e Jensen (5) propõem adicionar um critério de consequência aos pontos de Hill. Discuta, em até dez linhas, um cenário clínico ou de saúde pública em que esse critério mudaria substantivamente a recomendação derivada de uma classificação causal — e um cenário em que ele não mudaria. O que isso revela sobre a separação entre julgamento causal e julgamento de ação?

Referências

Savitz DA, Pearce N, Rothman KJ. Hill’s Considerations Are Not Causal Criteria. Journal of Clinical Epidemiology. 2025;190:112087.

Ioannidis JPA. Exposure-Wide Epidemiology: Revisiting Bradford Hill. Statistics in Medicine. 2016;35(11):1749–62.

Shimonovich M, Pearce A, Thomson H, Keyes K, Katikireddi SV. Assessing Causality in Epidemiology: Revisiting Bradford Hill to Incorporate Developments in Causal Thinking. European Journal of Epidemiology. 2021;36(9):873–87.

Schünemann H, Hill S, Guyatt G, Akl EA, Ahmed F. The GRADE Approach and Bradford Hill’s Criteria for Causation. Journal of Epidemiology and Community Health. 2011;65(5):392–5.

Olsen J, Jensen UJ. Causal Criteria: Time Has Come for a Revision. European Journal of Epidemiology. 2019;34(6):537–41.

Cox LA. Modernizing the Bradford Hill Criteria for Assessing Causal Relationships in Observational Data. Critical Reviews in Toxicology. 2018;48(8):682–712.

Lesko CR, Fox MP. An Evolved Interpretation of Austin Bradford Hill’s Causal Viewpoints and Their Influence on Epidemiologic Methods. American Journal of Epidemiology. 2025;194(6):1476–81.

Frank JW. Epidemiological Criteria for Causation Applied to Human Health Harms From RF-EMF Exposure: Bradford Hill Revisited. Frontiers in Public Health. 2025;13:1559868.

Shakir SAW, Layton D. Causal Association in Pharmacovigilance and Pharmacoepidemiology: Thoughts on the Application of the Austin Bradford-Hill Criteria. Drug Safety. 2002;25(6):467–71.

10.

Gvozdenović E, Malvisi L, Cinconze E, Vansteelandt S, Nakanwagi P, Aris E, et al. Causal Inference Concepts Applied to Three Observational Studies in the Context of Vaccine Development: From Theory to Practice. BMC Medical Research Methodology. 2021;21(1):35.