因果推論の話で「Hillの基準」が説明されることがありますが
- Hillの基準をそもそも知らない
- Hillの基準は聞いたことがあるが詳細は知らない
- Hillの基準に対する批判があることを知らない
といった方が多いのではと思います。
特に観察研究での因果推論は単純ではなく、こういったHillの基準を用いて因果推論をしようと試みる方もいます。
ですが、この基準を無批判に受け入れるのは非常に危ういと考えています。
時に、統計・疫学セミナーや書籍で、Hillの基準がほぼ無批判で説明されていたり、ひどい場合にはゴールド・スタンダードのように説明されているケースもあります。
今回は、Hillの基準についての説明と、それに対する批判について解説していきます。
本記事の内容
- Austin Bradford HillとHillの基準について
- Hillの基準に対する批判を知ろう
実のところ、Hill自身はこの基準によって因果推論できるとは考えていなかったようですし、絶対的な基準やルールとして提唱した意図はありません。
その点を踏まえたうえで、RothmanやGreenlandが執筆する疫学書のバイブル「Modern Epidemiology」においても、Hillへの敬意を込めながら、基準に対する批判が明確に記載されています(P.25-)。
しかし、彼の提唱した(絶対的でなく、あくまでの)基準を、間違って解釈した方々や過大評価している方が、まるで因果推論のゴールドスタンダードのように取り扱っているのが現状です。
(Hill自身からして見たら、迷惑もいいところです。)
Austin Bradford HillとHillの基準
Hilの本名はAustin Bradford Hill(1897-1991)のことで、1960年代のイギリスで、喫煙と肺がんの因果関係の議論で提唱された9つの基準で有名です。この9つの基準を「Hillの基準」といいます。
1950年代から喫煙と肺がんの関連性について報告が始まりました。
例のごとく、喫煙と肺がんは「因果関係なのか?(偽りの)相関関係なのか?」と議論の対象となっていたのです。
医師たちも喫煙者に肺がん患者が多いことを経験的にわかっていたのですが、「どのような条件であれば因果関係といえるのか?」という基準はありませんでした。
そこでHillが基準を提案したのです。
Hillの基準は以下の通りです
Hillの9つの基準は以下の通りになります:
- 関連の強固性(Strength of Association)
- 関連の一貫性(Consistency Upon Repetition)
- 関連の特異性(Specificity)
- 時間性(Temporarity)
- 生物学的量反応勾配(Biologic Gradient)
- 生物学的蓋然性(Biologic Plausibility)
- 整合性(Coherence of explanation)
- 実験的証拠(Experimental Evidence)
- 類似性(Analogy)
やや堅苦しい言葉が並んでいますが、ここから簡単に説明していきます。
1. 関連の強固性(Strength of Association)
喫煙と肺がんを例にいうと、「喫煙者と非喫煙者を比較して、どのくらい肺がんの発症率が異なるか?」が関連の強固性にあたります。
実際の論文では、Risk Ratio, Rate Ratio, あるいは Odds Ratioなどがこれに該当するといえます。
関連の強固性(Strength of Association)に対する批判
関連の強固性ですが、例えばOdds Ratio(OR)が高いからといって、本当に強固な関連性かは研究によりけりと思います。
交絡によるバイアス、選択バイアス、誤分類によってもORは真の値から遠ざかります。
つまり、いくらORが高くても、元データが悪い、解析方法が悪い、研究デザインが悪いという可能性もありえるのです。
2. 関連の一貫性(Consistency Upon Repetition)
タバコと肺がんの例でいうと、この両者の関連性が、別の集団、別の場所でも起こっているか否かを基準にしています。
つまり、イギリスのとある地域で認めた喫煙と肺がんの関連性が、別の地域でも同じ報告が出るか否かを判断基準にしているのです。
関連の一貫性に対する批判
こちらに対す反論もあります。
仮に異なる集団、異なる場所で関連が一致したとえいても、両者の研究がバイアスの対処が不十分の可能性もあります。
逆に、例えば異なる年齢層での関連が一致しなくても、因果関係がないことの証明にもなりません。
なぜなら第3の因子が効果を修飾している(Effect Measure Modification)可能性があるからです。
例えば40代と70代では、薬の治療効果が異なることは十分にありえます。
3. 関連の特異性(Specificity)
- 「1つの要因が1つの結果をもたらす」
という「1つの原因があって、1つの結果がある」と1対1対応であることを特異性といいます。
例えば、遺伝性疾患(例:ダウン症やターナー症候群など)のように、遺伝子(染色体)の異常が単一の疾患を起こしていることをいいます。
関連の特異性(Specificity)に対する批判
普通に考えても、
- 複数の要因が1つの疾患を起こす(例:心筋梗塞、脳卒中など)
- 1つの要因が多数の疾患を起こす(例:肥満とメタボリック症候群)
など、1対1対応でないことは多数あります。
4. 時間性(Temporarity)
- 原因が結果に先行しているか否か
という前後関係のことを時間制といいます。
時間性(Temporality)に対する批判
時間制が因果関係の証明に必要なのは、あまり異論はありません。
しかし、原因と結果の間の時間が非常に長く(潜伏時間が長い)、証明が困難なことがあります。
5. 生物学的量反応勾配(Biologic Gradient)
用量-反応の関連性のことをいいます。
平たく説明すると、
- タバコを沢山吸えば、より肺がんが発症しやすくなる
- 薬の量を増やせば、治療効果が上がる
などをいいます。
生物学的量反応勾配に対する批判
- U字型やJ字型の関連性のことがある
- 単に交絡による影響をみているだけ
- 量反応勾配を認めない(つまり、原因も結果も1か0か:遺伝性疾患)
など、例外も多数あります。
6. 生物学的蓋然性(Biologic Plausibility)
要因と結果の関連性について、生物学的に説得力のある説明ができるかどうかといいます。
疾患でいうと、病態生理で説明が可能かどうかになります。
生物学的蓋然性に対する批判
想定した病態生理モデル、生物学的な説明が間違っている可能性の検証ができません。
7. 整合性(Coherence of explanation)
現時点で、既知の関連性と矛盾しないか否かをいいます。
整合性に対する批判
全く新しい仮説ですと、既知の関連性と矛盾するか否か、検討の余地がありません。
8. 実験的証拠
要因と結果の関連について、実験的に得られた知見があるか否かのことです。
実験的証拠に対する批判
過去の実験的な知見に関して、少なくとも観察研究、できればRCTが望ましいです。
ですが、RCTは倫理的な問題で必ずしも実行できないケースが多々あります。
整合性と同じく、前例のない新規の研究の場合、確認する余地がなくなります。
9. 類似性(Analogy)
類似性とは、とある要因と結果の関連性が、別の要因と結果の関連性と類似しているか否かをいいます。
例えば、原因と結果として
- 21 trisomyとダウン症候群
- 18 trisomyとエドワーズ症候群
など、”trisomy”と遺伝性疾患という類似性があるか否かのことをいいます。
類似性に対する批判
まず整合性や一貫性との境界が曖昧なことがあります。
また、全く新規の疾患モデルの場合、類似性を確認する術がありません。
まとめ
今回はHillの基準と、基準に対する批判について説明してきました。
物事には表裏があるのと一緒で、とある基準を設けると、必ずそれに対する弊害はあります。
無批判で受け入れたり、盲目的に過大評価をするのは、避ける必要があります。
また、疫学や統計セミナーなどで、こういった基準を、無批判でゴールド・スタンダードのように解説しているようでしたら、その方の疫学のリテラシーを疑ったほうが良いと思います。
続きはこちら↓↓
◯ 推薦図書
- 作者: Kenneth J. Rothman,Timothy L. Lash Associate Professor,Sander Greenland
- 出版社/メーカー: LWW
- 発売日: 2012/12/28
- メディア: ハードカバー
- この商品を含むブログを見る