疫学手法をコテコテにやっている方は別として、因果媒介分析(以下:Causal Mediation Analysis)についてご存知ない方が多いと思います。
今回はCausal Mediation Analysisの一般的な概念、記載方法と定義、必要な前提について記載していきます。
(2024/12/21 08:31:42時点 Amazon調べ-詳細)
MediationとInteraction
Causal Mediation Analysisはmediation (媒介)とinteraction (相互作用) を同時に見ることができます。
まず、mediation (媒介)・interaction (相互作用)と言われてもピンとこないかもしれないので、DAGを使用しながら解説していきます。DAGはベクトルに近い考え方と思ってください。
また、通常のDAGではなく、augmented DAGを使用すれば、Causal Mediation Analysisの理解がより深まると思います
このようにMediationとInteractionは明確に区別ができます。
Causal Mediation AnalysisはXがYに与える影響(XからYへの矢印)を、2〜4つの経路に分けることで、それぞれの経路の効果を推定します。
異なる経路の効果を推定することで、メカニズムを理解したり証明する補助になったり、介入できる因子を探ることもできます。
例えばBerker Hypothesisを考えてみても、X(出生時の体重:Exposure)は様々な因子で介入できないことが多いですが、その後のM(運動・食事など:Mediator)を介入することで、Y(心疾患:Outcome)をある程度予防できるかもしれません。
このように、それぞれの経路を推測できるメリットがあります。
記載方法と定義:Notation & Definition
まずはCausal Mediation Analysesで用いる定義と記載方法を説明しましょう。
疫学における因果推論(Causal Inference)やPotential Outcome(潜在的アウトカム)をご存知の方であれば、理解可能な内容と思います。
X |
Treatment |
M |
Mediator |
C |
Confounder |
Y |
Outcome |
Xは治療で、X = xは治療あり、X = x*は治療なしです。
Mは媒介因子(Mediator)で、M = m はMediatorあり、M = m*はMediatorなしです。
Cは交絡因子(Confounder)の略語になります。通常のDAGで記載すると、以下を想定しています。
次に、Potential Outcomeのフレームワークを取り入れてみましょう。
Mx |
Potential mediator value when X is set x |
Mx* |
Potential mediator value when X is set x* |
Yx |
Potential outcome if X had been x: X is set to x |
Yx* |
Potential outcome if X had been x* |
Ym |
Potential outcome if M had been m |
Ym* |
Potential outcome if M had been m* |
MxはX = x の時のMediator(M)の値です。
Mx*はX = x*の時のMediator(M)の値です。
例えば、治療(X)をコレステロール(M)を下げる薬とすると、Mxはある人が治療を受けた場合のコレステロール値になります。Mx*は同じ人が治療を受けなかった場合のコレステロール値になります。
もちろん現実世界ではMxかMx*のいずれかしか知ることができませんが、同じ人でも理論上は2通りのMがあるのです。
(この問題を、Fundamental Problems of Causal Inferenceと言います)
Yxも一緒で、とある人が治療を受けた場合のアウトカム(Y)です。
例えば、心疾患をアウトカムとすれば、治療を受けた場合のアウトカムがYxです。
Yx*は、同じ人が治療を受けなかった場合のアウトカムです。
Ymはある人のコレステロール値(M)がmだった場合のアウトカムで、Ym*は同じ人のMがm*だった場合のアウトカムです。
これらをDAGで記載すると以下のようになります。
*Do formula (do(x)など)は、ランダム化をして治療にX = xが割り当てられたと考えると分かりやすいと思います。少し意味が異なりますが、E(Yx) = E(Y|do(x))と考えると、potential outcomeのフレームワークに慣れている人は理解しやすいでしょう。
このdo(x)のことを、業界人は「X is set to x」と言ったりしています(主にJ Pearlなどが使用している言語です)。
Nested Counterfactualについて
Causal Mediation Analysisを理解するには、Nested Counterfactual(YxMx)を理解する必要もあります。
Yxm |
Potential outcome |
Yxm* |
Potential outcome |
Nested counterfactualの前にこちらのPotential outcomeを理解してみましょう。
Yxmは、ランダム化で治療Xをすると割り当てられ、さらにランダム化で治療Mが割り当てられた場合のアウトカムになります。
Yxm*も同様に考え、最初にX = xが割り当てられ、その後にM = m*がランダムに割り当てられた場合のアウトカムです。
DAGにすると以下のいずれかのようになります。
最終的に、このNested Counterfactualやdo-formulaは数式に落とし込みますが、右側のAugmented DAGを理解した方が分かり易いかもしれません。
Nested Counterfactualは4パターンありますが、
- YxMx
- YxMx*
- Yx*Mx
- Yx*Mx*
の4つになります。例えば、YxMxはYxとなります(YxMx= Yx)。
同じように、Yx*Mx*= Yx*になります。
YxMx*はなかなか理解が難しいと思います。Mを介さない経路では治療X = xがランダムに割り当てられ、Mを介する経路ではX = x*がランダムに割り当てられた状態を言います。
Augmented DAGにしてしまえば、多少は理解しやすくなるでしょう。
Causal Mediation Analysisに必要な前提条件
たとえRCTであったも、解析を行う場合には前提条件が必要となります。もちろんCausal Mediation Analysisでも前提条件は必要です。
基本的な因果推論の前提(Causal Assumption)は以下の通りとなります:
- Exchangeability (a.k.a. No uncontrolled confounders)
- Consistency
- Positivity
- Well-defined intervention
- No selection bias
- No information bias (measurement error/ misclassification)
これはCausal Mediation Analysisに限った前提条件ではなく、他の解析でも必要となる一般的なCausal Assumptionです。
Exchangeabilityについて
Causal Mediation Analysisはここにさらに前提条件が上乗せされます。以下のDAGを見てみましょう
XとYだけの関係をみる場合「C1とC2のような交絡因子で対処できなかったものがない」と前提をおけば良いですが、Causal Mediation Analysisの場合は少し前提が増えます。
- XとYで対処できていない交絡因子はない(C1)
- XとMで対処できていない交絡因子はない(C2)
- MとYで対処できていない交絡因子はない(C3)
となります。
また、以下のように、Xからは影響され、さらにMとYの交絡となる因子がないという前提も必要になります。
このDAG上のようなLの因子がないという前提条件になります。
*後述する予定ですが、Controlled Direct Effect(CDE)を推定したい場合は、C1とC3がないという前提のみでも大丈夫です。
Consistencyについて
ConsistencyはPotential Outcomeのフレームワークから考えると分かり易いです。
ある人が治療を受けるとして、理論上はこの人のアウトカムは2つあります。この2つのアウトカムのことをPotential Outcome(潜在的アウトカム)をいい、
- Yx
- Yx*
この人が治療を受けたのなら、Potential Outcomeは実際に計測されたアウトカムになります。これがConsistencyです。つまり、X = xであれば、
- Yx= Y
- Yx* = ?
となります。このYx= Yをconsistencyと呼んでいます。
2つあるうちのPotential outcome(YxとYx*)のうち、X = xであればYxはわかりますが、Yx*はわからないままです。
なぜなら、私たちはこの人が治療を受けなかった場合(X = x*)のアウトカムを知る由もないからです。
同じくようにconsistencyを考えると、
- X = x*なら、Yx*= Y
YとMで考えると、
- M = mなら、Ym= Y
- M = m*なら、Ym*= Y
YをMとXのJoint effectで考えると、
- X = xかつM = mなら、Yxm= Y
- X = x*かつM = mなら、Yx*m= Y
- X = xかつM = m*なら、Yxm*= Y
- X = x*かつM = m*なら、Yx*m*=Y
MとXで考えると
- X = xなら、Mx= M
- X = x*なら、Mx*= M
Nested counterfactualで考えると
- X = xなら、YxMx= Yx= Y
- X = x*なら、Yx*Mx*= Yx*= Y
となります。
特に最後のnested counterfactualの場所(YxMx= Yx = Y)が重要です。
まとめ
今回はCausal Mediation Analysisの背景や表記方法の定義、必要な前提について解説してきました。
次回は、実際にどのように効果を分け(decomposition)、Causal Mediation Analysisを数式を使って扱っていくかを解説していこうと思います。
Causal Mediationをきちんと勉強したい方は、以下の書籍を読んでください。
(2024/12/21 23:35:47時点 Amazon調べ-詳細)