前回はProbabilityを使う際の論理や公理について解説してきました。
Probabilityの論理を知ることは、疫学研究をする上で必須ですし、使用する統計や疫学の手法が洗練されるほど、この基本が重要になってきます。
今回は、前回説明したProbabilityから、さらに基本的な疫学用語(prevalence, risk, rate, odds)の意味づけをし、実際に数式としてどのように表現するかを交えて説明していきます。
定義について
まずは数式の定義を記載していきます。
Y | アウトカム (Outcome) |
X | 治療 (Treatment) or 暴露 (Exposure) |
Z | 共変数 (Covariate) |
P(X=1) | X=1になる確率(e.g., 治療を受ける確率) |
E(Y) | アウトカムの平均 |
I(Y) | アウトカムの発症率:Incidence Rate |
O(Y) | アウトカムのオッズ |
Measure of Outcome/ Ocurrenceについて
Measure of ocurrenceやMeasure of outcomeは
- Prevalence
- Incidence Rate (Rate)
- Cumulative Incidence (Risk)
- Odds
- Mean
などが代表的です。それぞれの用語について簡単に説明していきましょう。
Prevalence
Prevalenceは日本語で有病率といます。
有病率とは、最初に罹患した時期とは無関係に、ある時点(検査時)において集団の中で疾病に罹患している人の割合をいい、横断研究などでよく使用されます。
いわば確率ですので、アウトカムをY = yとすると、
- P(Y = y)
と表現できます。
Incidence Rate
Incidence Rateは罹患率などと言われ、疫学者の中では「Rate」と略しています。Incidence Rateは、とある集団を一定期間追跡して発見された症例の割合を出します。
このため、分子と分母は以下のようになります:
- 分子:新規症例の数
- 分母:追跡された期間(person-timeを使用)
分母は人年法(person-time)を使用するため、例えば100人を平均1年間追跡すれば100 person-yearsと記載します。
例えば、100人を1年追跡して10症例(Y = 1) 認めたとなると、
- Incidence Rate
= I(Y=1)
= 10 cases/ 100 person-years
となります。
Cumulative Incidence
Cumulative Incidenceは、日本語で累積罹患率などといわれています。
疫学者はriskなどと略して記載することもあります。
Incidence Rateとの違いは、対象集団を追跡した期間が固定されている点です。
Incidence Rateの場合は、person-timeを利用しているため、追跡期間が異なることをある程度許容していますが、cumularitve incidenceの場合は対象者の追跡期間は等しくなければなりません。
このため、(ドロップアウトが少ない)比較的短期的なアウトカムに使用されたり、確実にコホートを追跡できる状況でのアウトカムに使用されることがあります。
例えば、100人の母集団で全員1年追跡し、10人がアウトカムを発症した場合、
- Cumulative Incidence = 10/100 over 1-year period
となります。
Cumulative Incidenceを記載する際には、”over the 1-year period”のように、期間を指定する必要があります。
Odds
Oddsはその名の通り、オッズでして
- Odds
= O(Y=1)
= P(Y=1)/P(Y=0)
となります。つまり、oddsは発症する確率を発症しない確率で割ったものです。
Mean
Meanはその名の通り平均です。これを数式で表すと、
- Mean
= E(Y=y)
= Σyy×P(Y=y)
となります。Yが Y = 1 とY = 0のようにbinaryの場合だけ、以下の等式が成り立ちます。
- E(Y=1)
= Σyy×P(Y=y)
= P(Y=1)
確率の表記について慣れていない方は、以下の記事を読んでみてください。
Measure of Association
Measure of ocurrenceはprevalence, risk, rate, oddsなどですが、”association”となると比較をすることになります。具体的には、
- Prevalence ratio
- Risk ratio/ Risk difference
- Rate ratio/ Rate difference
- Odds ratio
あたりが該当します。
世の中に出ている論文は、ほとんどが差 (difference)や比 (ratio)を使用していますね。
考えてみれば当たり前のことですが、比較をしないと治療効果や危険因子の特定ができないからです。
このため, measure of associationを有効性の指標として使用しているのです。
Measure of associationを数式で理解する
Measure of associationを数式で理解するには、conditional probability (条件付き確率)の理解が必須です。
よくわからない方は、以下の記事を読んでください。
例えば、治療した人をX = x, 治療しなかった人を X = x*としましょう。
とある集団でアウトカムを発症 (Y=1)をする確率は、
- 治療した人:P(Y=1|X=x)
- 治療しない人: P(Y=1|X=x*)
となります。このため、risk ratio やrisk differenceは以下のようになります。
- Risk ratio = P(Y=1|X=x)/P(Y=1|X=x*)
- Risk difference = P(Y=1|X=x) – P(Y=1|X=x*)
となります。治療がアウトカムに影響しない場合、risk ratio (RR) は1に、 risk difference (RD)は 0になるため、
- RR = P(Y=1|X=x)/P(Y=1|X=x*) = 1
- RD = P(Y=1|X=x) – P(Y=1|X=x*) = 0
となります。つまり、
- P(Y=1|X=x) = P(Y=1|X=x*)
となるのです。
逆に、治療効果がある場合、RRは1にならないですし、RDも0にはなりません。このため、
- RR = P(Y=1|X=x)/P(Y=1|X=x*) ≠ 1
- RD = P(Y=1|X=x) – P(Y=1|X=x*) ≠ 0
となります。つまり、
- P(Y=1|X=x) ≠ P(Y=1|X=x*)
となります。
Marginal と Conditionalについて
次にMarginalとConditionalについて理解しましょう。
Marginalは母集団全体を意味します。このため、RD, RR, RRを記載すると
- RDYX = P(Y=1|X=x) – P(Y=1|X=x*)
- RRYX = P(Y=1|X=x) / P(Y=1|X=x*)
- ORYX = O(Y=1|X=x) / O(Y=1|X=x*)
となります。MarginalとCrudeはほぼ意味が同じで、Marginal risk differenceはCrude risk differenceと呼ばれることもあります。
あくまで私の基準ですが、MarginalはInverse probability weightingなどを使用した場合に使っています。Crudeは粗解析 (unadjusted analyses)などで、バイアス混じりのまま報告する場合に使用しています。
次にConditionalについて。Conditionalは「条件付き」という意味でした。これをもう少し噛み砕くと、とある特定の集団に絞り込む(Z = z)という意味です。例えば男性のみのサブグループ解析などが該当します。
Conditional RD, RR, ORを数式で記載すると以下のようになります:
- RDYX|Z = P(Y=1|X=x, Z=z) – P(Y=1|X=x*, Z=z)
- RRYX|Z = P(Y=1|X=x, Z=z) / P(Y=1|X=x*, Z=z)
- ORYX|Z = O(Y=1|X=x, Z=z) / O(Y=1|X=x*, Z=z)
つまり、条件付き確率で「Z=z」という条件が増えただけと言えるでしょう。
回帰分析も一種のconditional probabilityともいえます。
例えばLinear risk modelを想定した場合、
- P(Y=1|X, Z)= β0 + βxX + βzZ
となります。回帰分析ではこのβたちを推定することになります。
Standardization(g-computation, g-formula)
次にstandardizationについて解説していきましょう。
例えば、SMR (standardized mortality ratio) やsRR (standardized risk ratio)はstandardizationとして有名ですが、本質的にはg-computationと一緒です。
まずはCrude Risk Difference (RD)を例に考えていきましょう。
Crude Risk Differenceは、
- RDYX = P(Y=1|X=x) – P(Y=1|X=x*)
と記載できました。ですが、crude RDは第3の因子(Z)を無視した解析になります。
この状態に Law of Probabilityを使用してZを代入すると、以下のようになります。
- RDYX
- = P(Y=1|X=x) – P(Y=1|X=x*)
- = ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x) –ΣzP(Y=1|X=x*, Z=z)P(Z=z|X=x*)
この赤で記した箇所を操作(manipukate)して解析を行うのがstandardizationであり、g-computationです。
母集団全体にstandardizaする場合
まずは、母集団全体(total population)にstandardizeする場合を考えてみましょう。この場合、以下の数式となります
- ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x, X=x*)
- = ΣzP(Y=1|X=x, Z=z)P(Z=z)
よって、standardized risk difference to the total populationは、
- ΣzP(Y=1|X=x, Z=z)P(Z=z) - ΣzP(Y=1|X=x*, Z=z)P(Z=z)
となります。
治療した集団(X=x)にstandardizeする場合
治療した集団(X=x)にstandardizeする場合を考えてみましょう。
治療を受けた集団(X=x)のアウトカムは、
- ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x)
そもそもP(Z=z|X=x)と”X=x”に指定されているのでこのままでOKです。
逆に治療を受けなかった集団(X=x*)のアウトカムは
- ΣzP(Y=1|X=x*, Z=z)P(Z=z|X=x)
となります。よって、standardized risk difference to the exposedは、
- ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x) – ΣzP(Y=1|X=x*, Z=z)P(Z=z|X=x)
- = P(Y=1|X=x)– ΣzP(Y=1|X=x*, Z=z)P(Z=z|X=x)
- = Observed – Expected
となります。
Observedは、治療を受けた集団で実際に計測されたアウトカムです。
Expectedは、治療を受けた集団が、もし治療を受けなかったら計測されるであろうアウトカムです。
治療しなかった集団(X=x*)にstandardizeする場合
次は逆に治療を受けなかった集団(X=x*)にstandardizeする場合を考えてみましょう。
治療を受けた集団(X=x)のアウトカムは、
- ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x*)
となります。これは治療を受けなかった集団が、もし治療を受けた場合に計測されるであろうアウトカムです。
治療を受けなかった集団(X=x*)のアウトカムは
- ΣzP(Y=1|X=x*, Z=z)P(Z=z|X=x*)
- = P(Y=1|X=x*)
となります。
よって、standardized risk difference to the unexposedは、
- ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x*) – ΣzP(Y=1|X=x*, Z=z)P(Z=z|X=x*)
- = ΣzP(Y=1|X=x, Z=z)P(Z=z|X=x*) – P(Y=1|X=x*)
となります。
Regression functionとmodelについて
最後に疫学研究でよく使用する
- Linear risk model
- Log-linear risk model (= exponential risk model)
- Logistic risk model (=exponential odds model)
を簡単に説明しましょう。
これらは使用するmeausre of association (RDなど)によって使い分けており、分布やlink-functionで指定できます。一覧表としては、以下の通りになります。
RD | RR | OR | |
Risk Model | Linear | Log-linear | Logistic |
Distribution | Binomial | ||
Function | Identity | Log | Logit |
まとめ
今回は疫学研究の基本である
- Measure of ocurrence
- Measure of association
- Standardization
- Risk model
について一通りの説明をしてきました。次回はDAGを含めたCausal Modelingについて少し解説をしていこうと思います。