Genome-wide association study (GWAS)ですが、National Institute of Health (NIH)によると、
“a study of common genetic variation across the entire human genome designed to identify genetic associations with observable traits”
と定義されています。
ヒトゲノム全体をほぼカバーする1000万カ所以上の一塩基多型(SNP)のうち、50万~100万か所の遺伝子型を決定し、主にSNPの頻度と、病気や量的形質との関連を統計的に調べる方法のことをいいます。
今回はこのGWASに関して、遺伝疫学的な視点から解説していこうと思います。
GWASの特徴
一度に大量の統計学的な検定を行うため、参加者も多く必要となります。その理由として、
- SNPsと遺伝子型のORは低く出やすい(OR < 1.5が多い)
- 多重検定の補正による偽陰性を防ぐため
- Population stratification (人種などによる交絡)を確認するため
- 妥当性の評価も行うため
などが、あげられます。
GWASとGenome scanの相違点について
GWASとGenome scanの類似点としては、
- 大量の遺伝情報を比較検討する
- 網羅的に検証する
といった点があげられます。
一方で、GWASとGenome scanの異なる点としては、
- GWASはassociation (ORなど)をみる
- Genome scanはLinkageをみる
といった点が大きく異なります。
Linkageの意味がよくわからない方は、過去の記事を参照されてください。
GWASの研究デザインについて
GWASも他の遺伝疫学の研究デザインと一緒で、
- Case-control study
- Cohort study
- Case-parent trio study
などを使用して検討します。
Case-control studyについて
例えば、Case-control studyのメリットとして、
- 短期間で研究が行える
- 特にcontrolの数を増やして、検定力を上げられる
- 稀にな疾患でも検定ができる
などが上げられます。
一方で、case-control studyのデメリットとして、
- Control のsamplingが非常に重要となる
(Caseになる可能性のある集団から、ランダムに抽出する) - Biasが生じることがある:交絡や選択バイアスなど
などがあげられます。
Case control studyであれば、logistic regressionなどを使用して交絡因子を対処しつつ、ORを95%信頼区間を報告することになります。
GWASの結果を解釈する
報告の仕方は、通常の疫学研究とは異なる点があるので、これから解説していきます。
- Manhattan Plot
- QQ plot
の2つを解説していきましょう。
Manhattan Plotについて
Manhattan plotの特徴ですが、
- X軸に染色体
- Y軸に対数化したP値
をプロットします。
例えば、P = 0.01の場合、-log10(P) = 2となります。
同様に、P = 0.001の場合、-log10(P) = 3となります。
QQ plotについて
QQ plotは、Quantile-quantile plotの略です。XとY軸には、それぞれ
- 帰無仮説から期待される-log10(P)
- GWASのSNPsで実際に計測された-log10(P)
をplotします。
もし、関連性を認めない場合、45°のPlotになります。
もし、population stratificationなどバイアス混じりの結果である場合は、45°を超えた斜めのプロットになります。
真の関連性がある場合、ほとんどの結果は45°の線上におさまりますが、一部はそこを外れて上方にプロットされます。
Winner’s Curseについて
Winner’s Curseは日本語では「勝者の呪い」を意味します。
オークションなどで使われる用語です。
「勝者」である落札者は、商品の共通価値を本当はよく知らないにも関わらず、共通価値を上回る推定額を出したために落札することができてしまうからです。
ですが、その落札価格は転売市場価格を上回っているため、転売することで損失を被ってしまうことが多々あります。このことを「勝者の呪い」と言われています。
GWASにおけるWinner’s curse
GWASにおいてこの現象が語られることがあります。特に、
- 新規に同定された遺伝的な関連性は過剰評価されやすい
ことを指して言われることがあります。
GWASでは大量の遺伝情報を使用して検討します。このため、biasやrandom errorなどで検出されてしまうことがあります。
単なる統計学的な相関を、後付けで意味あるものに過大評価されてしまうことがあります。
この現象を予防するためには、1つの研究結果のみで過大評価をしない、複数の研究を参考にする、メタ解析などを取り入れる、など様々な方法が検討されています。
おわりに
今回はGWASとGWASの解釈方法について解説してきました。
聞きなれない用語も多数あったかもしれませんが、疫学の基本の延長で理解することも可能と思います。