年に30-50本ほどの医学英語論文を査読しており、様々な研究者の論文を査読しています。また、私自身も論文を年に5〜10本ほど投稿しており、毎回、査読者と統計学や疫学の考え方の意見を交換することがあります。
こうしたやり取りの中、最も違和感を感じているのが「統計学的な有意差」と臨床的な意義について混同したまま、論文を記載している方があまりにも多い点です。
前回、P値と95%信頼区間について解説してきました。この両者に関しては、こちらの記事を参照されてください。
今回は、P < 0.05なら統計学的に有意で、P > 0.05なら有意でないと二分化(dichotomize)することによる弊害を解説していこうと思います。
統計学的な有意差はあるが、臨床的には意義があるかもしれない例
例えば、新薬Aがある疾患の治癒に有益かを調査して
- RR 1.61 (95%CI, 0.99-2.59)
という結果が出たとします。
ひどい場合ですと、「95%信頼区間はRR = 1をまたいでおり、統計学的な有意差は認められなかった。よって、治療はアウトカムに影響しない」と書かれていることもあります。
この記載をみて違和感を感じる方は、少しP値や信頼区間について理解ができているのかもしれません。
仮にバイアスがなく、使用した統計モデルが正しかったという前提で、「」内の文章の問題点を個別に指摘すると、
- 点推定(RR = 1.61)を無視している
- 95%信頼区間が広く、推定が不正確な点が問題
(つまり、効かないかもしれないし、RR 2倍以上まで効くかもしれないという不確実性がある) - 統計学的な有意差は認めなかったのは事実であるが、帰無仮説を棄却できなくても、治療がアウトカムに影響しないとは言い切れない
などが挙げられます。
統計学的な有意差はあるが、臨床的には無効かもしれない例
別の例も考えてみましょう。
別の新薬Bがある疾患の治癒に有益かを調査して
- RR 1.002 (95%CI, 1.001-1.003)
結果が出たとします。P値が0.05以下であることを重視しすぎてしまうと、「95%信頼区間はRR = 1をまたいでおらず、統計学的な有意差がある。よって、この新薬はアウトカムを改善させる」と極端な結論に至ってしまいます。
P値や95%信頼区間をみて「統計学的な有意差」があるかないかをみるだけでなく、このリスク比が、つまり0.2%程度の相対的なアウトカムの改善が、臨床的に意味のあるものなのかも考える必要があります。
先行文献などを調査して、0.2%前後のアウトカム改善に臨床的な意味を感じられないのでしたら、「統計学的な有意差」はあっても、「臨床的な意義」はありません。ここを混同しないことも重要です。
ダイコトマニアについて
- 統計学的な有意差があれば重要、なければ重要でない
- 統計学的な有意差がないから、治療/暴露とアウトカムに関連はない
- 統計学的な有意差がないから、治療効果はない
- 統計学的な有意差があるから、治療効果はある
実はP値を解釈する際に起こしやすい認知エラーは上のような例があります。
これは「統計学的な有意差あり/なし」「治療効果あり/なし」「関連性がある/ない」など、物事を二分化して、さらにそれをつなぎ合わせることで理解しようとするために起きる現象です。このことを揶揄して「ダイコトマニア(Dichotomania)」3と呼んでいる疫学者もいます。
特に自分の専門分野でなかったり、知識が浅いと単純化をして理解を進めようとしますが、そこに落とし穴があるわけです。P値も例外ではありません。
「実際にこんな現象がおきているのか?」と疑問に思われる方がいるかもしれませんが、P値によるダイコトマニアは至るところで生じていますので、実例をみていきましょう。
例:SSRIと自閉症スペクトラム症について
原著論文はこちらになります4。
Brown HK, et al. Association Between Serotonergic Antidepressant Use During Pregnancy and Autism Spectrum Disorder in Children. JAMA. 2017;317:1544-52.
この論文では、母親のSSRIの内服が子供の自閉症スペクトラム症に与える影響をみています。
まず以下の結果をみてみましょう。
Inverse probability of treatment weighting (IPTW: 逆確率重み付け)を使用して解析した場合、母親がSSRIを内服していた場合、子供が自閉症スペクトラム症を発症するハザードは1.61倍高かった(95%CI, 0.997〜2.59)が、有意な関連はなかった。
小児が胎児期にSSRIに暴露していることと自閉症スペクトラム症には関連がなかった。
原著論文の抄録を抜粋すると、以下の通りです。
After inverse probability of treatment weighting based on the high-dimensional propensity score, the association was not significant (HR, 1.61 [95% CI, 0.997-2.59])…. in utero serotonergic antidepressant exposure compared with no exposure was not associated with autism spectrum disorder in the child.
この文章を読んで違和感を感じなかった方は、P値や95%信頼区間の解釈について再考してみてもよいと思います。
- HR, 1.61 [95% CI, 0.997-2.59]
この結果をみて、「SSRIと自閉症スペクトラム症に関連なし」と結論づけてしまう背景として、
- 95%信頼区間はHR =1をまたいでおり
- 統計学的有意差がないため
- 治療とアウトカムに関連はない
という3段階で結論に至ってしまっている点があげられます。
さらに「統計学的な有意差がない(P > 0.05)から、SSRI自閉症スペクトラム症に関連はない」と言い切ってしまっている点です。
完全にダイコトマニアな結論です。
同じ論文内で著者らはIPTWでなく、別の統計手法(Cox proportional hazard model)を使用しており、以下のような結果となっています。
- HR 1.59 (1.17〜17)
HRは1.60付近でほぼ同じ結果なのに、なぜか論文の結論には反映されていません。
- IPTW: HR, 1.61 [95% CI, 0.997-2.59]
- Cox proportional hazard model (CPHM): HR, 1.59 [1.17〜17]
この2つの結果をグラフにすると以下のようになります。
さらにこの論文の著者らは別の論文でメタ解析5を行いSSRIと自閉症スペクトラム症に関して、以下のような結果が出ています。
- OR 1.7(1.1〜6) Case-control study
- OR 1.4 (1.0〜9) Cohort
これらの結果を並べると、以下の通りになります。
すべての研究において点推定(Point estimate)をみても、母親のSSRIの内服は子供の自閉症スペクトラム症のリスクを上昇させているようにみえます。1つの研究の1つの解析結果(IPTW)で「統計学的な有意差がなかった(=95%CIが1を跨いでいた)」ことを受けて、「関連性なし」と結論づけてしまうことが誤解を招きうる点には注意が必要です。
おわりに
近年、こうした統計学的な有意差やP値の解釈を問題視する疫学者は増えています3。誤解してほしくないのですが、P値自体がダメなのではなく、P値そのもの解釈がほとんどの科学者や臨床医が正しく行えていない点です。
参考文献
- Greenland S. Valid P-Values Behave Exactly as They Should: Some Misleading Criticisms of P-Values and Their Resolution With S-Values. Am Stat. 2019;73(sup1):106-114. doi:10.1080/00031305.2018.1529625
- Brown HK, Ray JG, Wilton AS, Lunsky Y, Gomes T, Vigod SN. Association between serotonergic antidepressant use during pregnancy and autism spectrum disorder in children. JAMA – J Am Med Assoc. 2017;317(15):1544-1552. doi:10.1001/jama.2017.3415
- Brown HK, Hussain-Shamsy N, Lunsky Y, Dennis CLE, Vigod SN. The association between antenatal exposure to selective serotonin reuptake inhibitors and autism: A systematic review and meta-analysis. J Clin Psychiatry. 2017;78(1):e48-e58. doi:10.4088/JCP.15r10194
- Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019;567(7748):305-307. doi:10.1038/d41586-019-00857-9