前回はアンブロキソール(ムコソルバン®︎)が肺炎で入院した小児において、痰や咳の症状に有効である可能性を示唆した論文を紹介しました。
今回は基礎疾患(嚢胞性線維症)のあるお子さんで、この薬が有効かどうかを検討した研究を紹介します。
嚢胞性線維症(Cystic Fibrosis)と聞いても、ピンとこない方が多いです。
肺を含む全身の粘膜の塩化物イオンの輸送能力が遺伝的に弱く、肺などで粘り気の強い分泌物で詰まりやすく、肺炎や気管支炎を繰り返します。
日本では40人ほどしかいない稀な疾患で、出生60万人に1人と推定されています。
しかし、欧州では3000人に1人が発症すると考えられています。(参考)
研究の方法
今回は、ドイツのフランクフルトで行われたランダム化比較研究(RCT)です。
年齢、重症度で層別化をしたblocked RCTになります。
- 6〜21歳の嚢胞性線維症の患者
- レントゲンで基準を満たす:
「Shwachman and Kulczycki score > 15」
「Chrispin-Norman score < 15」 - 気管支拡張薬を使用していない
患者36人が対象になっています。
- アンブロキソール
- N-アセチルシステイン
- プラセボ
の3つの群に分けて有効性を検討しています。
アウトカムの評価
アウトカムについては、
- 臨床スコア
- 肺機能(気道抵抗、機能的残機量、一秒率など)
臨床スコアは以下のテーブルを使用していたようです。
(論文より拝借)
咳、痰の量や色、活動性、食欲、体温、呼吸音、肺の状態を総合的に評価した指標になります。
研究結果と考察
まず、3つのグループ(アンブロキソール・N-アセチルシステイン・プラセボ)において、臨床スコアは統計学的な有意差はありませんでした。
残念なことに、これらを評価した数値は論文に提示されていませんでした。
Trapped Airについて
著者らはTrapped Airを、
- TGV (Thoracic gas volume)とFRC(機能的残機量)の差で計算
- Trapped Air > 0.1 x TGV
と定義しています。この指標で3つの治療グループを評価すると、以下の図のようになります。(論文より拝借)
確かにプラセボ群にImpairedの割合が多そうで、著者らの報告の報告によると、統計学的な有意差もあります。
少し違和感があったのは、Nが少ないのにχ二乗検定を使用している点です。
手元の統計ソフトを使用すると、χ二乗検定でもP値が0.07となり、有意差が出ませんでした。
正確検定をすると以下のようになります。
やはりP = 0.105で統計学的な有意差はありません。
1秒率(FEV1)について
1秒率を計測し、10%以上の変化を持って「改善あり、変化なし、悪化」の3つのグループに分けています。
著者らの記載によると、P < 0.05以下で統計学的な有意差ありとし、投薬の有効性を示唆しています。
同じく、サンプル数の少ない状況で、χ二乗検定をするのは不適切でしょう。
私の統計ソフトでχ二乗検定と正確検定で計算し直してみます。
やはり著者らの検定と一致しません。
正確検定をすると、さらにP値は大きくなります。
ひょっとしたらプラセボ群 vs 薬あり?
χ二乗検定ですらP値が合わないので、ひょっとしたら「プラセボ vs. 薬あり(アンブロキソール or N-アセチルシステイン)での比較?」と思い、再度計算し直して見ました。
まず最初のTrapped airですが、χ二乗検定をすると
著者らの結果に近づきました(が、P < 0.01ではない…)
正確検定でも同じような結果です。
FEV1はどうでしょうか。χ二乗検定をすると
と著者らの結果に近づきましたが、それでも統計学的な有意差はありません。
正確検定をしても同様です。
1980年代の論文なので仕方ない面もありますが、統計解析の手法が正しくなかったり、計算方法が不明瞭であったり、結果が合わなかったりと、色々と問題点がありそうでした。
私も英語論文を多数査読しているのですが、1つでも統計手法に不明瞭な点や不可解な点があると、疑いの種を査読者に蒔くことになります。
すると、最悪、全ての解析に疑いの目を向けられてしまうケースもあります。
まとめ
著者らは今回の研究でアンブロキソールまたはN-アセチルシステインの有効性を示唆していましたが、統計学的な手法に難があり信頼性の低い結果と私は思いました。
嚢胞性線維症は日本国内では稀な疾患ですので、この結果をもとに、慢性疾患のあるお子さんへの薬の適応を議論するのは難しいでしょう。
1つは一般化可能性の問題、1つは統計学的な手法の妥当性の問題です。
P値だけを見て判断をしてしまうと「有効性あり」とミスリードしてしまうことがあります。
どんな研究デザインで、どんな解析を使用し、本当に正しい結果なのかを総合的に判断する必要があるでしょう。