臨床試験において「統計的有意差」を検出することは、研究成果の解釈に直結する重要な要素です。p値が0.05未満であるか否かが、新薬の効果や治療方針の根拠を左右する場面も少なくありません。しかし、その「有意差の有無」は、データ解析の段階で決まるのではなく、実は研究計画の初期段階、すなわち「サンプルサイズ設計」によって半ば決まっているとも言えます。
本稿では、有意差を的確に検出するためのサンプルサイズの設計方法について、Rによる具体的な実装例を交えながら、実務に即した視点で解説します。
なぜサンプルサイズ設計が重要なのか?
臨床試験では、母集団の一部を抽出した標本に基づき、統計的推論を行います。したがって、サンプル数が少なすぎれば、臨床的に意味のある差が存在していても統計的に検出できないリスク(第II種の過誤)が高まります。逆にサンプル数が過剰であれば、わずかな違いが「有意」と判断されることで、実際には臨床的意義の乏しい治療効果が強調される危険性もあります。
また、過大な症例数は、研究コストや被験者の負担、倫理的配慮の面からも好ましくありません。だからこそ、科学的妥当性・実務的制約・倫理性のバランスをとる意味でも、サンプルサイズの設計は臨床研究における最初の戦略的意思決定の一つなのです。
サンプルサイズを決める4つの要素
サンプルサイズの計算には、以下の4つの要素が必要です。
-
効果量(Effect Size):比較したい差の大きさ。どの程度の差を「意味のある差」と見なすか。
-
有意水準(α):第I種の過誤(差がないのにあると誤判定する確率)として通常は0.05が用いられます。
-
検出力(Power):差がある場合に、それを検出できる確率(通常80%または90%)。
-
標準偏差などの変動性:測定値のばらつき。パイロットデータや過去文献から推定されます。
これらを前提に、最小限必要なサンプル数を導出します。
Rによるサンプルサイズ計算の実装例
ここでは、連続変数の比較における2群間t検定のケースを紹介します。たとえば、新薬とプラセボの血圧低下量に差があるかを検討したい場合、以下の条件を想定します。
-
効果量(Cohen’s d)= 0.5(中程度)
-
有意水準 α = 0.05(両側検定)
-
検出力 = 80%
Rの pwr
パッケージを用いたコードは以下の通りです。
install.packages(“pwr”) # 初回のみ
library(pwr)
# サンプルサイズの計算
result <- pwr.t.test(d = 0.5,
sig.level = 0.05,
power = 0.8,
type = “two.sample”,
alternative = “two.sided”)
print(result)
出力結果は以下のようになります。
Two-sample t test power calculation
n = 63.76561
d = 0.5
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
出力結果には、各群あたりに必要なサンプル数(例数)が表示されます。この場合、n ≒ 64であるため、試験全体では128名の被験者が必要となります。
効果量の設定はどうすべきか?
効果量の値をどう設定するかは、サンプルサイズ設計において最も繊細かつ重要な判断です。Cohenの基準(d = 0.2:小, 0.5:中, 0.8:大)に頼ることもありますが、真に望ましいのは、過去の臨床研究・パイロットデータ・メタアナリシス・MCID(Minimal Clinically Important Difference)などをもとに、「臨床的に意味のある最小の差」を具体的に定めることです。
同じ効果量でも、疾患や治療法によって、その解釈とインパクトは大きく異なるため、医師と統計担当が十分に対話し、現実的かつ妥当な仮定を置く必要があります。
2値アウトカムの場合の計算
治癒率、死亡率、成功率といった「成功・失敗」の2値変数を扱う試験では、power.prop.test()
関数が用いられます。たとえば、新薬の成功率70%、対照群の成功率50%と仮定した場合のコードは以下です。
install.packages(“pwr”) # 初回のみ
library(pwr)
# サンプルサイズの計算
result <- power.prop.test(p1 = 0.7,
p2 = 0.5,
power = 0.8,
sig.level = 0.05)
print(result)
出力結果は以下のようになります。
Two-sample comparison of proportions power calculation
n = 92.99884
p1 = 0.7
p2 = 0.5
sig.level = 0.05
power = 0.8
alternative = two.sided
この出力結果から、各群に必要なサンプル数93例、両群では186例が得られます。なお、実際の試験では脱落や不完全データも考慮し、一定の余裕を持った設計が求められます。
サンプルサイズ設計における注意点
サンプルサイズ設計に際しては、以下のような点に注意が必要です。
-
脱落率の考慮:10~20%の上乗せが推奨される場合もあります。
-
多重検定の影響:複数の主要評価項目やサブグループ解析を予定している場合、補正が必要です。
-
中間解析や順応的デザイン:統計設計との整合性を保つことが求められます。
-
規制対応:ICH-GCP下では、サンプルサイズの根拠は解析計画書(SAP)に明記し、第三者審査に耐える内容が求められます。
したがって、サンプルサイズ設計は単なる技術作業ではなく、試験全体の設計思想と整合的である必要があります。
結びに代えて
サンプルサイズの設計は、解析の準備作業ではなく、試験全体の成功を左右する「戦略的要素」です。統計の力を最大限に活かすには、研究構想の初期段階から統計専門家を交え、医学的妥当性・倫理的配慮・実行可能性を統合的に見極めることが重要です。
株式会社日本統計技術研究所では、臨床・製薬・アカデミア領域におけるサンプルサイズ設計、解析計画書(SAP)の作成、実施解析、報告書作成まで一貫して支援しております。統計解析の専門家として、貴社・貴大学・貴病院の研究を成功に導くご支援ができれば幸いです。
株式会社日本統計技術研究所