この節の内容の信頼性について検証が求められています。
確認のための文献や情報源をご存じの方はご提示ください。出典を明記し、記事の信頼性を高めるためにご協力をお願いします。
二項分布が正規分布に近づく様子
期待値 np および分散 np(1 − p) が 5 よりも大きい場合、二項分布 B(n, p) に対する良好な近似として正規分布がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、n が十分大きくかつ、期待値 np および 分散 np(1 − p) も十分大きい場合、期待値 np, 分散 np(1 − p) の正規分布 N(np, np(1 − p)) で近似することができ、期待値からの差 |k − np| が標準偏差 n p ( 1 − p ) {\textstyle {\sqrt {np(1-p)}}} と同程度となる k に対して P [ X = k ] ≃ 1 2 π n p ( 1 − p ) exp ( − ( k − n p ) 2 2 n p ( 1 − p ) ) {\displaystyle P[X=k]\simeq {\frac {1}{\sqrt {2\pi np(1-p)}}}\exp {\biggl (}-{\frac {(k-np)^{2}}{2np(1-p)}}{\biggr )}}
が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書 The Doctrine of Chances の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある[6]。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。
例えば、多数の住民の中から n 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。n 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 p とほぼ等しい平均を持ち、標準偏差 σ = p ( 1 − p ) / n {\textstyle \sigma ={\sqrt {p(1-p)/n}}} である正規分布に近似される。未知の変数 p は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 n は多い方が好ましい。
95%信頼区間ならば、正規分布で近似すると、その範囲は p − 1.959964 p ( 1 − p ) n ∼ p + 1.959964 p ( 1 − p ) n {\displaystyle p-1.959964{\sqrt {\frac {p(1-p)}{n}}}\sim p+1.959964{\sqrt {\frac {p(1-p)}{n}}}}
となる。たとえば、p = 50% の場合、n = 100 なら40%?60%、n = 1000 ならば47%?53%、n = 10000 ならば49%?51%となる。n = 10 の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%?70%となる[7]。 n が大きく p が十分小さい場合、np は適度な大きさとなるため、λ = np を母数とするポアソン分布が二項分布 B(n, p) の良好な近似を与える。すなわち、n が十分大きいとき、期待値 λ = np とおくと、 P [ X = k ] ≃ λ k e − λ k ! {\displaystyle P[X=k]\simeq {\frac {\lambda ^{k}e^{-\lambda }}{k!}}} が成り立つ(詳細はポアソン分布の項を参照)。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書 Recherches sur la probabilite des jugements (Researches on the Probabilities) の中で与えており、ポアソンの極限定理と呼ばれる。
ポアソン分布
出典[脚注の使い方]^ 藪 2012, p. 144
^ 藪 2012, pp. 144