標準偏差 - 暇つぶしWikipedia

標準偏差

この標本平均を使って次式で定義される量を標本分散と呼ぶ： s 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 = 1 n ∑ i = 1 n x i 2 − x ¯ 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\bar {x}}^{2}}

標本分散の平方根 s を標本標準偏差と呼ぶ [11]。
不偏標準偏差

σ2 を母分散、s2 を標本分散とすると、標本分散の期待値 E[s2] は、 E [ s 2 ] = n − 1 n σ 2 {\displaystyle E[s^{2}]={\frac {n-1}{n}}\sigma ^{2}}

となることが示される。つまり、標本分散は母分散よりも少し小さくなる [注釈 1]。そのため、標本分散は母分散の不偏推定量ではない。そこで、 v 2 = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) 2 = 1 n − 1 ∑ i = 1 n x i 2 − n n − 1 x ¯ 2 {\displaystyle v^{2}={\frac {1}{n-1}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n-1}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1}}{\bar {x}}^{2}}

を考えると、この量の期待値は母分散に等しく、母分散の不偏推定量になっている。

こうして定義される v2 を不偏分散という。v を不偏標準偏差という。

紛らわしいが、 v2 を標本分散と呼ぶこともある。さらに v2 の平方根 v を標本標準偏差ということもある。名称の混乱については後述する。
母集団の標準偏差の不偏推定量

前述のように不偏分散は、母分散の不偏推定量である（標本から測定した推定量の期待値が母分散に等しい）。しかし、不偏分散の平方根 v は、母集団の標準偏差の不偏推定量ではない。

母集団が正規分布に従う場合、母集団の標準偏差の不偏推定量 D は次式で与えられる [13]： D = n − 1 2 Γ ( n − 1 2 ) Γ ( n 2 ) v {\displaystyle D={\sqrt {\frac {n-1}{2}}}{\frac {\Gamma \left({\frac {n-1}{2}}\right)}{\Gamma \left({\frac {n}{2}}\right)}}v}

ここで、Γ はガンマ関数、v2 は不偏分散である。

標本の大きさが大きくなれば、母集団の標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を n − 1.5 で割った値の平方根として求められる [14]： D ≈ 1 n − 1.5 ∑ i = 1 n ( x i − x ¯ ) 2 = 1 n − 1.5 ∑ i = 1 n x i 2 − n n − 1.5 x ¯ 2 {\displaystyle D\approx {\sqrt {{\frac {1}{n-1.5}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\sqrt {{\dfrac {1}{n-1.5}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-{\dfrac {n}{n-1.5}}{\bar {x}}^{2}}}}
名称の混乱

統計の教科書によっては、不偏分散（分母が n − 1 の方）を「標本分散」と呼んでいる場合もあり [15]、用語が混乱して使用されている場合がある。母平均が不明で、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い [16]。
英語

英語では不偏分散による標準偏差のことを「sample standard deviation」（標本標準偏差）と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された [17]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。

英語版ウィキペディアの「standard deviation」という記事では、不偏分散による標準偏差（平均からの偏差平方和を n − 1 で割った値の平方根）のことを「corrected sample standard deviation」と表記し、平均からの偏差平方和を n で割った値の平方根を「uncorrected sample standard deviation」や「the standard deviation of the sample」と表記している[出典無効]。

アメリカの Fundamentals of Engineering (FE) の試験問題での「sample standard deviation」は n − 1 で割る方を意味する。

アメリカ・ユタ大学の ⇒トム・マロイは、統計学の学習者向けウェブページ [18]では、「sample standard deviation」を平均からの偏差平方和を n で割った値の平方根だと解説している。

日本語

日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 v2 の平方根を、不偏標準偏差だと教える大学教員も多いが、母集団の標準偏差の不偏推定量 D を不偏標準偏差だと教える教員もいる。

兵庫大学の河野稔によるウェブページ [19]や神戸大学の中澤港によるウェブページ [20]では前者である。

東北学院大学の根市一志による資料 [21]では後者である。

このように、同じ用語でも話者によって定義が異なる場合がある。
表計算ソフト

表計算ソフトでは次のようなワークシート関数が用意されている。

分母Microsoft Excel
Googleスプレッドシート Lotus 1-2-3
nSTDEVP, STDEVPA, STDEV.P-
n − 1STDEV, STDEVA, STDEV.S@STD, @STDS

確率変数の標準偏差
 離散型確率変数

X を離散型確率変数とする。X のとりうる値を x1, x2, …, xn, … とし、X が xi をとる確率を pi で表す。このとき ∑ i = 1 ∞ p i = 1 ( p i ≥ 0 ) {\displaystyle \textstyle \sum \limits _{i=1}^{\infty }p_{i}=1\quad (p_{i}\geq 0)}

である。このとき E [ X ] = ∑ i = 1 ∞ p i x i {\displaystyle E[X]=\textstyle \sum \limits _{i=1}^{\infty }p_{i}x_{i}}

を確率変数 X の期待値という。また、 V [ X ] = E [ ( X − E [ X ] ) 2 ] = ∑ i = 1 ∞ p i ( x i − E [ X ] ) 2 = E [ X 2 ] − ( E [ X ] ) 2 {\displaystyle V[X]=E{\Bigl [}{\bigl (}X-E[X]{\bigr )}^{2}{\Bigr ]}=\textstyle \sum \limits _{i=1}^{\infty }p_{i}{\bigl (}x_{i}-E[X]{\bigr )}^{2}=E[X^{2}]-(E[X])^{2}}

Size:65 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef