標準偏差 - 暇つぶしWikipedia

標準偏差

平均は同じであるが標準偏差が大きく異なるデータのヒストグラムの例。赤で示されたデータの方が青で示されたデータよりも標準偏差が小さい。平均 0, 標準偏差 σ の正規分布の確率密度関数。この分布に従う確率変数が 0 ± σ の間に値をとる確率はおよそ 68% であることが読み取れる。

標準偏差（ひょうじゅんへんさ、（英: standard deviation, SD）とは、データや確率変数の、平均値からの散らばり具合（ばらつき）を表す指標の一つである。偏差ベクトルと、値が標準偏差のみであるベクトルは、ユークリッドノルムが等しくなる。

標準偏差を2乗したのが分散であり、従って、標準偏差は分散の非負の平方根である [1]。標準偏差が 0 であることは、データの値が全て等しいことと同値である。

母集団や確率変数の標準偏差を σ で、標本の標準偏差を s で表すことがある。

二乗平均平方根 (RMS) を用いると、標準偏差は偏差の二乗平均平方根に等しくなる。
概要

データ x1, x2, …, xn の平均値からの散らばり具合を数値にした標準偏差は、次の式で定義される： s = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}

ここで x は平均値を表す。この定義は、データを数ベクトルと見て、「散らばり具合」を偏差ベクトルのユークリッドノルムととらえる考えに基づく（このことより平均偏差でなく自乗平均をとる）。もとのデータ x を、平均値、「散らばり具合」を変えず、偏差が全て同じであるように取り直したデータ y を考える。x の大きさが奇数のときは、x を、自分自身2個を併せたデータ（大きさは偶数）に取り直す（そうしても平均値、「散らばり具合」は変わらない）。y の偏差ベクトルは (±s, ±s, …, ±s) (s ? 0) の形になる。x と y の「散らばり具合」が等しいことから、 ‖ x − x ¯ ‖ = ‖ ( ± s , ⋯ , ± s ) ‖ {\displaystyle \|{\boldsymbol {x}}-{\overline {\boldsymbol {x}}}\|=\|(\pm s,\cdots ,\pm s)\|} n s 2 = ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle ns^{2}=\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} s = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle s={\sqrt {{\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}} //

標準偏差は平方根を取るため、簡単な計算法則が成り立ちにくいという特徴がある。そこで分散 s2 を s 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}

で定義する。分散には簡単な計算法則がいくつか成り立つことから、種々の標準偏差ができるようになる。詳細は「分散 (統計学)」を参照

標準偏差の概念は、イギリスの統計学者フランシス・ゴルトンにより、親子の身長の相関関係を調べる中で初めて見出された [2]。データを数ベクトルと見る考え方は相関係数の導入と命名につながった。ゴルトンはこれらの研究により平均への回帰という現象を見出した [3]。

ユニヴァーシティ・カレッジ・ロンドンのゴルトン研究室を継承した [4]カール・ピアソンはゴルトンの研究を定式化 [2]、体系化し [5]、初めて standard deviation（「標準偏差」）と名付けた [6][7][8]。

確率分布において最も基本となる正規分布曲線において、変曲点の x座標と平均の絶対差は標準偏差に等しくなる。このことから、標準偏差は信頼区間の基本的な単位となる。

日本の受験業界で広く使われている学力偏差値は標準偏差の応用例の一つで、異なる試験でも、平均点よりどれだけ離れているかをある統一した尺度でとらえることができるようになっている。

金融工学においては、株式のリスクを確率分布の標準偏差でとらえることがある [9][10]。
母集団の標準偏差

母集団全てのデータ x1, x2, …, xn に対して、平均値 x は次の式で定義される： x ¯ = 1 n ∑ i = 1 n x i {\displaystyle {\overline {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}}

この平均値 x を使って得られる分散 σ2 を次の式で定義する： σ 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 = 1 n ∑ i = 1 n x i 2 − x ¯ 2 {\displaystyle \sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\overline {x}}^{2}}

σ2 を母分散と言うこともある。

この分散の非負の平方根 σ を、母集団の標準偏差と定義する [11]。分散もデータの散らばり具合を表す統計量であるが、分散と違い標準偏差はデータの値と次元が等しくなる。偏差は平均的には標準偏差の分だけ離れていると考えることができる [12]。
標本の標準偏差
 標本標準偏差

母集団の中から、大きさ n（母集団の大きさよりはるかに小さい）の標本 x1, x2, …, xn を抽出したとする。このとき、標本平均は次の式で表される： x ¯ = 1 n ∑ i = 1 n x i {\displaystyle {\bar {x}}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}x_{i}}

この標本平均を使って次式で定義される量を標本分散と呼ぶ： s 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 = 1 n ∑ i = 1 n x i 2 − x ¯ 2 {\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\dfrac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}^{2}-{\bar {x}}^{2}}

Size:65 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef