外れ値 - 暇つぶしWikipedia

外れ値

外れ値（中央の赤い点）

外れ値（はずれち、英: outlier）は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。

英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある [1][2]。
検定

外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量 τ 1 = x 1 − μ σ {\displaystyle \tau _{1}={\frac {x_{1}-\mu }{\sigma }}}

を求め（x1 は標本値、μ は平均、σ は標準偏差）、この値（両側検定をする場合はこの絶対値）が有意点より大きいかどうかで検定する。

簡単な方法では、2または3を有意点とする。つまり、μ ± 2?3 σ の外なら外れ値とする。
スミルノフ・グラブス検定

より精密には、正規分布を仮定して、スミルノフ・グラブス (Smirnov‐Grubbs) 検定を使う。サンプルサイズを n、所要の有意水準を α、自由度 n - 2 のt分布の α / n × 100 パーセンタイルを t として、 τ = ( n − 1 ) t n ( n − 2 ) + n t 2 {\displaystyle \tau ={\frac {(n-1)t}{\sqrt {n(n-2)+nt^{2}}}}}

を有意点とする。平均値から最も外れている1つのデータのみを検定し、それが外れ値と判定されたら、それを除外した n ? 1 のサンプルサイズにおいて最も外れているデータを検定し、以下、外れ値が検出されなくなるまでこれを繰り返す。
トンプソン検定

トンプソン (Thompson) 検定では、 t = τ n − 2 n − 1 − τ 2 {\displaystyle t={\frac {\tau {\sqrt {n-2}}}{\sqrt {n-1-\tau ^{2}}}}}

表

話

編

歴
 統計学
 標本調査

 標本

 母集団

 無作為抽出

 層化抽出法

 要約統計量

連続確率分布

位置

 平均

 算術

 幾何

 調和

 中央値

 分位数

 順序統計量

 最頻値

階級値

分散

範囲

偏差

 偏差値

 標準偏差

 標準誤差

 変動係数

 決定係数

 相関係数

 自己相関

 共分散

 自己共分散

 分散共分散行列

 百分率

 統計的ばらつき

 モーメント

 分散

 歪度

 尖度

カテゴリデータ

頻度

分割表

 推計統計学

仮説検定

パラメトリック

t検定

 ウェルチのt検定

 F検定

 Z検定

 二項検定

 ジャック-ベラ検定

 シャピロ?ウィルク検定

 分散分析

 共分散分析

 ノンパラメトリック

 ウィルコクソンの符号順位検定

 マン・ホイットニーのU検定

 カイ二乗検定

 イェイツのカイ二乗検定

 累積カイ二乗検定

 フィッシャーの正確確率検定

 尤度比検定

 G検定

 アンダーソン?ダーリング検定

 コルモゴロフ?スミルノフ検定

 カイパー検定

 マンテル検定

 コクラン・マンテル・ヘンツェルの統計量

その他

帰無仮説

 対立仮説

 有意

 棄却

区間推定

信頼区間

 予測区間

モデル選択基準

AIC

BIC

WAIC

MDL

その他

偏り

 偏りと分散

 過剰適合

 推定量

 点推定

Size:24 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef