外れ値
[Wikipedia|▼Menu]
外れ値(中央の赤い点)

外れ値(はずれち、: outlier)は、統計学において、他の値から大きく外れた値のこと。測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。ロバスト統計では、外れ値に対しての頑健性確保を重視する。

英語のoutlierには「他より著しく異なるため一般的結論を導けない人や物や事実」を指す意味もある[1][2]
検定

外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量 τ 1 = x 1 − μ σ {\displaystyle \tau _{1}={\frac {x_{1}-\mu }{\sigma }}}

を求め(x1 は標本値、μ は平均、σ は標準偏差)、この値(両側検定をする場合はこの絶対値)が有意点より大きいかどうかで検定する。

簡単な方法では、2または3を有意点とする。つまり、μ ± 2?3 σ の外なら外れ値とする。
スミルノフ・グラブス検定

より精密には、正規分布を仮定して、スミルノフ・グラブス (Smirnov‐Grubbs) 検定を使う。サンプルサイズを n、所要の有意水準を α、自由度 n - 2 のt分布の α / n × 100 パーセンタイルを t として、 τ = ( n − 1 ) t n ( n − 2 ) + n t 2 {\displaystyle \tau ={\frac {(n-1)t}{\sqrt {n(n-2)+nt^{2}}}}}

を有意点とする。平均値から最も外れている1つのデータのみを検定し、それが外れ値と判定されたら、それを除外した n ? 1 のサンプルサイズにおいて最も外れているデータを検定し、以下、外れ値が検出されなくなるまでこれを繰り返す。
トンプソン検定

トンプソン (Thompson) 検定では、 t = τ n − 2 n − 1 − τ 2 {\displaystyle t={\frac {\tau {\sqrt {n-2}}}{\sqrt {n-1-\tau ^{2}}}}}

を使う。計算式の都合上、スミルノフ・グラブス検定とは逆に、標本値の検定統計量 τ1 から t1 を経て有意水準 α1 を求めることが多い。n が十分大きければスミルノフ・グラブス検定と同じ結果になる。
脚注[脚注の使い方]^ outlier Cambridge Dictionary, Cambridge University Press
^ マルコム グラッドウェル(英語表記)Malcolm Gladwellコトバンク

関連項目

Huber損失

外部リンク.mw-parser-output .side-box{margin:4px 0;box-sizing:border-box;border:1px solid #aaa;font-size:88%;line-height:1.25em;background-color:#f9f9f9;display:flow-root}.mw-parser-output .side-box-abovebelow,.mw-parser-output .side-box-text{padding:0.25em 0.9em}.mw-parser-output .side-box-image{padding:2px 0 2px 0.9em;text-align:center}.mw-parser-output .side-box-imageright{padding:2px 0.9em 2px 0;text-align:center}@media(min-width:500px){.mw-parser-output .side-box-flex{display:flex;align-items:center}.mw-parser-output .side-box-text{flex:1}}@media(min-width:720px){.mw-parser-output .side-box{width:238px}.mw-parser-output .side-box-right{clear:right;float:right;margin-left:1em}.mw-parser-output .side-box-left{margin-right:1em}}ウィキメディア・コモンズには、外れ値に関連するカテゴリがあります。

スミルノフ・グラブス検定の有意点










統計学
標本調査

標本

母集団

無作為抽出

層化抽出法

要約統計量

連続確率分布

位置

平均

算術

幾何

調和


中央値

分位数

順序統計量


最頻値

階級値

分散

範囲

偏差

偏差値

標準偏差

標準誤差

変動係数

決定係数

相関係数

自己相関

共分散

自己共分散

分散共分散行列

百分率

統計的ばらつき

モーメント

分散

歪度

尖度


カテゴリデータ

頻度

分割表


推計統計学

仮説検定

パラメトリック

t検定

ウェルチのt検定

F検定

Z検定

二項検定

ジャック-ベラ検定

シャピロ?ウィルク検定

分散分析

共分散分析

ノンパラメトリック

ウィルコクソンの符号順位検定

マン・ホイットニーのU検定

カイ二乗検定

イェイツのカイ二乗検定

累積カイ二乗検定

フィッシャーの正確確率検定

尤度比検定

G検定

アンダーソン?ダーリング検定

コルモゴロフ?スミルノフ検定

カイパー検定

マンテル検定

コクラン・マンテル・ヘンツェルの統計量

その他

帰無仮説

対立仮説

有意

棄却


区間推定

信頼区間

予測区間

モデル選択基準

AIC

BIC

WAIC

MDL

その他

偏り

偏りと分散

過剰適合

推定量

点推定


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:24 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef