最頻値
[Wikipedia|▼Menu]

統計学における最頻値(さいひんち)またはモード(: mode)とは、データや確率分布で頻度(度数、確率)が最大の値のことである[1]。(データ上で最も出てくる頻度が高い数値)日本産業規格では、「離散分布の場合は確率関数が,連続分布の場合は密度関数が,最大となる確率変数の値。分布が多峰性の場合は,それぞれの極大値を与える確率変数の値」[2]と定義している。

最頻値は平均値や中央値と併せて、データ、確率分布の代表値の一つである[3][4]。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。

最頻値は一意とは限らない。一様分布は全ての値が最頻値となる。
確率分布の最頻値

離散確率分布の最頻値は、確率質量関数が最大となる値である。言い換えれば、標本として最も頻繁に出現しやすい値である。連続確率分布の最頻値は、確率密度関数が最大となる値であり、大まかに言えばそのピークとなる値である。先述の通り、最頻値は一意とは限らず、確率質量関数や確率密度関数が複数の地点で最大となることもある。

先述の定義から全域的最大値が最頻値だとわかる。若干困惑させるが、確率密度関数が複数の極値をもつとき、それぞれをその分布の最頻値とすることもある。そのような連続確率分布を「多峰性分布」、そうでないものを「単峰性分布」と呼ぶ。

正規分布などの線対称な単峰性分布では、平均、中央値、最頻値が全て一致する。例えば、線対称な分布に従っていると判明していれば、標本群の平均を母集団の最頻値の推定値として使うことができる。
標本の最頻値

標本データの最頻値は、その中で最も頻繁に出現する値を意味する。例えば [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] という標本群の最頻値は6である。[1, 1, 2, 4, 4] というデータでは最頻値は一意に定まらない。そのようなデータ群を「二峰性 (: bimodal)」と呼び、最頻値が2つよりも多ければ「多峰性 (: multimodal)」と呼ぶ。

連続確率分布の標本は [0.935..., 1.211..., 2.430..., 3.668..., 3.874...] のようになり、正確に同じ値が出現することはないため、そのままの定義では最頻値を求められない。この場合一般に、値の範囲を等間隔の区間に分割し、ヒストグラムを作成することで区間ごとの頻度を求め、区間の中央の値でその区間を代表させる。したがって最頻値はヒストグラムのピークの値ということになる。標本数が少ない場合、区間の幅をどう選択するかで値が大きく変わってくる。一般に各区間の標本数をある程度以上確保するために区間数を少なくする。もう1つの手法としてカーネル密度推定があるが、これは本質的に標本値をぼやけさせて確率密度関数を連続的に推定するもので、それによって最頻値を提供できる。

次のMATLABのコード例は、標本群から最頻値を計算するものである。X = sort(x);indices = find(diff([X; realmax]) > 0); % indices where repeated values change[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated valuesmode = X(indices(i));

このアルゴリズムでは、まず標本群を昇順にソートする必要がある。次いでソートされたリストの離散微分係数を計算し、その微分係数が正となるインデックス群 (indices) を求める(つまり、値が上がっている位置を求める)。次にそのインデックス列の離散微分係数を計算し、それが最大となっている位置を求める(つまり、同じ値が長く続いているほどインデックスの差が大きくなり、微分係数が大きくなる)。
平均値、中央値、最頻値の比較「算術平均」および「中央値」も参照

代表値の比較
種類意味式例結果
算術平均総和を標本数で割ったもの x ¯ = 1 n ∑ i = 1 n x i = 1 n ( x 1 + ⋯ + x n ) {\displaystyle \scriptstyle {\bar {x}}={\frac {1}{n}}\sum \limits _{i=1}^{n}x_{i}={\frac {1}{n}}(x_{1}+\cdots +x_{n})} (1+2+2+3+4+7+9) / 74
中央値標本群を昇順に並べたとき中央に位置する値1, 2, 2, 3, 4, 7, 93
最頻値標本群で最も頻繁に出現する値1, 2, 2, 3, 4, 7, 92

これらの値の意味

平均や中央値とは異なり、最頻値の概念は「名義尺度」(数値以外のデータからなる場合)においても意味がある。例えば日本で姓の標本を採取すると、「佐藤」という姓が他の姓より頻繁に出現するだろう。したがってこの場合の最頻値は「佐藤」となる。得票数が最も多い人が勝ちとなる投票方式では、最頻値が1つに定まることで勝者が決まり、多峰性の分布になると引き分けとなってしまう。

中央値とは異なり、平均は何らかのベクトル空間の値をとる確率変数でも意味がある。このベクトル空間にはもちろん、実数(1次元のベクトル空間)や整数も含まれる。例えば、平面上に分布する点群において平均や最頻値は存在するが、中央値の概念は適用されない。中央値は、とりうる値に線型順序が存在する場合に意味を持つ。中央値の概念を高次元の空間に一般化したものとして、幾何学的中央値(英語版)と中央点(英語版)がある。
一意性と定義性

一部の確率分布において、期待値は無限だったり未定義だったりすることもあるが、存在する場合は一意に定まる。(有限の)標本群では平均は常に定義される。中央値は、それより小さい標本の数とそれを越える標本の数が共に2分の1となる値である。一意とは限らないが、無限になったり未定義となることはない。標本群を昇順に並べたとき、その真ん中の値が中央値であり、標本数が偶数の場合は真ん中に最も近い2つの標本の平均を中央値とする。最頻値は前述の通り一意に定まるとは限らない。例えばカントール分布のような病的な (pathological) 分布では、最頻値は全く定義されない[要出典]。標本数が有限であれば、最頻値は標本内のいずれかの値に定まる(1つとは限らない)。
特性

定義性と単純化のための一意性を仮定すると、次のような興味深い特性が存在する。

これら3つの値には次の特性がある。確率変数(または標本群のそれぞれの値) X の
アフィン写像 aX+b を求めたとき、変換後の平均値・中央値・最頻値も同じ変換で得られる。

任意の単調な変換を施したとき、同様に変換に従うのは中央値のみである。例えば、X を exp(X) に変換すると、中央値 m は exp(m) となるが、平均と最頻値はそうならない。

標本数が極端に少ない場合を除けば、最頻値は「外れ値」に鈍感である。中央値も外れ値に強いが、平均値はやや敏感である。

連続な単峰性分布では、経験則として、平均値から最頻値の方に3分の1ほどのところに中央値がある。式で表すと「中央値 ? (2 × 平均値 + 最頻値)/3」となる。カール・ピアソンの経験則と呼ばれ、正規分布に近いやや非対称の分布に適用されるが、常に真ではなく、3つの値が並ぶ順序は様々である[5][6]

単峰性分布では、最頻値は平均値から標準偏差の 3 {\displaystyle {\sqrt {3}}} の範囲内にあり、最頻値の二乗平均偏差は標準偏差と標準偏差の2倍の間にある[7]

歪度の高い分布における例

歪度の高い分布としてよく知られている例として「富の分布」がある。富裕層の方が少なく、中でも大富豪はさらに少なく、大部分は貧困層に分類される。

歪度を恣意的に変化させられる確率分布として、対数正規分布がよく知られている。正規分布の確率変数 X を Y = exp(X) となる確率変数 Y に変換することで得られる。この確率変数 Y の対数をとると正規分布となるため、このように呼ばれている。

X の平均 μ を0としたとき、Y の中央値は 1 となり、X の標準偏差 σ には依存しない。これは X が線対称の分布であるためで、その中央値も標準偏差によらず常に 0 である。X から Y への変換は単調であり、Y の中央値は exp(0) = 1 となる。

X の標準偏差 σ = 0.2 のとき、Yの分布の歪度はあまり高くない。小数点以下4桁まで求めると次のようになる(計算方法は対数正規分布を参照)。

平均 = 1.0202

最頻値 = 0.9608

中央値は平均から最頻値までの3分の1ほどの位置となる。

X の標準偏差がずっと大きく σ = 5 の場合、Y の分布の歪度は大きくなる。この場合、次のような値となる。

平均 = 7.3891

最頻値 = 0.0183

この場合、ピアソンの経験則は成り立たない。
脚注^ Butler, Gregory (2010). “Mode”. In Salkind, Neil. Encyclopedia of researchL design. Sage. pp. 140-142. .mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}ISBN 978-1-4129-6127-1 


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:36 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef