分位数
[Wikipedia|▼Menu]

分位数(ぶんいすう)、分位点(ぶんいてん)、分位値(ぶんいち)、クォンタイル (: quantile) は、統計の代表値の1種である。

実数 q ∈ [ 0 , 1 ] {\displaystyle q\in [0,1]} に対し、q 分位数 (q-quantile) は、分布を q : 1 − q {\displaystyle q:1-q} に分割する値である。

ある種の正の整数 m {\displaystyle m} に対し、分布を m {\displaystyle m} 等分する m − 1 {\displaystyle m-1} 個の値、つまり、 i = 1 , … , m − 1 {\displaystyle i=1,\dotsc ,m-1} に対する i / m {\displaystyle i/m} 分位数を、m 分位数(ただし m {\displaystyle m} は漢数字)という。 i = 1 , … , m − 1 {\displaystyle i=1,\dotsc ,m-1} 番目の m 分位数を第 i m 分位数といい、また、 m {\displaystyle m} 等分された分布の k = 1 , … , m {\displaystyle k=1,\dotsc ,m} 番目の部分を、第 k m 分位、または単に第 k 分位という。

ただし、英語のquantileには、等分割する値(value)の意味と、そのようにして分割された群(group)の二つの意味がある[1]
定義
変量統計における分位数

n {\displaystyle n} 個のデータ x {\displaystyle x} に対する q 分位数 Q q {\displaystyle Q_{q}} は、昇順にソートしたデータを x 1 ≤ x 2 ≤ ⋯ ≤ x n {\displaystyle x_{1}\leq x_{2}\leq \dotsb \leq x_{n}} とすると、 Q q = x ( 1 − q + q n ) x ( t ) = { x t , if  t ∈ N ( ⌈ t ⌉ − t ) x ⌊ t ⌋ + ( t − ⌊ t ⌋ ) x ⌈ t ⌉ , if  t ∉ N {\displaystyle {\begin{aligned}Q_{q}&=x(1-q+qn)\\x(t)&={\begin{cases}x_{t},&{\text{if }}t\in \mathbb {N} \\(\lceil t\rceil -t)x_{\lfloor t\rfloor }+(t-\lfloor t\rfloor )x_{\lceil t\rceil },&{\text{if }}t\notin \mathbb {N} \end{cases}}\end{aligned}}}

と定義される。ここで、 ⌊ ⋅ ⌋ {\displaystyle \lfloor \cdot \rfloor } は床関数、 ⌈ ⋅ ⌉ {\displaystyle \lceil \cdot \rceil } は天井関数、 N {\displaystyle \mathbb {N} } は自然数の集合である。

関数 x ( t ) ,   1 ≤ t ≤ n {\displaystyle x(t),\ 1\leq t\leq n} は、数列 x 1 , … , n {\displaystyle x_{1,\dotsc ,n}} の線形内挿数関数への拡張である。関数 x ( ⋅ ) {\displaystyle x(\cdot )} の引数 1 − q + q n {\displaystyle 1-q+qn} は、範囲 [ 1 , n ] {\displaystyle [1,n]} を q : 1 − q {\displaystyle q:1-q} に内分している。
確率分布の分位数

1次元確率分布 f ( x ) {\displaystyle f(x)} に対する q 分位数 Q q {\displaystyle Q_{q}} は ∫ − ∞ Q q f ( x ) d x ≥ q ,   ∫ Q q ∞ f ( x ) d x ≥ 1 − q {\displaystyle \int _{-\infty }^{Q_{q}}f(x)dx\geq q,\ \int _{Q_{q}}^{\infty }f(x)dx\geq 1-q}

を満たす値として定義される。この式は、累積分布関数 F ( x ) {\displaystyle F(x)} または確率 P ( X ) {\displaystyle P(X)} を使って、 ∫ − ∞ Q q d F ( x )   ≥ q ,   ∫ Q q ∞ d F ( x )   ≥ 1 − q {\displaystyle \int _{-\infty }^{Q_{q}}dF(x)\ \geq q,\ \int _{Q_{q}}^{\infty }dF(x)\ \geq 1-q}

または P ( X ≤ Q q ) ≥ q ,   P ( X ≥ Q q ) ≥ 1 − q {\displaystyle P(X\leq Q_{q})\geq q,\ P(X\geq Q_{q})\geq 1-q}

とも表せる[2]



特別な分位数

いくつかの q に対する q 分位数には、特別な名称がある。
中央値詳細は「中央値」を参照

1 / 2 分位数を、中央値、メディアン (median)という。中央値は、平均値に代わり、分布を代表する値として使われる。
四分位数

q / 4 {\displaystyle q/4} 分位数を、第 q 四分位数、第 q 四分位点、第 q 四分位値、第 q ヒンジ (quartile, hinge) という。1 / 4 分位数(第1四分位数)を下側四分位数、3 / 4 分位数(第3四分位数)を上側四分位数ともいう[3]

単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布の統計的ばらつきを表すのに使う。

第1・第3四分位数の差 Q 3 / 4 − Q 1 / 4 {\displaystyle Q_{3/4}-Q_{1/4}} は、四分位範囲(: interquartile range, IQR)といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。

IQR / 2 {\displaystyle {\text{IQR}}/2} を四分位偏差、 IQR / IQR N ( 0 , 1 ) ≈ 0.7413   IQR {\displaystyle {\text{IQR}}/{\text{IQR}}_{N(0,1)}\approx 0.7413~{\text{IQR}}} を正規四分位範囲(: normalized interquartile range, NIQR)といい、IQRの代わりに使うことがある。ここで、 IQR N ( 0 , 1 ) ≈ 1.3490 {\displaystyle {\text{IQR}}_{N(0,1)}\approx 1.3490} は、標準正規分布のIQRである。正規分布の正規四分位範囲は、標準偏差に等しい。なお係数0.7413を近似値として使うことがある。

四分位数の簡易な求め方として、中央値より上の値の中央値と、中央値より下の値の中央値を使う場合がある。この値を特にヒンジ (hinge) と呼び、それぞれ上側ヒンジ・下側ヒンジ、または、第1・第3ヒンジ(第2ヒンジは中央値)と呼ぶ。ヒンジは、(厳密に計算した)四分位数とは、中央値から離れる方向に少しだけずれる。データ数が多ければずれは小さくなる [要出典]。
三分位数・五分位数・十分位数

q / 3 {\displaystyle q/3} 分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (tertile) という。

q / 5 {\displaystyle q/5} 分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (quintile) という。

q / 10 {\displaystyle q/10} 分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (decile) という。
パーセンタイル


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:40 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef