Q-Qプロット - 暇つぶしWikipedia

Q-Qプロット

.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

「P-Pプロット（英語版）」とは異なります。
無作為に生成された独立な標準指数分布データ(X ~ Exp(1))の正規Q-Qプロット。このQ-Qプロットは、縦軸のデータ標本をとり、横軸の統計的母集団をとって比較したものである。このプロットは強い非線形の関係で、データが標準正規分布（X ~ N(0,1)）にしたがって分布してないことを示唆している。線と点の間のずれは、データの平均が0ではないことを示唆し、点の中央値は0.7付近であることがわかる。無作為に生成された独立な標準正規データを縦軸に、標準正規分布の母集団を横軸に比較した正規Q-Qプロット。点が直線的であることから、データが正規分布に従っていることを示唆している。米国オハイオ州の25箇所の観測点における3月と7月の標準化された日最高気温の分布を比較するQ-Qプロット。湾曲したパターンは、3月よりも7月の方が中央分位数の間隔が狭く、7月の分布が3月の分布に比べて左に歪んでいることを示唆している。データは1893年から2001年の期間で収集した。

Q-Qプロット（英: Q?Q plot, quantile?quantile plot）は、統計学における確率プロットの一つで、2つの確率分布の分位数（quantiles）を互いにプロットして比較するグラフィカルな手法（英語版）である [1]。プロット上の点 (x, y) は、第1の分布の同じ分位数（x座標）に対して、第2の分布の分位数（y座標）の1つを対応させてプロット（打点）する。したがって、これは分位区間のインデックスをパラメータとするパラメトリック曲線を定義する。

比較している2つの分布が類似している場合、Q-Qプロットの点は、ほぼ恒等線（英語版） y = x 上に位置する。分布が線形関係にある場合、Q-Qプロットの点は、ほぼ直線上に位置するが、必ずしも直線 y = x 上に位置するとは限らない。Q-Qプロットは、位置-尺度分布族（英語版）のパラメータを推定するためのグラフィカルな手法としても使用できる。

Q-Qプロットは、分布の形状を比較するために使用され、位置（英語版）、尺度、歪度などの特性が2つの分布でどのように類似しているか、または異なっているかをグラフィカルに表わす。Q-Qプロットは、データの集合や理論的分布を比較するために使用することができる。Q-Qプロットの使用して2組のデータ標本を比較することは、それらの潜在的な分布を比較するノンパラメトリック手法と見なすことができる。Q-Qプロットは、2つの標本のヒストグラムを比較する一般的な手法よりも診断に役立つが、（解釈にはより多くの技量を要し）あまり広くは知られていない。Q-Qプロットは、データ集合を理論モデルを比較するためによく使用される [2][3]。これにより、適合度の評価（英語版）を、数値的な要約統計量に還元するのではなく、グラフィカルに行うことができる。また、Q-Qプロットは、2つの理論的分布を相互に比較するためにも使用される [4]。Q-Qプロットは分布を比較するので、散布図のように値を対として観察する必要はなく、比較される2つのグループの値の数を等しくする必要もない。

「確率プロット」（英: probability plot）という用語は、特にQ-Qプロットを指すこともあれば、場合によってはより一般的なプロットの種類や、またあまり一般的でないP-Pプロット（英語版）を指すこともある。確率プロット相関係数プロット（英語版）（英: probability plot correlation coefficient plot, PPCC plot）は、Q-Qプロットの概念から派生した量であり、観察データと適合した分布との適合度を評価し、分布をデータに適合させる手段として使用されることもある。
定義と構成ワシントン州道20号線（英語版）の最初の開通日・閉鎖日の正規分布に対するQ-Qプロット [5]。右上隅に外れ値が見える。

Q-Qプロットは、2つの分布の分位数を相互にプロットしたもの、または分位数の推定に基づくプロットである。プロット中の点のパターンは、2つの分布を比較するために使用される。

Q-Qプロットを作成する主な手順は、プロットする分位数を計算または推定することである。Q-Qプロットの軸の一方または両方が、連続累積分布関数（CDF）を伴う理論的分布に基づく場合、すべての分位点は一意に定義され、CDFを反転する（逆関数を求める）ことで得られる。比較される2つの分布のうちの1つが、不連続なCDFを伴う理論的確率分布である場合、分位数が定義されない場合もあるため、補間された分位数をプロットするなどで対応する。Q-Qプロットがデータに基づいている場合、複数の分位点推定量が使用される。分位数を推定または補間しなければならない場合、Q-Qプロットの作成規則はプロット位置（英: plot positions）と呼ばれる。

もっとも単純なケースは、まったく同じ大きさの2つのデータ集合の比較である。この場合、Q-Qプロットを作成するために、それぞれの集合のデータを昇順に並べ、対応する値を対にしてプロットする。異なる大きさの2つのデータ集合を比較する場合はより複雑となる。この場合のQ-Qプロットを作成するには、同じ潜在的な確率に対応する分位数を作成できるよう、補間された分位数推定値を使用する必要がある。

より抽象的に言えば [4]、関連する分位関数 F?1 と G?1 （CDFの逆関数が分位関数である）を有する2つの累積確率分布関数 F と G が与えられると、Q-Qプロットは、q の値の範囲について、F の q 番目の分位数に対する G の q 番目の分位数をプロットする。したがって、Q-Qプロットは、[0, 1] 上に実平面 R2 の値でインデックス付けされたパラメトリック曲線である。
解釈

Q-Qプロットにプロットされた点は、左から右に見たとき常に非減少（単調増加）となる。比較される2つの分布が同一である場合、Q-Qプロットは45°の直線 y = x に従う。一方の分布の値の線形変換後に2つの分布が一致する場合、Q-Qプロットは何らかの直線をたどるが、必ずしも直線 y = x とは限らない。Q-Qプロットの傾きが直線 y = x よりも緩やかであれば、横軸にプロットされた分布は、縦軸にプロットされた分布よりも分散が大きい。逆に、Q-Qプロットの傾きが直線 y = x よりも急であれば、縦軸にプロットされた分布は、横軸にプロットされた分布よりも分散が大きいことになる。Q-Qプロットはしばしば湾曲あるいはS字形状であり、それぞれ、一方の分布が他方よりも歪んでいる、あるいは裾の重い分布であることを示す。

Q-Qプロットは分位数に基づく手法であるが、標準的なQ-Qプロットでは、Q-Qプロットのどの点が特定の分位数であるかを決定することはできない。たとえば、Q-Qプロットを調べて、比較されている2つの分布の一方の中央値を決定することはできない。いくつかのQ-Qプロットでは、このような決定を可能にするために十分位数を示している。

分位数間の線形回帰の切片と傾きは、標本の相対位置と相対スケールの尺度を与える。横軸にプロットされた分布の中央値が 0 である場合、回帰直線の切片は位置の尺度に対応し、傾きはスケールの尺度に対応する。中央値間の距離は、Q-Qプロットに反映される相対的位置のもう1つの尺度である。確率プロット相関係数（英: probability plot correlation coefficient, PPCC plot）は、対をなす標本の分位数間の相関係数である。相関係数が1に近づくほど、分布はシフトし、互いに線形変換された分布に近づく。単一の形状パラメータを有する分布の場合、確率プロット相関係数プロットは、形状パラメータを推定する方法となる。形状パラメータのさまざまな値に対する相関係数を単純に計算し、異なる種類の分布を比較する場合と同様に、最も適合するものを使用する。Q-Qプロットのもう1つの一般的な用途は、正規確率プロットのように、標本の分布を標準正規分布 N(0,1) のような理論的分布と比較することである。2組の標本データを比較する場合と同様、データを順序付けし（形式的には順序統計量を計算する）、それらを理論的分布の特定の分位数に対してプロットする [3]。
プロット位置

理論的分布からの分位数の選択は、状況や目的に依存しうる。大きさ n の標本が与えられたとき、サンプリング分布が実現する分位数であるため、k = 1, …, n に対して k / n を用いる。最後の n / n は、100パーセンタイル（理論的分布の最大値）に対応し、これは無限大になりうる。他にも、(k ? 0.5) / n を使用したり、あるいは k / (n + 1) を用いて、すべての点の間、および最も外側の2点と [0, 1] 区間の端の間の距離が等しくなるように n 点を配置する手法がある [6]。

この他にも、理論的もしくは経験的文脈を伴うシミュレーションに基づく形式的あるいは発見的なものなど、多くの手法が提案されている。以下でこれらについて説明する。より詳しい問題に、ドイツ戦車問題（英語版）として知られる最大値の選択（母集団の最大値の推定）があり、これには「標本の最大値にギャップを加えた」のような解が存在し、最も単純には m + m/n − 1 となる。この間隔一様化へのより形式的な応用はパラメータの最大間隔推定（英語版）である。
一様分布の順序統計量の期待値

k / (n + 1) を用いる手法は、(n + 1) 個の無作為に抽出した値の最後の値が、最初の n 個の無作為に抽出した値の k 番目に小さな値を超えない確率に従って点をプロットすることと等価である [7][8]。
標準正規分布の順序統計量の期待値

正規確率プロット（英語版）を使用する場合、使用される分位数は、標準正規分布の順序統計量の期待値の分位数であるランキット（rankits）である。

より一般的には、シャピロ?ウィルク検定では、与えられた分布の順序統計量の期待値を用いる。得られたプロットと回帰直線は、（近似直線の切片と傾きから）位置とスケールに関する一般化最小二乗（英語版）推定値を与える [9]。これは正規分布ではあまり重要ではないが（位置とスケールはそれぞれ平均と標準偏差によって推定されるため）、他の多くの分布では有用となる。

しかし、これには順序統計量の期待値を計算する必要があり、分布が正規分布でない場合には困難な場合がある。
順序統計量の中央値

その代わりに、順序統計量の中央値の推定値を使うこともでき、これは一様分布の順序統計量の中央値の推定値と、その分布の分位関数に基づいて計算される。この手法は、Filliben (1975)によって提案された [9]。

Size:52 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef