相関
[Wikipedia|▼Menu]
相関の主な四類型。@は無相関。Aは非線形相関。Bは正の線形相関。Cは負の線形相関。

相関(そうかん 英:correlation)とは、一方が変化すれば他方も変化するように相互に関係しあうことである。数学や物理学では、二つの変量や現象がある程度相互に規則的に関係を保って変化することをいう[1]因果性の有無は問わない。広義には、統計的に何らかの関連性があることを言うが、実際には二変数における線形性相関の程度を指す。例えば「親の身長が高いほうが子供の身長も高い」「勉強時間が長いほうがテストの成績も上がる」などの傾向が身近な相関現象である[2]

相関は、実践で活用できる予測的な関係性を示してくれるため実用性がある。例えば、電気事業者は電力需要と天候との相関関係に基づいて、過ごしやすい気温の日には電力を少なめに発電したりもする。この例では、猛暑や厳寒といった極端な天候は人々が大量に電気を使う原因となるため、因果関係にあたる。ただし一般には、相関があっても因果関係があるとは言い切れない(すなわち相関関係は因果関係を含意しない)。

本質的に相関とは、2つ以上の変数が互いにどの程度関わり合っているかの尺度である。幾種類かの相関係数があり、多くの場合 ρ {\displaystyle \rho } または r {\displaystyle r} で表記される。統計学では、主に二変数の線形性相関に着目して関係性の強弱を係数で表しており、その最も一般的な尺度がピアソンの積率相関係数である(より堅牢なスピアマンの順位相関係数などは非線形相関にも対応する)[3][4][5]
ピアソンの積率相関係数様々な相関係数を持つデータ群の散布図。詳細は「ピアソンの積率相関係数」を参照

カール・ピアソンが考案した積率相関係数は[6]、2変数間の相関を示す尺度として最もよく知られており、単に「相関係数」と言えば通常は「ピアソンの積率相関係数」を指す。数学的には、2変数の共分散標準偏差の積で除算するだけで得られる。

ピアソンの相関係数は、実際のデータ群が期待値からどの程度外れているかを示すもので、-1から+1までの値で表される。データ群の変数間に何らかの線形的な関係性があれば、数値に正または負の符号がつき[注釈 1]、無相関であれば値は0になる。

2つの確率変数を X {\displaystyle X} と Y {\displaystyle Y} 、各々の期待値を μ X {\displaystyle \mu _{X}} と μ Y {\displaystyle \mu _{Y}} 、そして標準偏差を σ X {\displaystyle \sigma _{X}} と σ Y {\displaystyle \sigma _{Y}} とすると、母集団の相関係数 ρ X , Y {\displaystyle \rho _{X,Y}} は次のように定義される。

ρ X , Y = corr ⁡ ( X , Y ) = cov ⁡ ( X , Y ) σ X σ Y = E ⁡ [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}=\operatorname {corr} (X,Y)={\operatorname {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}}

ここでの E {\displaystyle \operatorname {E} } は期待値の作用素、 cov {\displaystyle \operatorname {cov} } は共分散を意味し、 corr {\displaystyle \operatorname {corr} } は相関係数の代替表記として広く使われている。ピアソン相関は、両方の標準偏差が有限かつ正の値である場合にのみ定義される。積率の観点から、次の式に書き改めたりもする。

ρ X , Y = E ⁡ ( X Y ) − E ⁡ ( X ) E ⁡ ( Y ) E ⁡ ( X 2 ) − E ⁡ ( X ) 2 ⋅ E ⁡ ( Y 2 ) − E ⁡ ( Y ) 2 {\displaystyle \rho _{X,Y}={\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y) \over {\sqrt {\operatorname {E} (X^{2})-\operatorname {E} (X)^{2}}}\cdot {\sqrt {\operatorname {E} (Y^{2})-\operatorname {E} (Y)^{2}}}}}

対称性

この相関係数は対称性があり、 corr ⁡ ( X , Y ) = corr ⁡ ( Y , X ) {\displaystyle \operatorname {corr} (X,Y)=\operatorname {corr} (Y,X)} である。これは乗算の可換性によって証明される。
積のような相関

確率変数 X {\displaystyle X} と Y {\displaystyle Y} の標準偏差を σ X > 0 {\displaystyle \sigma _{X}>0} と σ Y > 0 {\displaystyle \sigma _{Y}>0} とすると、次のことが言える。

corr ⁡ ( X , Y ) = corr ⁡ ( X , E ⁡ ( X ∣ Y ) ) corr ⁡ ( E ⁡ ( X ∣ Y ) , Y ) {\displaystyle \operatorname {corr} (X,Y)=\operatorname {corr} (X,\operatorname {E} (X\mid Y))\operatorname {corr} (\operatorname {E} (X\mid Y),Y)}

相関と独立

ピアソン相関係数の値は-1から+1の範囲をとり、完全な正の線形相関にあれば+1、完全な負の相関関係にあれば-1になる。それ以外の場合は-1から+1の範囲内にある何らかの値をとり、変数間における相関の強弱度合いを表す。値がゼロに近いほど関係性が乏しい(無相関に近い)ことになり、-1や+1に近いほど強い相関があることになる[8]

変数同士が独立 (確率論)である場合[注釈 2]ピアソン相関係数は0となる。ただしピアソン相関係数は2変数間の線形相関のみを検出するため、このが真とは限らない。

X , Y  が 独 立 ⇒ ρ X , Y = 0 ( X , Y  が 無 相 関  ) ρ X , Y = 0 ( X , Y  が 無 相 関  ) ⇏ X , Y  が 独 立 {\displaystyle {\begin{aligned}X,Y{\text{ が 独 立}}\quad &\Rightarrow \quad \rho _{X,Y}=0\quad (X,Y{\text{ が 無 相 関 }})\\\rho _{X,Y}=0\quad (X,Y{\text{ が 無 相 関 }})\quad &\nRightarrow \quad X,Y{\text{ が 独 立}}\end{aligned}}}

例えば、確率変数 X {\displaystyle X} が対称分布で Y = X 2 {\displaystyle Y=X^{2}} だとする。その場合 Y {\displaystyle Y} は完全に X {\displaystyle X} によって決定されるため X {\displaystyle X} と Y {\displaystyle Y} は完全に従属だが、線形相関のみを検知するピアソン相関係数では0となる。同様に、ピアソン相関係数が+1や-1に近い値を示したからといって、必ずしも2変量に関係性があるとは限らない。偶然にも相関があるかのような+1や-1に近い係数になることがあり、これは疑似相関(見せかけの相関)と呼ばれる[8]。なお、 X {\displaystyle X} と Y {\displaystyle Y} が正規分布という特殊なケースだと、無相関は独立と同義である。

無相関のデータが必ずしも独立を含むとは限らないが、相互情報量が0であれば確率変数が独立しているかどうかを確認可能である。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:82 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef