相関
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

カール・ピアソンが考案した積率相関係数は[6]、2変数間の相関を示す尺度として最もよく知られており、単に「相関係数」と言えば通常は「ピアソンの積率相関係数」を指す。数学的には、2変数の共分散標準偏差の積で除算するだけで得られる。

ピアソンの相関係数は、実際のデータ群が期待値からどの程度外れているかを示すもので、-1から+1までの値で表される。データ群の変数間に何らかの線形的な関係性があれば、数値に正または負の符号がつき[注釈 1]、無相関であれば値は0になる。

2つの確率変数を X {\displaystyle X} と Y {\displaystyle Y} 、各々の期待値を μ X {\displaystyle \mu _{X}} と μ Y {\displaystyle \mu _{Y}} 、そして標準偏差を σ X {\displaystyle \sigma _{X}} と σ Y {\displaystyle \sigma _{Y}} とすると、母集団の相関係数 ρ X , Y {\displaystyle \rho _{X,Y}} は次のように定義される。

ρ X , Y = corr ⁡ ( X , Y ) = cov ⁡ ( X , Y ) σ X σ Y = E ⁡ [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}=\operatorname {corr} (X,Y)={\operatorname {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}}

ここでの E {\displaystyle \operatorname {E} } は期待値の作用素、 cov {\displaystyle \operatorname {cov} } は共分散を意味し、 corr {\displaystyle \operatorname {corr} } は相関係数の代替表記として広く使われている。ピアソン相関は、両方の標準偏差が有限かつ正の値である場合にのみ定義される。積率の観点から、次の式に書き改めたりもする。

ρ X , Y = E ⁡ ( X Y ) − E ⁡ ( X ) E ⁡ ( Y ) E ⁡ ( X 2 ) − E ⁡ ( X ) 2 ⋅ E ⁡ ( Y 2 ) − E ⁡ ( Y ) 2 {\displaystyle \rho _{X,Y}={\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y) \over {\sqrt {\operatorname {E} (X^{2})-\operatorname {E} (X)^{2}}}\cdot {\sqrt {\operatorname {E} (Y^{2})-\operatorname {E} (Y)^{2}}}}}

対称性

この相関係数は対称性があり、 corr ⁡ ( X , Y ) = corr ⁡ ( Y , X ) {\displaystyle \operatorname {corr} (X,Y)=\operatorname {corr} (Y,X)} である。これは乗算の可換性によって証明される。
積のような相関

確率変数 X {\displaystyle X} と Y {\displaystyle Y} の標準偏差を σ X > 0 {\displaystyle \sigma _{X}>0} と σ Y > 0 {\displaystyle \sigma _{Y}>0} とすると、次のことが言える。

corr ⁡ ( X , Y ) = corr ⁡ ( X , E ⁡ ( X ∣ Y ) ) corr ⁡ ( E ⁡ ( X ∣ Y ) , Y ) {\displaystyle \operatorname {corr} (X,Y)=\operatorname {corr} (X,\operatorname {E} (X\mid Y))\operatorname {corr} (\operatorname {E} (X\mid Y),Y)}

相関と独立

ピアソン相関係数の値は-1から+1の範囲をとり、完全な正の線形相関にあれば+1、完全な負の相関関係にあれば-1になる。それ以外の場合は-1から+1の範囲内にある何らかの値をとり、変数間における相関の強弱度合いを表す。値がゼロに近いほど関係性が乏しい(無相関に近い)ことになり、-1や+1に近いほど強い相関があることになる[8]

変数同士が独立 (確率論)である場合[注釈 2]ピアソン相関係数は0となる。ただしピアソン相関係数は2変数間の線形相関のみを検出するため、このが真とは限らない。

X , Y  が 独 立 ⇒ ρ X , Y = 0 ( X , Y  が 無 相 関  ) ρ X , Y = 0 ( X , Y  が 無 相 関  ) ⇏ X , Y  が 独 立 {\displaystyle {\begin{aligned}X,Y{\text{ が 独 立}}\quad &\Rightarrow \quad \rho _{X,Y}=0\quad (X,Y{\text{ が 無 相 関 }})\\\rho _{X,Y}=0\quad (X,Y{\text{ が 無 相 関 }})\quad &\nRightarrow \quad X,Y{\text{ が 独 立}}\end{aligned}}}

例えば、確率変数 X {\displaystyle X} が対称分布で Y = X 2 {\displaystyle Y=X^{2}} だとする。その場合 Y {\displaystyle Y} は完全に X {\displaystyle X} によって決定されるため X {\displaystyle X} と Y {\displaystyle Y} は完全に従属だが、線形相関のみを検知するピアソン相関係数では0となる。同様に、ピアソン相関係数が+1や-1に近い値を示したからといって、必ずしも2変量に関係性があるとは限らない。偶然にも相関があるかのような+1や-1に近い係数になることがあり、これは疑似相関(見せかけの相関)と呼ばれる[8]。なお、 X {\displaystyle X} と Y {\displaystyle Y} が正規分布という特殊なケースだと、無相関は独立と同義である。

無相関のデータが必ずしも独立を含むとは限らないが、相互情報量が0であれば確率変数が独立しているかどうかを確認可能である。

下のような X {\displaystyle X} と Y {\displaystyle Y} の同時確率分布を考える。

P ⁡ ( X = x , Y = y ) {\displaystyle \operatorname {P} (X=x,Y=y)} y = − 1 {\displaystyle y=-1} y = 0 {\displaystyle y=0} y = 1 {\displaystyle y=1}
x = 0 {\displaystyle x=0} 0 {\displaystyle 0} 1 / 3 {\displaystyle 1/3} 0 {\displaystyle 0}
x = 1 {\displaystyle x=1} 1 / 3 {\displaystyle 1/3} 0 {\displaystyle 0} 1 / 3 {\displaystyle 1/3}

この同時分布の場合、周辺分布は以下のようになる。 P ⁡ ( X = x ) = { 1 / 3 for  x = 0 2 / 3 for  x = 1 {\displaystyle \operatorname {P} (X=x)={\begin{cases}1/3&\quad {\text{for }}x=0\\2/3&\quad {\text{for }}x=1\end{cases}}} P ⁡ ( Y = y ) = { 1 / 3 for  y = − 1 1 / 3 for  y = 0 1 / 3 for  y = 1 {\displaystyle \operatorname {P} (Y=y)={\begin{cases}1/3&\quad {\text{for }}y=-1\\1/3&\quad {\text{for }}y=0\\1/3&\quad {\text{for }}y=1\end{cases}}}


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:82 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef