ピアソン相関係数は2変数間の線形関係の強さを示すが、一般にその値は両者の関係を完全に特徴付けるものではない[27]。特に、 Y {\displaystyle Y} の条件付期待値を X {\displaystyle X} と置いた場合、示された E ( Y ∣ X ) {\displaystyle \operatorname {E} (Y\mid X)} が X {\displaystyle X} 内の線形ではないため、相関係数が完全には E ( Y ∣ X ) {\displaystyle \operatorname {E} (Y\mid X)} の形に定まらない。
右の図はフランシス・アンスコムによる同一変数の散布図4組 (Anscombe's quartet) を示している[28]。各 y {\displaystyle y} 変数はどれも同じ平均(7.5)、分散(4.12)、相関(0.816)および回帰直線(y = 3 + 0.5x)を有する。しかし、散布図で見られるようにその変数分布は大きく異なる。
左上は正常分布しているように見え、相関があって正規性の仮定に従う2変数を考えた場合に期待される事象に対応しているように思える。右上 は正常分布とは異なるもので、2変数間の明らかな関係性は観察できるが線形ではない。この場合、ピアソン相関係数は厳密な関数的関係の存在を示すことはできず、その関係を線形関係で近似したものを示すに過ぎなくなる。左下では、相関係数を1から0.816に下げてしまうのに十分な影響を及ぼす外れ値1つを除けば、線形関係は完全である。最後の右下は、2変数間の関係が線形でないにもかかわらず、1つの外れ値が高い相関係数を生成するのに十分な例を示したものである。
これらの例は、相関係数が要約統計量 (Summary statistics) としてデータ可視化による検討の代替にならないことを示すものである。これらの例は、ピアソン相関がデータが正規分布に従うことを前提にしていることを示すものと言わたりもするが、これは部分的に正しいに過ぎない[6]。ピアソン相関は、実際に遭遇したほとんどの分布を含む有限共分散行列を持つ分布について正確に計算することができる。ただし、ピアソン相関係数(サンプル平均値および分散値と一緒に取得)は多変量正規分布からデータが引き出された場合に十分統計量となるに過ぎないのである。その結果、ピアソン相関係数は多変量正規分布からデータが引き出された場合にのみ、変数間の関係を完全に特徴付けることになる。
2変量正規分布詳細は「多変量正規分布」を参照
2つの確率変数 ( X , Y ) {\displaystyle (X,Y)} が2変量正規分布に従う場合、条件付き平均 E ( X ∣ Y ) {\displaystyle \operatorname {E} (X\mid Y)} は Y {\displaystyle Y} ,の線形関数である。 X {\displaystyle X} と Y {\displaystyle Y} 間の相関係数 ρ X , Y {\displaystyle \rho _{X,Y}} は、周辺平均および X {\displaystyle X} と Y {\displaystyle Y} の分散とともに、この線形関係を決定している。 E ( Y ∣ X ) = E ( Y ) + ρ X , Y ⋅ σ Y X − E ( X ) σ X , {\displaystyle \operatorname {E} (Y\mid X)=\operatorname {E} (Y)+\rho _{X,Y}\cdot \sigma _{Y}{\frac {X-\operatorname {E} (X)}{\sigma _{X}}},}
ここで E ( X ) {\displaystyle \operatorname {E} (X)} と E ( Y ) {\displaystyle \operatorname {E} (Y)} はそれぞれ X {\displaystyle X} と Y {\displaystyle Y} の期待値で、 σ X {\displaystyle \sigma _{X}} と σ Y {\displaystyle \sigma _{Y}} はそれぞれ X {\displaystyle X} と Y {\displaystyle Y} の標準偏差である。
経験的相関 r {\displaystyle r} は、相関係数 ρ {\displaystyle \rho } の推定量である。 ρ {\displaystyle \rho } の分布推定量は、以下の式にて求められる。 π ( ρ 。 r ) = Γ ( ν + 1 ) 2 π Γ ( ν + 1 2 ) ( 1 − r 2 ) ν − 1 2 ⋅ ( 1 − ρ 2 ) ν − 2 2 ⋅ ( 1 − r ρ ) 1 − 2 ν 2 F ( 3 2 , − 1 2 ; ν + 1 2 ; 1 + r ρ 2 ) {\displaystyle \pi (\rho |r)={\frac {\Gamma (\nu +1)}{{\sqrt {2\pi }}\Gamma (\nu +{\frac {1}{2}})}}(1-r^{2})^{\frac {\nu -1}{2}}\cdot (1-\rho ^{2})^{\frac {\nu -2}{2}}\cdot (1-r\rho )^{\frac {1-2\nu }{2}}F\!\left({\frac {3}{2}},-{\frac {1}{2}};\nu +{\frac {1}{2}};{\frac {1+r\rho }{2}}\right)}
ここで F {\displaystyle F} はガウスの超幾何関数であり ν = N − 1 > 1 {\displaystyle \nu =N-1>1} となる。この密度がベイズの事後密度であり、正確な最適信頼分布密度でもある[29][30]。 x {\displaystyle x} と y {\displaystyle y} が確率変数の場合、標準誤差は次の相関と関連性がある。 S E r = 1 − r 2 ( n − 2 ) {\displaystyle SE_{r}={\frac {1-r^{2}}{\sqrt {(n-2)}}}} ここで r {\displaystyle r} は相関、 n {\displaystyle n} は標本数である[31][32]。
標準誤差
関連項目
自己相関
カノニカル相関
決定係数
共和分
相関関数
相関係数
共分散
相互相関関数
錯誤相関
擬似相関
脚注[脚注の使い方]
注釈^ ピアソン相関係数は線形相関(比例のような関係性)のみに対応しており、正の符号は一方が増加すると他方も増えていく「正の相関」を、負の符号は一方が増加すると他方が減っていく「負の相関」を表す[7]。
^ a b 確率論では、各々の変数が独立していない場合に「従属(dependence)」という用語を使う[9]。この従属は「独立でなく何らかの関係性がある」という意味で、相関と同義である。
^ 選挙で当選した人は〇、落ちた人は×、のように二つの値だけ(通常0か1)を取る特別な変数のこと。計量経済学などでは「ダミー変数」とも呼ばれる[15]。
^ 近年の研究では、大きな精神的ストレスを受けると自律神経のバランスが崩れて免疫力が弱まるため、風邪などの感染症に罹るリスクが高まることが判明している[26]。大きなストレスは気分をかき乱すと共に感染症リスクにも影響を与える、両者に関連した根底の別要因(潜伏変数)だと言える。こうした潜伏要因によって、さも因果関係があるように推測されることを「擬似相関」という。
出典^ コトバンク「相関