相関(そうかん 英:correlation)とは、一方が変化すれば他方も変化するように相互に関係しあうことである。数学や物理学では、二つの変量や現象がある程度相互に規則的に関係を保って変化することをいう[1]。因果性の有無は問わない。広義には、統計的に何らかの関連性があることを言うが、実際には二変数における線形性相関の程度を指す。例えば「親の身長が高いほうが子供の身長も高い」「勉強時間が長いほうがテストの成績も上がる」などの傾向が身近な相関現象である[2]。
相関は、実践で活用できる予測的な関係性を示してくれるため実用性がある。例えば、電気事業者は電力需要と天候との相関関係に基づいて、過ごしやすい気温の日には電力を少なめに発電したりもする。この例では、猛暑や厳寒といった極端な天候は人々が大量に電気を使う原因となるため、因果関係にあたる。ただし一般には、相関があっても因果関係があるとは言い切れない(すなわち相関関係は因果関係を含意しない)。
本質的に相関とは、2つ以上の変数が互いにどの程度関わり合っているかの尺度である。幾種類かの相関係数があり、多くの場合 ρ {\displaystyle \rho } または r {\displaystyle r} で表記される。統計学では、主に二変数の線形性相関に着目して関係性の強弱を係数で表しており、その最も一般的な尺度がピアソンの積率相関係数である(より堅牢なスピアマンの順位相関係数などは非線形相関にも対応する)[3][4][5]。
ピアソンの積率相関係数様々な相関係数を持つデータ群の散布図。詳細は「ピアソンの積率相関係数」を参照
カール・ピアソンが考案した積率相関係数は[6]、2変数間の相関を示す尺度として最もよく知られており、単に「相関係数」と言えば通常は「ピアソンの積率相関係数」を指す。数学的には、2変数の共分散を標準偏差の積で除算するだけで得られる。
ピアソンの相関係数は、実際のデータ群が期待値からどの程度外れているかを示すもので、-1から+1までの値で表される。データ群の変数間に何らかの線形的な関係性があれば、数値に正または負の符号がつき[注釈 1]、無相関であれば値は0になる。
2つの確率変数を X {\displaystyle X} と Y {\displaystyle Y} 、各々の期待値を μ X {\displaystyle \mu _{X}} と μ Y {\displaystyle \mu _{Y}} 、そして標準偏差を σ X {\displaystyle \sigma _{X}} と σ Y {\displaystyle \sigma _{Y}} とすると、母集団の相関係数 ρ X , Y {\displaystyle \rho _{X,Y}} は次のように定義される。
ρ X , Y = corr ( X , Y ) = cov ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}=\operatorname {corr} (X,Y)={\operatorname {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={\operatorname {E} [(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}}
ここでの E {\displaystyle \operatorname {E} } は期待値の作用素、 cov {\displaystyle \operatorname {cov} } は共分散を意味し、 corr {\displaystyle \operatorname {corr} } は相関係数の代替表記として広く使われている。ピアソン相関は、両方の標準偏差が有限かつ正の値である場合にのみ定義される。積率の観点から、次の式に書き改めたりもする。
ρ X , Y = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E ( X ) 2 ⋅ E ( Y 2 ) − E ( Y ) 2 {\displaystyle \rho _{X,Y}={\operatorname {E} (XY)-\operatorname {E} (X)\operatorname {E} (Y) \over {\sqrt {\operatorname {E} (X^{2})-\operatorname {E} (X)^{2}}}\cdot {\sqrt {\operatorname {E} (Y^{2})-\operatorname {E} (Y)^{2}}}}} この相関係数は対称性があり、 corr ( X , Y ) = corr ( Y , X ) {\displaystyle \operatorname {corr} (X,Y)=\operatorname {corr} (Y,X)} である。これは乗算の可換性によって証明される。 確率変数 X {\displaystyle X} と Y {\displaystyle Y} の標準偏差を σ X > 0 {\displaystyle \sigma _{X}>0} と σ Y > 0 {\displaystyle \sigma _{Y}>0} とすると、次のことが言える。
対称性
積のような相関