相関
[Wikipedia|▼Menu]
□記事を途中から表示しています
[最初から表示]

これが主題への関心を巻き起こし、その後数年間で新たな理論的成果(例えば、因子構造を用いた近傍行列の算出[22])や数理上の成果(例えば、最近傍相関行列を算出するためにニュートン法を用いる[23])が得られた。
確率過程の無相関と独立

2つの確率過程 { X t } t ∈ T {\displaystyle \left\{X_{t}\right\}_{t\in {\mathcal {T}}}} と { Y t } t ∈ T {\displaystyle \left\{Y_{t}\right\}_{t\in {\mathcal {T}}}} についても同様である。仮に両者が独立しているのなら、無相関である[24]:p. 151。この命題のが真とは限らない。2変数が無相関だとしても、互いに独立していない場合がある。
よくある誤解
相関と因果詳細は「相関関係と因果関係」を参照「多変量正規分布#相関と独立性」も参照

「相関関係は因果関係を含意しない」という慣例的な語句は、相関関係がそれ自体から変数同士の因果関係を推測するのには使えないという意味である[25]。この語句を、相関関係が因果関係の可能性を示すことができないという意味で捉えてはならない。しかし、相関関係の根底にある原因は間接的であったり未知な可能性もあり、高い相関は因果関係が存在しない等号関係(トートロジー)とも重複しうる。それゆえ、2変数間の相関関係は因果関係を(どちら向きにも)確立するだけの十分条件とはならない。

子供の年齢と身長との相関関係はだいぶ因果関係が透明であるが、ヒトの気分と健康との相関関係はそこまでとはいえない。慣用句で「病は気から」とあるが、病気に罹る・罹らないは我々の気分次第なのか? 健やかな気分は健康をもたらすのか? 健康は健やかな気分をもたらすのか? 何か別の要因が両者の根底にあるのではないか?[注釈 4]。 相関関係を因果関係の証拠として採用することは可能だが、どんな相関関係があったとしても因果関係が何であるかを示すことはできない。
単純な線形相関4つのデータ群は、いずれも相関係数が同じ0.816である。

ピアソン相関係数は2変数間の線形関係の強さを示すが、一般にその値は両者の関係を完全に特徴付けるものではない[27]。特に、 Y {\displaystyle Y} の条件付期待値を X {\displaystyle X} と置いた場合、示された E ⁡ ( Y ∣ X ) {\displaystyle \operatorname {E} (Y\mid X)} が X {\displaystyle X} 内の線形ではないため、相関係数が完全には E ⁡ ( Y ∣ X ) {\displaystyle \operatorname {E} (Y\mid X)} の形に定まらない。

右の図はフランシス・アンスコムによる同一変数の散布図4組 (Anscombe's quartet) を示している[28]。各 y {\displaystyle y} 変数はどれも同じ平均(7.5)、分散(4.12)、相関(0.816)および回帰直線(y = 3 + 0.5x)を有する。しかし、散布図で見られるようにその変数分布は大きく異なる。

左上は正常分布しているように見え、相関があって正規性の仮定に従う2変数を考えた場合に期待される事象に対応しているように思える。右上 は正常分布とは異なるもので、2変数間の明らかな関係性は観察できるが線形ではない。この場合、ピアソン相関係数は厳密な関数的関係の存在を示すことはできず、その関係を線形関係で近似したものを示すに過ぎなくなる。左下では、相関係数を1から0.816に下げてしまうのに十分な影響を及ぼす外れ値1つを除けば、線形関係は完全である。最後の右下は、2変数間の関係が線形でないにもかかわらず、1つの外れ値が高い相関係数を生成するのに十分な例を示したものである。

これらの例は、相関係数が要約統計量 (Summary statistics) としてデータ可視化による検討の代替にならないことを示すものである。これらの例は、ピアソン相関がデータが正規分布に従うことを前提にしていることを示すものと言わたりもするが、これは部分的に正しいに過ぎない[6]。ピアソン相関は、実際に遭遇したほとんどの分布を含む有限共分散行列を持つ分布について正確に計算することができる。ただし、ピアソン相関係数(サンプル平均値および分散値と一緒に取得)は多変量正規分布からデータが引き出された場合に十分統計量となるに過ぎないのである。その結果、ピアソン相関係数は多変量正規分布からデータが引き出された場合にのみ、変数間の関係を完全に特徴付けることになる。
2変量正規分布詳細は「多変量正規分布」を参照

2つの確率変数 ( X , Y ) {\displaystyle (X,Y)} が2変量正規分布に従う場合、条件付き平均 E ⁡ ( X ∣ Y ) {\displaystyle \operatorname {E} (X\mid Y)} は Y {\displaystyle Y} ,の線形関数である。 X {\displaystyle X} と Y {\displaystyle Y} 間の相関係数 ρ X , Y {\displaystyle \rho _{X,Y}} は、周辺平均および X {\displaystyle X} と Y {\displaystyle Y} の分散とともに、この線形関係を決定している。 E ⁡ ( Y ∣ X ) = E ⁡ ( Y ) + ρ X , Y ⋅ σ Y X − E ⁡ ( X ) σ X , {\displaystyle \operatorname {E} (Y\mid X)=\operatorname {E} (Y)+\rho _{X,Y}\cdot \sigma _{Y}{\frac {X-\operatorname {E} (X)}{\sigma _{X}}},}

ここで E ⁡ ( X ) {\displaystyle \operatorname {E} (X)} と E ⁡ ( Y ) {\displaystyle \operatorname {E} (Y)} はそれぞれ X {\displaystyle X} と Y {\displaystyle Y} の期待値で、 σ X {\displaystyle \sigma _{X}} と σ Y {\displaystyle \sigma _{Y}} はそれぞれ X {\displaystyle X} と Y {\displaystyle Y} の標準偏差である。

経験的相関 r {\displaystyle r} は、相関係数 ρ {\displaystyle \rho } の推定量である。 ρ {\displaystyle \rho } の分布推定量は、以下の式にて求められる。 π ( ρ 。 r ) = Γ ( ν + 1 ) 2 π Γ ( ν + 1 2 ) ( 1 − r 2 ) ν − 1 2 ⋅ ( 1 − ρ 2 ) ν − 2 2 ⋅ ( 1 − r ρ ) 1 − 2 ν 2 F ( 3 2 , − 1 2 ; ν + 1 2 ; 1 + r ρ 2 ) {\displaystyle \pi (\rho |r)={\frac {\Gamma (\nu +1)}{{\sqrt {2\pi }}\Gamma (\nu +{\frac {1}{2}})}}(1-r^{2})^{\frac {\nu -1}{2}}\cdot (1-\rho ^{2})^{\frac {\nu -2}{2}}\cdot (1-r\rho )^{\frac {1-2\nu }{2}}F\!\left({\frac {3}{2}},-{\frac {1}{2}};\nu +{\frac {1}{2}};{\frac {1+r\rho }{2}}\right)}

ここで F {\displaystyle F} はガウスの超幾何関数であり ν = N − 1 > 1 {\displaystyle \nu =N-1>1} となる。この密度がベイズの事後密度であり、正確な最適信頼分布密度でもある[29][30]
標準誤差

x {\displaystyle x} と y {\displaystyle y} が確率変数の場合、標準誤差は次の相関と関連性がある。 S E r = 1 − r 2 ( n − 2 ) {\displaystyle SE_{r}={\frac {1-r^{2}}{\sqrt {(n-2)}}}}

ここで r {\displaystyle r} は相関、 n {\displaystyle n} は標本数である[31][32]
関連項目

自己相関

カノニカル相関

決定係数

共和分

相関関数

相関係数


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:82 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef