相関 - 暇つぶしWikipedia

相関

□記事を途中から表示しています
[最初から表示]

例えば、スケール変換済みの相関 (scaled correlation) は時系列のうち短い期間での相関関係を拾い出す目的でその範囲への感度を調整するように工夫されたものである [18]。規定された方法で値の範囲を縮めることにより、長期間スケールの相関が除外され、短期間スケールの相関のみが明らかとなる。
相関行列[ソースを編集]

n {\displaystyle n} の相関行列の確率変数 X 1 , … , X n {\displaystyle X_{1},\ldots ,X_{n}} は n × n {\displaystyle n\times n} の行列で、その成分 ( i , j ) {\displaystyle (i,j)} は corr ⁡ ( X i , X j ) {\displaystyle \operatorname {corr} (X_{i},X_{j})} である。したがって、対角成分はすべて等しく1である。使用される相関の尺度が積率相関係数である場合、相関行列は標準化された確率変数 X i / σ ( X i ) {\displaystyle X_{i}/\sigma (X_{i})} for i = 1 , … , n {\displaystyle i=1,\dots ,n} の共分散行列と同一である。これは母集団相関行列（その場合 σ {\displaystyle \sigma } は母集団標準偏差）と標本相関行列（この場合 σ {\displaystyle \sigma } は標本標準偏差を示す）の両方に当てはまる。したがって、各々が半正定値行列である必要性がある。さらに、他の値の線形関数として全ての値を生み出せる変数がない場合、相関行列は厳密に正定値である。

X i {\displaystyle X_{i}} と X j {\displaystyle X_{j}} とが相関関係であり、 X j {\displaystyle X_{j}} と X i {\displaystyle X_{i}} との相関も同じであるため、相関行列は対称である。

相関行列は、例えば重相関係数の場合1つの式の中に現れ、重回帰における適合度の尺度として表示される。

統計モデル構築において、変数間の関係を表す相関行列は異なる相関構造に分類され、推定に必要なパラメータの数などの要因によって区別される。例えば、確率変数が交換可能 (Exchangeable random variables) な相関行列では、変数同士のあらゆるペアが同じ相関を持つものとしてモデル構築されるため、行列の対角以外の成分は全て互いに等しくなる。一方、尺度は時間的に密接している場合に相関が大きくなりがちなので、変数が時系列を表す場合はしばしば自己回帰行列が使用される。

探索的データ解析の相関図 (Iconography of correlations) は相関行列を置き換えたダイアグラムで出来ており、そこでは「顕著な」相関が実線（正の相関）または点線（負の相関）で表されている。
最近傍相関行列[ソースを編集]

一部の応用(例えば、部分的に観測されたデータだけでデータモデルを構築する)において、相関を近似的に表す行列からそれに最も近い相関行列（例えば、計算方法が原因で通常は半正値の条件を満たさない行列）を見つけたい人もいる [19]。

2002年、ニコラス・ハイアム [20] はフロベニウス標準形を用いて近傍(nearness)の概念を形式化し、ダイクストラ法を用いて最近傍相関行列を計算する方法を提示した [21]。

これが主題への関心を巻き起こし、その後数年間で新たな理論的成果（例えば、因子構造を用いた近傍行列の算出 [22]）や数理上の成果（例えば、最近傍相関行列を算出するためにニュートン法を用いる [23]）が得られた。
確率過程の無相関と独立[ソースを編集]

2つの確率過程 { X t } t ∈ T {\displaystyle \left\{X_{t}\right\}_{t\in {\mathcal {T}}}} と { Y t } t ∈ T {\displaystyle \left\{Y_{t}\right\}_{t\in {\mathcal {T}}}} についても同様である。仮に両者が独立しているのなら、無相関である [24]:p. 151。この命題の逆が真とは限らない。2変数が無相関だとしても、互いに独立していない場合がある。
よくある誤解[ソースを編集]
相関と因果[ソースを編集]詳細は「相関関係と因果関係」を参照「多変量正規分布#相関と独立性」も参照

「相関関係は因果関係を含意しない」という慣例的な語句は、相関関係がそれ自体から変数同士の因果関係を推測するのには使えないという意味である [25]。この語句を、相関関係が因果関係の可能性を示すことができないという意味で捉えてはならない。しかし、相関関係の根底にある原因は間接的であったり未知な可能性もあり、高い相関は因果関係が存在しない等号関係（トートロジー）とも重複しうる。それゆえ、2変数間の相関関係は因果関係を（どちら向きにも）確立するだけの十分条件とはならない。

子供の年齢と身長との相関関係はだいぶ因果関係が透明であるが、ヒトの気分と健康との相関関係はそこまでとはいえない。慣用句で「病は気から」とあるが、病気に罹る・罹らないは我々の気分次第なのか？健やかな気分は健康をもたらすのか？健康は健やかな気分をもたらすのか？何か別の要因が両者の根底にあるのではないか？[注釈 4]。相関関係を因果関係の証拠として採用することは可能だが、どんな相関関係があったとしても因果関係が何であるかを示すことはできない。
単純な線形相関[ソースを編集]4つのデータ群は、いずれも相関係数が同じ0.816である。

ピアソン相関係数は2変数間の線形関係の強さを示すが、一般にその値は両者の関係を完全に特徴付けるものではない [27]。特に、 Y {\displaystyle Y} の条件付期待値を X {\displaystyle X} と置いた場合、示された E ⁡ ( Y ∣ X ) {\displaystyle \operatorname {E} (Y\mid X)} が X {\displaystyle X} 内の線形ではないため、相関係数が完全には E ⁡ ( Y ∣ X ) {\displaystyle \operatorname {E} (Y\mid X)} の形に定まらない。

右の図はフランシス・アンスコムによる同一変数の散布図4組 (Anscombe's quartet) を示している [28]。各 y {\displaystyle y} 変数はどれも同じ平均(7.5)、分散(4.12)、相関(0.816)および回帰直線(y = 3 + 0.5x)を有する。しかし、散布図で見られるようにその変数分布は大きく異なる。

左上は正常分布しているように見え、相関があって正規性の仮定に従う2変数を考えた場合に期待される事象に対応しているように思える。右上は正常分布とは異なるもので、2変数間の明らかな関係性は観察できるが線形ではない。この場合、ピアソン相関係数は厳密な関数的関係の存在を示すことはできず、その関係を線形関係で近似したものを示すに過ぎなくなる。左下では、相関係数を1から0.816に下げてしまうのに十分な影響を及ぼす外れ値1つを除けば、線形関係は完全である。最後の右下は、2変数間の関係が線形でないにもかかわらず、1つの外れ値が高い相関係数を生成するのに十分な例を示したものである。

これらの例は、相関係数が要約統計量 (Summary statistics) としてデータ可視化による検討の代替にならないことを示すものである。これらの例は、ピアソン相関がデータが正規分布に従うことを前提にしていることを示すものと言わたりもするが、これは部分的に正しいに過ぎない [6]。ピアソン相関は、実際に遭遇したほとんどの分布を含む有限共分散行列を持つ分布について正確に計算することができる。ただし、ピアソン相関係数（サンプル平均値および分散値と一緒に取得）は多変量正規分布からデータが引き出された場合に十分統計量となるに過ぎないのである。その結果、ピアソン相関係数は多変量正規分布からデータが引き出された場合にのみ、変数間の関係を完全に特徴付けることになる。
2変量正規分布[ソースを編集]詳細は「多変量正規分布」を参照

2つの確率変数 ( X , Y ) {\displaystyle (X,Y)} が2変量正規分布に従う場合、条件付き平均 E ⁡ ( X ∣ Y ) {\displaystyle \operatorname {E} (X\mid Y)} は Y {\displaystyle Y} ,の線形関数である。 X {\displaystyle X} と Y {\displaystyle Y} 間の相関係数 ρ X , Y {\displaystyle \rho _{X,Y}} は、周辺平均および X {\displaystyle X} と Y {\displaystyle Y} の分散とともに、この線形関係を決定している。 E ⁡ ( Y ∣ X ) = E ⁡ ( Y ) + ρ X , Y ⋅ σ Y X − E ⁡ ( X ) σ X , {\displaystyle \operatorname {E} (Y\mid X)=\operatorname {E} (Y)+\rho _{X,Y}\cdot \sigma _{Y}{\frac {X-\operatorname {E} (X)}{\sigma _{X}}},}

ここで E ⁡ ( X ) {\displaystyle \operatorname {E} (X)} と E ⁡ ( Y ) {\displaystyle \operatorname {E} (Y)} はそれぞれ X {\displaystyle X} と Y {\displaystyle Y} の期待値で、 σ X {\displaystyle \sigma _{X}} と σ Y {\displaystyle \sigma _{Y}} はそれぞれ X {\displaystyle X} と Y {\displaystyle Y} の標準偏差である。

Size:82 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef