分散分析 - 暇つぶしWikipedia

分散分析

分散分析（ぶんさんぶんせき、英: analysis of variance、略称: ANOVA）は、観測データにおける変動を誤差変動と各要因およびそれらの交互作用による変動に分解することによって、要因および交互作用の効果を判定する、統計的仮説検定の一手法である。

分散分析の最も単純な形は，2つ以上の標本の母集団が等しいかどうかを判断するt-検定であり、分散分析ではこれを一般化したものである。

統計学者で遺伝学者のロナルド・フィッシャーによって1920年代から1930年代にかけて基本手法が確立された。そのため「フィッシャーの分散分析」「フィッシャーのANOVA法」とも呼ばれる。

基本的な手法として、まず、データの分散成分の平方和を分解し、誤差による変動から要因効果による変動を分離する。次に、平方和を自由度で割ることで平均平方を算出する。そして、要因効果（または、交互作用）によって説明される平均平方を分子、誤差によって説明される平均平方を分母とすることでF値を計算する（F検定）。各効果の有意性については有意水準を設けて判定する。

交互作用の性質を詳しく調べるには、単純主効果の検定や交互作用対比を行うとよい。また、3つ以上の水準を持つ要因の効果が有意であったとき、具体的にどの群とどの群の間に差があったかを知るためには、多重比較を行う必要がある。したがって、分析の目的によっては、分散分析のみから結論が導かれるものではなく、これらの手法と組み合わせて用いることが肝要である。

分散分析には各種のモデルがあり、データの性質や要因計画の型、検証したい仮説に応じてそれらを使い分けることが適切な利用法である（一元配置分散分析・回帰分散分析・共分散分析など）。現在では、分散分析は一般線形モデル、構造方程式モデリングの一部として扱えることが判明しており、さらなる拡張も可能である（潜在変数に対する分散分析など）。

分散方法は、実験データの分析やモデルの開発によく用いられる。相関関係と比べると、数値変数でない変数を扱えるなどの利点がある。
基本概念と用語

分散分析は，実験データの解析に多用される統計的仮説検定の一形態である。帰無仮説が正しいと仮定して、帰無仮説と標本から計算された検定結果が、偶然に発生した可能性が低いと判断される場合、”統計的に有意”と呼ばれる。帰無仮説の発生確率が低い場合、確率(P値)が事前に指定されたしきい値(有意水準)よりも小さい場合、統計的に有意な結果によって帰無仮説は棄却される。

分散分析の典型的な使い方は、「すべてのグループが同じ母集団からのランダムなサンプルである」という帰無仮説である。たとえば，患者の類似したサンプルに対する異なる治療法の効果を研究するとき，帰無仮説を「すべての治療法が同じ効果を持つ（何も起こらないという結果になる）」とする。帰無仮説を棄却されると、「治療グループ間で観察された効果の違いが、無作為な偶然によるものである可能性が低い（＝効果の違いは治療に原因がある）」ことを意味する。

仮説検定では、第一種の過誤（偽陽性）の発生率を有意水準に制限する。実験者は，第二種の過誤（偽陰性）も制限したいと考える。第二種の過誤の発生率は、サンプルサイズ、有意水準、効果量に大きく依存する。（サンプルが小さいほど発生率は大きくなる。有意水準が高いと、差異を見落とす可能性も高くなる。効果量が小さいほど第2種エラーが発生しやすくなる。）

分散分析の用語は、多くが実験計画法に由来する。実験者は、効果を決定するために、要因を調整し反応を測定する。結果の妥当性を保証するために，ランダム化とブロッキングの組み合わせによって因子は実験ユニットに割り当てられる。また実験対象によっては盲検化を行い、結果の公平性を確保する。応答は、効果による偏りとランダムなエラーの複合で変動する。

分散分析は、いくつかのアイデアの合成であり、多くの目的に使用され，簡潔または正確に定義することは困難である。

バランスのとれたデータのための "古典的 "分散分析は、次の3つを同時に行う。

1.探索的データ分析として、分散分析は加法的データ分解を採用し、その二乗和は分解の各成分（または同等に、線形モデルの各項のセット）の分散を示す。2.平均二乗の比較とF検定により、モデルの入れ子構造を検証することができる。3.係数推定値と標準誤差を伴う線形モデルのフィッティングに密接に関連する。
分析の例

例としてドッグショーに出品される犬について、その特徴に基づいて犬の体重を予測することを考える。ドッグショーとは純血犬種の品評会であり、その犬種の基本的な犬種標準（スタンダード）に最も近いことを競うものである。

ドッグショーに出品される全部の犬の体重のヒストグラムは、かなり複雑なものになる。犬を特徴に基づきグループ分けすることで、体重の分布を予測する。グループ分けが上手くいったときには（a）各グループの分散が小さく（グループが比較的均質さを意味する）、（b）各グループの平均値が異なる（2つのグループの平均値が同じであればグループ分けが意味をなしていない）。

・若い犬と年老いた犬、短毛の犬と長毛の犬という2つの2値グループの積（相互作用）によって犬をグループ化することを考える。⇒　あまり予測として役に立たなさそう。このとき各グループ内の犬の体重分布は比較的大きな分散を持ち、平均値はグループ間で非常によく似ている。これらの特徴で犬をグループ化しても、犬の体重の変動を説明する効果的な方法にはならない。

・体重分布をペット犬と作業犬、運動量の少ない犬と多い犬でグループ化することを考える。⇒　ある程度うまくいきそう。最も重い犬達は、大きくて強い作業犬種である可能性が高く、ペットとして飼われている犬種は小さくて軽い傾向がある。分散は1つ目のケースよりもかなり小さく、グループ間での平均値の差もよりはっきりする。しかし分布の重なりは依然大きく、予測の精度はまだ低い。

・体重を犬種でグループ化することを考える。⇒非常によく予測が当てはまりそう。チワワはみんな軽く、セントバーナードは総じて重い。セッターとイングリッシュ・ポインターで体重の違うと言っても、直感的な説明では説得力に欠くとき、分散分析を用いることで論理的に違うことを説明できる。
ソフトウェア

SASやSPSSといった主要な統計パッケージで、分散分析も実行可能である。R言語にも、分散分析に関わる関数がある。また、分散分析やそれに伴う多重比較に特化したソフトウェアもあり、多くはフリーソフトである。
js-STAR [1]
田中敏（信州大学教授）作成による"STAR"をJavaScriptに移植したもの。3要因までの分散分析、単純主効果の検定および多重比較（LSD法、HSD法、Bonferroni法、Holm法）が一度にできる。また、その他にχ2検定や相関係数なども扱うことができる。ウェブ上でそのまま使うことができ、ダウンロードすることもできる。インターフェイスがシンプルで、使い方も分かりやすい。仕様の理論的背景は、田中敏・山際勇一郎による『ユーザーのための教育・心理統計と実験計画法?方法の理解から論文の書き方まで?』（教育出版、1992年、新訂版）に基づくと思われる[誰?]。『実践データ心理解析?問題の発想・データ処理・論文の作成?』（新曜社、2006年、改訂版）には、js-STARの使用法、分散分析表の読み取り方、論文への記述の仕方などが詳しく解説されている。
ANOVA4 on the Web [2]
桐木建始（広島女学院大学教授）が作成。4要因までの分散分析および多重比較（Ryan法）が一度に可能。ブラウザ上でそのまま動作し、インストール不要。

Size:32 KB
出典: フリー百科事典『ウィキペディア（Wikipedia）』
担当:undef