探索的データ解析
[Wikipedia|▼Menu]

探索的データ解析(たんさくてきデータかいせき、: exploratory data analysis、EDA)とは、データセット解析してその主な特徴を要約する、統計学における手法であり、しばしば統計グラフィックス(英語版)やその他のデータ可視化手法を使用する。統計モデルは使っても使わなくてもよいが、EDAは主に形式的なモデル化を超えてデータが何を語ってくれるかを見るためのもので、それによって従来の仮説検定と対比される。探索的データ解析は、1970年以降、ジョン・テューキーによって推進されており、統計学者に対して、データを探索し新しいデータ収集や実験につながるような仮説を立てることを奨励している。EDAは初期データ解析(IDA)とは異なるもので、IDAは、モデル適合や仮説検定に必要な前提条件を確認したり、欠損値の処理や、必要に応じて変数を変換を行うことに焦点を絞っている[1][2]。EDAにはIDAが含まれる。
概要

テューキーは1961年にデータ解析の定義を、『データを分析するための手順、その手順による結果を解釈する技術、分析をより容易に、正確または精密にするためのデータ収集の計画方法、そしてデータ分析に適用される(数理)統計学のすべての手続きと結果である。』と説明した[3]

EDAに対するテューキーの擁護は、特にベル研究所S言語のような、統計計算パッケージ(英語版)の開発を後押しした。プログラミング言語Sは、後に、S-PLUSRシステムに影響を与えた。この一連の統計計算環境は、大幅に改善された動的な可視化機能を備えており、統計学者は、さらに研究する価値のあるデータの異常値傾向パターンを識別することができた。

テューキーのEDAは、統計理論(英語版)における他の2つの発展、すなわちロバスト統計学(英語版)とノンパラメトリック統計学に関連しており、これらはいずれも統計モデルの定式化の誤りに対する統計的推測の感度を低減させるものであった。テューキーは、数値データについて、五数要約 (英語版:en) (2つの極値(最大と最小)、中央値、および四分位値)の使用を推進した。なぜなら、中央値と四分位値は経験分布関数(英語版)であり、平均値標準偏差とは異なり、すべての分布に対して定義され、さらに、四分位値と中央値は従来の要約(平均値と標準偏差)よりも、歪んだ分布裾の重い分布に対してよりロバスト(堅牢)だからである。S、S-PLUS、Rの各パッケージには、モーリス・クヌーイュとテューキーのジャックナイフ法(英語版)や、エフロン(英語版)のブートストラップ法など、ノンパラメトリックで(多くの問題に対して)頑健な、リサンプリング統計を用いたルーチンが含まれている。

探索的データ解析、ロバスト統計、ノンパラメトリック統計、および統計プログラミング言語の開発により、統計学者による科学的および工学的な問題への取り組みが容易になった。このような問題には、ベル研究所に関係する半導体の製造と通信ネットワークの理解が含まれている。これらの統計学の発展はすべてテューキーが唱えたもので、統計的仮説検定に関する解析理論、特に指数型分布族に対するラプラシアン強調を補完するように設計された[4][訳語疑問点]。
展開データサイエンスプロセスのフローチャート

1977年、ジョン・W・テューキーは Exploratory Data Analysis(探索的データ解析)という本を著した[5]。テューキーは、統計学においては統計的仮説検定(確証的データ解析)が重視されすぎており、データを用いて検定すべき仮説を示唆することにもっと重点を置くべきと主張した。特に彼は、2つの種類の分析を混同して同じデータセットに適用すると、データから示唆される仮説検定(英語版)をする際に内在する問題により、系統的バイアスにつながる可能性があると考えた。

EDAの目的は次のとおりである。

データから予期しない発見を可能にする。

観察された現象原因に関する仮説を提案する。

統計的推測の基礎となる仮定を評価する。

適切な統計ツールや技術の選択を支援する。

サンプリング調査(英語版)や実験を通じて、さらなるデータ収集の基礎を提供する[6]

多くのEDA技術はデータマイニングに取り入れられている。それらはまた、統計的思考を導入する方法として、若い学生にも教えられている[7]
技術とツール

EDAに有効なツールは多数あるが、EDAの特徴は特定の技術よりもその姿勢に見られる[8]

EDAで使われる代表的なグラフ技法(英語版)はつぎのとおりである。

箱ひげ図

ヒストグラム

多変量チャート(英語版)

ランチャート(英語版)(実行流れ図)

パレート図

散布図(2D/3D)

幹葉図

平行座標(英語版)

オッズ比  (en:英語版#Example) 

ターゲット射影追跡(英語版)

ヒートマップ

棒グラフ

値変遷グラフ(ホライゾングラフ)

PhenoPlot[9]、チャーノフの顔(英語版)などのグリフベースの可視化手法。

グランドツアー、ガイドツアー、マニュアルツアーなどの投影手法。

これらのプロットの対話型バージョン

次元削減

多次元尺度法

主成分分析(PCA)

マルチリニア主成分分析(英語版)

非線形次元削減(英語版)(NLDR)

相関イコノグラフィ(英語版)

代表的な定量的手法:

Median polish(英語版)

三平均法(英語版)

序列法(英語版)

歴史

EDAのアイデアの多くは、以前の著者にさかのぼることができる。たとえば:

フランシス・ゴルトン順序統計量分位数を力説した。

アーサー・リヨン・ボウリー(英語版)は、ステムプロットと五数要約の前身を使用した(ボウリーは実際には、中央値とともに、極値、十分位、四分位を含む「七数要約(英語版)」を使用していた[注釈 1][10]。彼は「最大値と最小値、中央値、四分位、2つの十分位」を「七位置」として定義した)。

アンドリュー・エーレンバーグ(英語版)はデータ削減(英語版)の原理を明確にした(同名の彼の本を参照)。

オープン大学の講座「Statistics in Society(社会における統計学)」(MDST 242)では、上記の考え方を取り入れ、ゴットフリート・ネーター(英語版)の研究と統合し、コイン投げや中央値検定(英語版)による統計的推論を導入した。
事例

EDAから得られる知見は、主要な分析課題と(統計学的に)関係しない。説明のために、Cookらの例で考えてみよう。この分析課題は、食事会のパーティーがウェイターに渡すチップ額を最もよく予測する変数を見つけることである[11]。この課題のために収集されたデータで利用可能な変数は、チップ額、合計請求額、支払い者の性別、喫煙/禁煙席、時間帯、曜日、食事会の規模である。主要な分析課題は、チップ率を応答変数とする回帰モデルの適合によって取り組まれる。その適合モデルは、(チップ率) = 0.18 - 0.01 × (パーティーの規模)

であり、食事会の人数が1人増える(請求額が高くなる)と、チップ率は平均で1%減少することを表す。

ただし、このデータを調べてみると、このモデルで説明できない別の興味深い特徴があることが明らかになる。

チップ額のヒストグラム。ここでビン(箱)は1ドル刻み。値の分布は、右に偏った単峰性であり、小さく非負の量の分布でよく見られる。

このチップ額のヒストグラムは0.10ドル刻みのビンを用いた。興味深い現象が見られる。ピークは、1ドルと半ドルの金額で発生する。これは、顧客が概数(端数のない数)をチップとして選ぶことに起因している。この現象は、ガソリンなど別の種類の買い物にも共通している。

チップと請求額の散布図。直線より下の打点は、(その請求額に対して)予想より低いチップに対応し、直線より上の打点は、予想より高いチップに対応する。読者は、締まって隙間のない正の線形関連が見られると予想したかもしれないが、チップの額によってばらつきがあることがわかる。特に、左上よりも右下の方が直線から遠く離れた打点が多く、非常に気前のいい客よりも非常に財布の紐が堅い客の方が多いことを示している。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:27 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef