データ解析
[Wikipedia|▼Menu]

データ解析(データかいせき、: data analysis)は、データ分析(データぶんせき)とも呼ばれ、有用な情報を発見し、結論を報告し、意思決定を支援することを目的として、データを検査し、クリーニング(英語版)や変換(英語版)を経て、モデル化する一連のプロセスである[1]。データ解析には多数の側面とアプローチがあり、色々な名称のもとで多様な手法を包含し、ビジネス、科学、社会科学のさまざまな領域で用いられている[2]。今日のビジネス界において、データ解析は、より科学的な意思決定を行い、ビジネスの効率的な運営に貢献する役割を担っている[3]

データマイニングは、(純粋な記述的な目的ではなく)予測的な目的で統計的モデリングと知識獲得に重点を置いた固有のデータ解析技術である。これに対し、ビジネスインテリジェンスは、主にビジネス情報に重点を置いて、集計に大きく依存するデータ解析を対象としている[4]。統計学的な用途では、データ解析は記述統計学 (en:英語版) 、探索的データ解析(EDA)、確認的データ解析(仮説検定)(CDA)に分けられる[5]。EDAはデータの新たな特徴を発見することに重点を置き、CDAは既存の仮説の確認または反証に焦点を当てる[6][7]予測分析は、予測的な発生予報あるいは分類のための統計モデルの応用に重点を置き、テキスト分析は、統計的、言語的、および構造的な手法を用いて、非構造化データの一種であるテキストデータから情報を抽出し知識の発見や分類を行う。上記はどれも、データ解析の一種である[8]

データ統合(英語版)はデータ解析の前段階であり、データ可視化およびデータ配布(英語版)はデータ解析と密接に関連している[9]
データ解析のプロセスデータ解析のプロセス。Doing Data Science, Schutt & O'Neil (2013)から。

解析(analysis)とは、全体を構成要素に分割し、個々を考察することである[10]。データ解析とは、生データ(英語版)を入手し、それを利用者の意思決定に役立つ情報に変換するプロセス(英語版)である[1]。データ(data)は、質問に答えたり、仮説を検証したり、理論を反証するために収集され、解析される[11]

統計学者のジョン・テューキーは、1961年にデータ解析を次のように定義した。

「データを解析する手順、その結果を解釈するための技術、解析をより容易に、正確で、精密にするためのデータ収集の計画方法、およびデータの解析に適用されるすべての機械と(数学的)統計学の結果」[12]

以下に説明するように、区別することができるいくつかの段階がある。各段階は反復的(英語版)であり、後の段階からのフィードバックが、前の段階での追加作業につながることがある[13]データマイニングで使用されるCRISPフレームワーク(英語版)にも同様のステップがある。
データ要件

データは、解析の入力として必須なものであり、解析プロセスを管理する人(または解析結果を報告する顧客)の要求に基づいて特定される[14][15]。データ収集の対象となる一般的な主体は実験単位(英語版)と呼ばれる(例:人、または人の集団)。そして、データは母集団に関する特定の変数(例:年齢や所得)を指定して収集される。データは、数値でもカテゴリでもよい(例:番号に紐付くテキスト型ラベル)[13]
データ収集

データはさまざまな情報源から収集される[16][17]。その要求事項は、解析者からデータ管理者(英語版)(たとえば、組織内の情報システム技術者(英語版))に伝えられる場合がある[18]。データは、交通監視カメラ、人工衛星、記録装置など、環境内のセンサーから収集されることもある。また、インタビュー、オンライン情報源からのダウンロード、または文書の閲覧を通じて得ることもある[13]


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:152 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef