データ
[Wikipedia|▼Menu]
.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

コンピュータが取り扱う量/文字/記号などについては「データ (コンピュータ)」を、ドラマの登場人物については「データ (スタートレック)」をご覧ください。

データ(英: data)は、個々の事実数値情報統計変数の項目である[1]。より厳密には、データとは1人または複数の人や物や事象に関する定性的または定量的な値の集まりである[1]。dataの単数形のデータム(英: datum)は、ある事実、情報、変数の単一の数値または非数値である[2]
概要

「データ」と「情報」は同じ意味で使われることがあるが、これらの用語には明確な意味がある。一般の出版物では、データは文脈内において表示または分析するときに情報に変換される、と言われることがある[3]。しかし、学術的な扱いでは、主題のデータは単なる情報の一群とされる。データの用途は、科学研究、経営管理(例: 販売、収益、利益、株価)、金融、統治(例: 犯罪率(英語版)、失業率識字率)、および事実上あらゆる形態の人間の組織活動(例: NPOによるホームレスの数の調査)におよぶ。

一般に、データは意思決定の要素である。推論、議論、計算の基礎として使用できる事実情報の最小単位である。データは、抽象的なアイデアから具体的な測定値、さらには統計に至るまで多岐にわたる。データは測定・収集・報告(英語版)・分析され、グラフ・表・画像などのデータ視覚化のために使われる。一般的な概念としてのデータは、既存の情報知識が、より適切な用途や処理に適した形で表現コード化されていることを指す。生データ(英語版)(未処理データ)とは、研究者によって洗浄・修正される前の数値や文字の集まりのことである。外れ値や明らかな機器またはデータ入力のエラー(例えば、北極圏の屋外に置かれた温度計が、熱帯の気温を記録している)を除去するためには、生データを修正する必要がある。データ処理は一般に、段階的に行われ、ある段階の「加工データ」は次の段階の「生データ」と見なされることがある。実地データは、制御されていない現場の(in situ)環境で収集された生データである。実験データ~(英語版)とは、科学的調査の活動内で、観察と記録によって生成されるデータである。

データは「デジタル経済(英語版)の新しい石油」と呼ばれている[4][5]
意味アドリアン・オーズーの「対物レンズの開口数表。フィロソフィカル・トランザクションズに掲載された論文(1665年)「en:DIKW pyramid」も参照

データ、情報知識知恵は密接に関連した概念であるが、それぞれに役割があり、それぞれの用語には意味がある。一般的な見方では、データは収集され、分析される。データは何らかの形で分析されて初めて意思決定を行うのに適した情報となる[6]。つまり、あるデータ集合が誰かにとって有益であるかどうかは、その人がどの程度予期していたかによる。データストリームに含まれる情報量は、そのシャノンエントロピーによって特徴付けられることがある。

知識とは、ある主題に関する情報を扱った、豊富な経験に基づく理解のことである。たとえば、エベレストの高さは、一般にデータとみなされる。その高さは高度計で正確に測定し、データベースに入力することができる。このデータを、エベレストに関する他のデータと一緒に本に掲載することで、エベレストに登るための最適な方法を決めたい人に役立つように、山を説明することができる。エベレスト山頂に到達するための方法をアドバイスできるような登山経験に基づいた理解も「知識」と見なせるかもしれない。そして、この知識に基づいたエベレスト山頂への実際の登山は「知恵」と見ることができる。言い換えれば、知恵とは、人が持っている知識を、良い結果が得られるような状況で実践することである。このように知恵は、「データ」「情報」「知識」という抽象化された一連の概念を補完し、完結させるものである。

データは最も抽象度が低い概念で、情報はその次に抽象度が高く、知識は最も抽象的な概念とされることが多い[7]。この見方では、データは解釈を加えることによって情報に変わる。たとえば、エベレストの高さは一般に「データ」とされ、エベレストの地質学的特徴に関する書籍は「情報」とされ、エベレスト山頂に到達するための最適な方法に関する実用的な情報を含む登山ガイドブックは「知識」と見なされる。「情報」とは、日常的な使用から専門的な使用まで、さまざまな意味を持っている。しかし、こうした見方は、「データ」が「情報」が作られ、「情報」から「知識」が作られることを逆手に取った主張とも言える[8]。一般的に言えば、情報という概念は、制約、コミュニケーション、制御、データ、形式、指示、知識、意味、精神的刺激、パターン、知覚、および表現の概念と密接に関係している。バイノン・デイヴィス(英語版)はデータと情報を区別するために記号の概念を用いている。データは一連の記号であるが、情報はその記号が何かを参照するために使われたときに生まれる[9][10]

計算装置や機械が開発される以前は、人々は手作業でデータを収集し、それにパターンを当てはめる必要があった。しかし、計算装置や機械が発達し、これらのデバイスがデータを収集できるようになった。2010年代には、マーケティングや市民による社会福祉の利用状況の分析、科学研究に至るまで、さまざまな分野でデータを収集し、分類や加工するためにコンピュータが広く使われている。データ上におけるこうしたパターンは、知識を高めるための情報と見なされている。これらのパターンは「真理」として解釈されることもあり(ただし「真理」は主観的な概念となることもある)、一部の分野や文化では美的および倫理的基準として承認されることもある。知覚可能な物理的または仮想的な標識を残す出来事は、データを通して遡ることができる。標識と観察との間の関係が切れると、標識はもはやデータとはみなされなくなる[11]

アナログ計算機は、データを電圧、距離、位置、または他の物理量として表現する。デジタルコンピュータは、固定されたアルファベットから取った記号の並びとしてデータを表現する。最も一般的なデジタルコンピュータは、二進数アルファベット、つまり、通常「0」と「1」で表される2文字のアルファベットを使用する。次に、数字や文字などの身近な表現は、この二進数アルファベットから構築される。データの中には特殊な形式もあって区別される。コンピュータプログラムはデータの集まりであり、命令として解釈することができる。ほとんどのコンピュータ言語では、プログラムと、プログラムが操作する他のデータとを区別しているが、Lispやそれに類する言語では、プログラムは他のデータと本質的に区別できない。また、メタデータ、すなわち他のデータの説明も区別することも有用である。メタデータに類似した、以前の用語は、補助データ(ancillary data)である。メタデータの原型の例は、書籍の内容の説明である図書館目録である。
データドキュメント

データを登録する必要がある場合は必ず、データドキュメント(data documents)という形式のデータが存在する。データドキュメントには次のような種類がある。

データリポジトリ
(英語版)

データスタディ

データセット

ソフトウェア

データペーパー(英語版)

データベース

データハンドブック

データジャーナル(英語版)

これらのデータドキュメントの一部(データリポジトリ、データスタディ、データセット、ソフトウェア)はデータ・サイテーション・インデックスに、データペーパーは従来の書誌データベース、たとえばサイエンス・サイテーション・インデックスに索引付けされている[12]
データの収集と分析

データの収集は、一次資料(研究者が最初にデータを入手する)または二次資料(科学雑誌で発表されたデータなど、他の資料によって既に収集されているデータを研究者が入手する)を通じて行うことができる。データ分析の方法論はさまざまで、データ・トライアンギュレーションやデータ・パーコレーションが含まれる[13]。前者は、研究の客観性を最大化し、調査対象の現象をできるだけ完全に理解するために、定性的および定量的方法、文献レビュー(学術論文を含む)、専門家へのインタビュー、コンピュータシミュレーションの5つの分析角度(少なくとも3つ)からデータを収集、分類、分析する方法を明確にしたものである。その後、後者は、最も関連性の高い情報を抽出するために、あらかじめ決められた一連のステップでデータを「浸透」させます。
コンピューティング分野では詳細は「データ (コンピュータ)」を参照
規格上の定義

国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」において、「データ」の用語定義は "A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing."「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」とされている。
電子データ

電子データは、コンピュータ内にあるか、コンピュータに取り込める形になったデータである。


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:51 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef