データセット
[Wikipedia|▼Menu]
.mw-parser-output .hatnote{margin:0.5em 0;padding:3px 2em;background-color:transparent;border-bottom:1px solid #a2a9b1;font-size:90%}

この項目では、一般名詞としてのデータセットについて説明しています。IBMメインフレームコンピュータに関する用語については「データセット (IBMメインフレーム)」をご覧ください。

データセット(英: data set, dataset)は、データの集合のこと。表形式のデータの場合、テーブルの各列が特定の変数を表し、各行が特定のレコードに対応するような1つ以上のデータベーステーブルをデータセットという。データセットには、各オブジェクトの高さや重量といった変数の値が並べられている。データセットは、ドキュメントやファイルの集合で構成することもできる[1]

オープンデータの分野では、データセットはパブリックなオープンデータリポジトリで公表された情報量を測定するための単位でもある。例えばヨーロッパオープンデータポータル(英語版)は、50万以上のデータセットを集約している[2]。データセットの定義は複数提案されているが[3]、2020年現在公式の定義といえるものはない。データセットの中にはリアルタイムデータソース[4]なども存在しており、そうしたデータの存在もまた、データセットの定義について合意することを困難にしている。
属性

いくつかの特性により、データセットの構造とプロパティが定義される。この特性には、属性や変数の個数やタイプのほかに、標準偏差尖度といった、属性や変数に対して適用可能なさまざまな統計的尺度(英語版)が含まれる[5]

データセットに含まれる値は、例えば、実数または整数などの数値である場合がある(例えば人の身長は、センチメートルという単位を用いて数値で表される)が、他方でカテゴリのような文字列で表現されるラベルである場合もある(例えば、ある人物が属する民族は数値では表せない[注釈 1])。より一般的には、値は尺度のいずれかに当てはまる[6]。通常、同じ変数に対応する値は、データが変わっても同じ種類である。ただし、データによっては欠落がある可能性もあり、それも何らかの方法で示す必要がある[7]

統計学においては、データセットは通常、母集団サンプリングすることによって取得される、実際の観測値に由来するものである。データセットの各行は、母集団の1要素の観測値に対応する。データセットは、特定の種類のソフトウェアをテストする目的で、アルゴリズムを用いてさらに生成される場合もある。また、データが欠落していたりその値が正しいかどうか疑わしい場合には、代入法を使用してデータセットを完成させることもある[8]
古典的なデータセット

統計学の文献では、古典的なデータセットが広く使用されている。

アイリスフラワーデータセット(英語版) ? ロナルド・フィッシャーによって1936年に導入された多変量データセット[9]

MNISTデータベース ? 分類、クラスタリング、画像処理アルゴリズムの評価に一般的に使用される手書き数字の画像を含むデータセット。

Categorical data analysis ? An Introduction to Categorical Data Analysis(Alan Agresti、2019年)で用いられているデータセット。

Robust statistics ? Robust Regression and Outlier Detection(Rousseeuw(英語版)、 Leroy、1986年)で使用されているデータセット。

Time series ? チャットフィールドのThe Analysis of Time Seriesで使用されているデータ。

Extreme values ? An Introduction to the Statistical Modeling of Extreme Valuesで使用されているデータは、本の著者であるStuartColesが提供していたデータのスナップショットである。

Bayesian Data Analysis ? 同名の本(A. Gelman, J. B. Carlin, H. S. Stern, D. B. Rubin, 1995年)で使用されているデータは、著者の1人であるAndrew Gelmanによりオンラインで提供されている。

アンスコムのカルテット ? 統計的誤謬を回避するためにデータをグラフ化する重要性を示す目的の、小規模のデータセット。

関連項目

データ

データブレンド(英語版)

データ (計算機科学)(英語版)

サンプル

データストア(英語版)

相互運用性

データ収集システム(英語版)

脚注
出典^ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). ⇒“'Big Data': Big gaps of knowledge in the field of Internet”. International Journal of Internet Science 7: 1?5. ⇒http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
^ “ ⇒European open data portal”. European open data portal. European Commission. 2016年9月23日閲覧。
^ “ ⇒Dataset definition ? MELODA”. www.meloda.org. 2016年8月17日閲覧。[リンク切れ]
^ Atz, U (2014). “The tau of data: A new metric to assess the timeliness of data in catalogues”. CEDEM 2014 Proceedings. https://project.opendatamonitor.eu/wp-content/uploads/dissemination/OpenDataMonitor_Publication_The-Tau-of-Data.pdf 2021年2月24日閲覧。. 
^ Jan M. ?ytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. .mw-parser-output cite.citation{font-style:inherit;word-wrap:break-word}.mw-parser-output .citation q{quotes:"\"""\"""'""'"}.mw-parser-output .citation.cs-ja1 q,.mw-parser-output .citation.cs-ja2 q{quotes:"「""」""『""』"}.mw-parser-output .citation:target{background-color:rgba(0,127,255,0.133)}.mw-parser-output .id-lock-free a,.mw-parser-output .citation .cs1-lock-free a{background:url("//upload.wikimedia.org/wikipedia/commons/6/65/Lock-green.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-limited a,.mw-parser-output .id-lock-registration a,.mw-parser-output .citation .cs1-lock-limited a,.mw-parser-output .citation .cs1-lock-registration a{background:url("//upload.wikimedia.org/wikipedia/commons/d/d6/Lock-gray-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .id-lock-subscription a,.mw-parser-output .citation .cs1-lock-subscription a{background:url("//upload.wikimedia.org/wikipedia/commons/a/aa/Lock-red-alt-2.svg")right 0.1em center/9px no-repeat}.mw-parser-output .cs1-ws-icon a{background:url("//upload.wikimedia.org/wikipedia/commons/4/4c/Wikisource-logo.svg")right 0.1em center/12px no-repeat}.mw-parser-output .cs1-code{color:inherit;background:inherit;border:none;padding:inherit}.mw-parser-output .cs1-hidden-error{display:none;color:#d33}.mw-parser-output .cs1-visible-error{color:#d33}.mw-parser-output .cs1-maint{display:none;color:#3a3;margin-left:0.3em}.mw-parser-output .cs1-format{font-size:95%}.mw-parser-output .cs1-kern-left{padding-left:0.2em}.mw-parser-output .cs1-kern-right{padding-right:0.2em}.mw-parser-output .citation .mw-selflink{font-weight:inherit}ISBN 978-3-540-66490-1. https://books.google.com/books?id=uTzeRZFmaBgC&pg=PA100 


次ページ
記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:13 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef