この項目は内容が専門的であり、一般の閲覧者にはわかりにくくなっているおそれがあります。専門用語をわかりやすい表現にするための修正をして下さる協力者を求めています
。(2015年4月)ビッグデータ [1][2](英: big data)とは、組織が非常に大きなデータセットとそれらが保存されている施設を作成、操作、および管理できるようにするすべての技術を指す[3]。一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。組織が非常に大きなデータセット[注釈 1]を作成、操作、および管理できるようにするすべてのものと、これらが格納されている機能を指す[4]。
ビッグデータを取り巻く課題の範囲は、情報の収集、取捨選択、保管[5]、検索、共有、転送、解析[6]、可視化等多岐にわたる。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見、疾病予防、犯罪防止、リアルタイムの道路交通状況判断」に繋がる可能性がある[7][8][9]。
用語自体はデータマイニングで一般的に使われてきたが、2010年代に入ってある種のトレンドを示すキーワードとして、新聞・雑誌などでも広く取り上げられるようになってきた[注釈 2]。ビッグデータに代わってAIが流行すると、マスメディアでセンセーショナルに取り上げられることは無くなった。分散型データセンター、データウェアハウス、クラウドベースのストレージは、今日の一般的な側面である[4]。 コンピュータの性能に上限があるように、我々が取り扱えるデータ量の大きさにも上限がある。2012年現在[update]
概要
データ量の上限
科学者はしばしばこの制限に遭遇する。その分野にはゲノミクス、気象学[11]、コネクトミクス、複雑な物理シミュレーション[12]、生物調査および環境調査等がある[13]。インターネット検索、金融、ビジネスインフォマティクスの分野でも、データ量の上限がビジネスや研究活動に制限を与える。
このように近年データが増加しているのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサネットワークの普及も1つの原因である[14][15]。全世界の1人当たりの情報容量は1980年代以降40か月ごとに倍増し[16]、2012年現在[update]、1日あたり毎日250京(2.5×1018)バイトのデータが作成されたとされる[17]。 ビッグデータは、大部分の関係データベース管理システムやデータ分析ソフトでは処理が困難である。そのため、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる[18]。 大企業にとっての課題には、組織全体にまたがるビッグデータの主導権を誰が握るかということもある[19]。何を「ビッグデータ」と考えるのかを明確にするのも企業毎の課題となる。これはデータを管理する組織の能力と分析アプリケーションの能力に依存するためである。数百ギガバイトのデータに直面して始めてデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある[20]。 データセットは、リモートセンサー、モバイルデバイス、カメラ、マイク、無線周波数識別(RFID)リーダー、および類似のテクノロジーによって収集されるものが増えるにつれて、増え続けている。2.5エクサバイト(2.5A?1018バイト)のデータが毎日作成され、世界のデータの90%がわずか2年間に作成されたと推定した研究も存在する。これらの数値は、おそらく今日より高くなっている。 ビッグデータアプリケーションは、ビジネス、特にキャプチャして保存する大量のデータから利益を得るためにデータ製品とサービスを構築することを志向するビジネスにとって、ますます競争力のあるソースになりつつある。ビッグデータアプリケーションのメリットを享受する企業が増えるにつれて、企業にとってデータの活用がますます重要になることを示す兆候がある[4]。 データの収集、取捨選択、管理及び処理に関して、一般的なソフトウェアの能力を超えたサイズのデータ集合と定義される[21]。2012年現在[update] 2001年の研究報告書[23]で、METAグループ(現ガートナー )のアナリスト、ダグ・レイニーはビッグデータの特性としてボリューム(volume、データ量)、速度(velocity、入出力データの速度)、バラエティ(variety、データ種とデータ源の範囲)があると定義した。ガートナーはこの「3V」モデルを使用していたが[24]、2012年、次のように定義を更新した:「ビッグデータは、高ボリューム、高速度、高バラエティのいずれか(あるいは全て)の情報資産であり、新しい形の処理を必要とし、意思決定の高度化、見識の発見、プロセスの最適化に寄与する」[25]。さらに新しいV、正確さ(veracity)の追加の提案もある[26]。 例としては、巨大科学、RFID、センサネットワーク、ソーシャルネットワーク、ビッグソーシャルデータ分析[27] (ソーシャルデータ革命による)、インターネット文書、インターネット検索のインデックス作成、通話記録明細、天文学、大気科学、ゲノミクス、生物地球化学、生物学、他の複雑でしばしば学際的な科学研究、軍事偵察、新しい住宅購入者用の通勤時間予測、医療記録、写真アーカイブ、ビデオアーカイブ、大規模なeコマースがある[28]。 大型ハドロン衝突型加速器 (LHC) では約1億5000万のセンサーが毎秒40万のデータを発生させる。毎秒ほぼ6億回の衝突がある。99.999%のデータをフィルタリング・除去処理し、1秒あたり100の衝突が有用なデータとなる[29][30][31]。その後、センサデータの0.001%未満を処理する。すべての4つのLHC実験は1年に25ペタバイトを発生する。これは複製後約200ペタバイトになる。もし全てのセンサデータがLHCで記録されるなら、データの処理は著しく困難になるであろう。データは複製前で1年に1.5億ペタバイト、すなわち一日あたり約500 エクサバイトを超えてしまうであろう。
課題
成長と今後の展開
定義
例
巨大科学
Size:106 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)』
担当:undef