この項目は内容が専門的であり、一般の閲覧者にはわかりにくくなっているおそれがあります。専門用語をわかりやすい表現にするための修正をして下さる協力者を求めています
。(2015年4月)ビッグデータ [1][2](英: big data)とは、組織が非常に大きなデータセットとそれらが保存されている施設を作成、操作、および管理できるようにするすべての技術を指す[3]。一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。組織が非常に大きなデータセット[注釈 1]を作成、操作、および管理できるようにするすべてのものと、これらが格納されている機能を指す[4]。
ビッグデータを取り巻く課題の範囲は、情報の収集、取捨選択、保管[5]、検索、共有、転送、解析[6]、可視化等多岐にわたる。これら課題を克服しビッグデータの傾向をつかむことで「ビジネスに使える発見、疾病予防、犯罪防止、リアルタイムの道路交通状況判断」に繋がる可能性がある[7][8][9]。
用語自体はデータマイニングで一般的に使われてきたが、2010年代に入ってある種のトレンドを示すキーワードとして、新聞・雑誌などでも広く取り上げられるようになってきた[注釈 2]。ビッグデータに代わってAIが流行すると、マスメディアでセンセーショナルに取り上げられることは無くなった。分散型データセンター、データウェアハウス、クラウドベースのストレージは、今日の一般的な側面である[4]。 コンピュータの性能に上限があるように、我々が取り扱えるデータ量の大きさにも上限がある。2012年現在[update]
概要
データ量の上限
科学者はしばしばこの制限に遭遇する。その分野にはゲノミクス、気象学[11]、コネクトミクス、複雑な物理シミュレーション[12]、生物調査および環境調査等がある[13]。インターネット検索、金融、ビジネスインフォマティクスの分野でも、データ量の上限がビジネスや研究活動に制限を与える。
このように近年データが増加しているのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサネットワークの普及も1つの原因である[14][15]。全世界の1人当たりの情報容量は1980年代以降40か月ごとに倍増し[16]、2012年現在[update]、1日あたり毎日250京(2.5×1018)バイトのデータが作成されたとされる[17]。 ビッグデータは、大部分の関係データベース管理システムやデータ分析ソフトでは処理が困難である。そのため、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる[18]。 大企業にとっての課題には、組織全体にまたがるビッグデータの主導権を誰が握るかということもある[19]。何を「ビッグデータ」と考えるのかを明確にするのも企業毎の課題となる。これはデータを管理する組織の能力と分析アプリケーションの能力に依存するためである。数百ギガバイトのデータに直面して始めてデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある[20]。 データセットは、リモートセンサー、モバイルデバイス、カメラ、マイク、無線周波数識別(RFID)リーダー、および類似のテクノロジーによって収集されるものが増えるにつれて、増え続けている。
課題
成長と今後の展開