非構造化データ
[Wikipedia|▼Menu]
.mw-parser-output .ambox{border:1px solid #a2a9b1;border-left:10px solid #36c;background-color:#fbfbfb;box-sizing:border-box}.mw-parser-output .ambox+link+.ambox,.mw-parser-output .ambox+link+style+.ambox,.mw-parser-output .ambox+link+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+style+.ambox,.mw-parser-output .ambox+.mw-empty-elt+link+link+.ambox{margin-top:-1px}html body.mediawiki .mw-parser-output .ambox.mbox-small-left{margin:4px 1em 4px 0;overflow:hidden;width:238px;border-collapse:collapse;font-size:88%;line-height:1.25em}.mw-parser-output .ambox-speedy{border-left:10px solid #b32424;background-color:#fee7e6}.mw-parser-output .ambox-delete{border-left:10px solid #b32424}.mw-parser-output .ambox-content{border-left:10px solid #f28500}.mw-parser-output .ambox-style{border-left:10px solid #fc3}.mw-parser-output .ambox-move{border-left:10px solid #9932cc}.mw-parser-output .ambox-protection{border-left:10px solid #a2a9b1}.mw-parser-output .ambox .mbox-text{border:none;padding:0.25em 0.5em;width:100%;font-size:90%}.mw-parser-output .ambox .mbox-image{border:none;padding:2px 0 2px 0.5em;text-align:center}.mw-parser-output .ambox .mbox-imageright{border:none;padding:2px 0.5em 2px 0;text-align:center}.mw-parser-output .ambox .mbox-empty-cell{border:none;padding:0;width:1px}.mw-parser-output .ambox .mbox-image-div{width:52px}html.client-js body.skin-minerva .mw-parser-output .mbox-text-span{margin-left:23px!important}@media(min-width:720px){.mw-parser-output .ambox{margin:0 10%}}

この記事には複数の問題があります。改善ノートページでの議論にご協力ください。

出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2012年2月)


独自研究が含まれているおそれがあります。(2012年2月)
出典検索?: "非構造化データ" ? ニュース ・ 書籍 ・ スカラー ・ CiNii ・ J-STAGE ・ NDL ・ dlib.jp ・ ジャパンサーチ ・ TWL

非構造化データ (ひこうぞうかデータ、Unstructured Data) とは、構造定義されておらず、主に関係モデルにうまく適合しないデータモデルに分類されるデータを指す。
データの変遷

従来より、人は商業活動や自然現象などを記録/測定した数値を、意味のあるデータ情報)として活用してきた。そのような数値データを、より効率的に、より生産的に活用するために、計算機コンピュータ)が生まれ、活用が高度化していく中で、主に関係モデルをベースとしたデータベースに構造化して格納されて活用したため、そのようなデータをのちに構造化データと呼ぶようになった。さらに、ITは、組織や人間の様々な活動をより効率的で生産的にするために、数値、文書画像音声動画など、人のコミュニケーションをより表現するデータを活用するようになった。このようなデータは、構造化データという分類を超えて、完全な構造定義を持たない半構造化データ、あるいは、構造定義を持たない非構造化データとして分類されるようになった。
データベースの変遷

ITの進化にともなって、組織や人間の様々な活動から、数値、文書画像音声動画がデータとして大量に生み出されるようになった。昨今では、それらを総称してビッグデータと呼ぶようになり、それらを格納して活用するためのデータベースも進化し、従来型データベース問い合わせ言語SQLであるのに対して、NoSQLと総称されるデータベースも登場するようになった。また、Hadoopなどの分散ファイルシステムも活用されるようになってきた。[1]

関係データベース

オブジェクトデータベース

XMLデータベース


列指向データベース管理システム

インメモリデータベース

分散ファイルシステムHadoopなど)

転置インデックス

ドキュメント指向データベース

NoSQL

非構造化データの取り扱い

各種インターネット検索エンジンの台頭がしのぎを削っていたころから様々なビジネスアプリケーションへの活用が本格化し[2]、現在、一般的に知られる文書を構造化する方法としては、テキスト分析してメタデータをタグ付けしたり、画像音声動画からテキスト抽出して同じ方法を用いたり、特有のメタデータのタグ付けなどがある。このような非構造化データの取り扱いを実現する技術には、データマイニングテキストマイニング自然言語処理機械学習パターン認識、さらには人工知能の分野に含まれるものなどがあげられる。また、構造化データも含んで、非構造化データを処理する情報アクセス基盤(Information access infrastructure)としてエンタープライズサーチも活用されている。ビジネスアプリケーションのために非構造化データを分析して理解するソフトウェアは、SAS InstituteIBMSAP (企業)HP オートノミーオープンテキストなど様々な企業から提供されている。ソーシャルメディアの非構造化データの分析に焦点を当てたインターネットサービス企業も多数存在する。
関連項目

UIMA


データマイニング

テキストマイニング

自然言語処理

パターン認識

ビッグデータ

ワールド・ビーム

ビジネスインテリジェンス

ビジネスアナリティクス

機械学習

情報検索

エンタープライズサーチ

脚注・出典^- Updated Data Platforms Landscape Map ? February 2014
^Two Worlds of Data ? Unstructured and Structured

外部リンク

ビッグデータプロジェクトの成功にはHadoopだけでは不十分

非構造化データのリスク管理 ?ビジネス・データの8割は非構造化データ


記事の検索
おまかせリスト
▼オプションを表示
ブックマーク登録
mixiチェック!
Twitterに投稿
オプション/リンク一覧
話題のニュース
列車運行情報
暇つぶしWikipedia

Size:12 KB
出典: フリー百科事典『ウィキペディア(Wikipedia)
担当:undef