図書館情報学における情報検索については「情報検索 (図書館情報学)」をご覧ください。
「検索」の語義については、ウィクショナリーの「検索
」の項目をご覧ください。この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)
出典検索?: "情報検索" ? ニュース ・ 書籍 ・ スカラー ・ CiNii ・ J-STAGE ・ NDL ・ dlib.jp ・ ジャパンサーチ ・ TWL(2024年3月)
情報検索(じょうほうけんさく、英語: information retrieval)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像(動画)、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。インターネットの発達により検索はインターネットを介して行われることも多いが、ここでは情報を検索[1]するためのコンピュータ側における仕組みを記述している。
情報検索に対するコンピュータ側における技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。 情報検索が基盤としている技術は多数の分野にのぼる。情報検索はデータの管理および入出力のためのデータベース、文書データ処理のための自然言語処理や計算言語学、画像や音声を扱うための信号処理や認知心理学を背景とするパターン認識技術、メタデータに関する考察の基盤となった図書館情報学、検索アルゴリズム設計や情報検索システムの評価尺度考案のヒントとして寄与した諸数学理論などのさまざまな要素技術の組み合わせによって成り立っている。情報検索システムは情報検索を実現するためのソフトウェアやハードウェアによって構成されるシステムである。ここでは主にソフトウェアに関して、現在よく用いられているシステムの構成について述べる。 1970年代に[2][3]、大規模に蓄積される学術文献や論文等の管理をコンピュータ上で行うために、規模の大きい図書館でデータの管理と検索が行われるようになり、需要に応えるべく情報検索システムの開発が進んだ。図書館における蔵書検索や電子ジャーナル、統計資料のデータベースなどへの応用は現在でも盛んに用いられているほか、1990年代から広まったGoogleやgooのようなWorld Wide Web上のデータを対象にした検索エンジンが現在では情報検索のシステムとして特に身近な存在となっている。2000年代以降の情報検索の課題は、例として以下のようにまとめることができる。 情報検索システムは主に以下に挙げる要素によって構成されている。 データベースは検索対象のデータを蓄積し、管理している。検索対象のデータからはメタデータが作成され、メタデータもデータベースに格納される。検索の利用者は検索語(検索文)をユーザインタフェースを通して検索を発行し、検索アルゴリズムが適切なデータをデータベースに格納されているメタデータから選択し、選択されたメタデータに対応する検索対象のデータをユーザインタフェースを通して利用者に返答する。 例えばウェブサイトの情報検索では、検索対象のデータが個々のウェブサイトの内容、メタデータがウェブサイトの内容の要約やキーワード・紹介文、ユーザーインターフェースと検索アルゴリズムが検索エンジンにあたる。
情報検索と情報検索システムの全体像
歴史と現在の課題「en:File Retrieval and Editing System」も参照
いわゆるDeep Web(ショッピングサイトなどに代表される、バックエンドの大規模なデータベースが動的なコンテンツを生成するウェブサイト)を対象にした検索
より直観的なユーザインタフェース
より人間に近い高度な判断尺度を持ったマルチメディア情報検索
さまざまなメディアを統合的かつ横断的に扱うクロスメディア情報検索
格納されるデータや検索入力が言語に依存しないマルチリンガル(クロスリンガル)検索環境
P2Pネットワーク等の大規模分散データを対象にした情報検索
情報検索システムの構成要素情報検索システムの全体像
データベース
検索対象のデータ
メタデータ(索引語)
ユーザインタフェース
検索アルゴリズム