情報検索

ページ名:情報検索

図書館情報学における情報検索については「情報検索 (図書館情報学)」をご覧ください。

情報検索(じょうほうけんさく)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。インターネットの発達により検索はインターネットを介して行われることも多いが、ここでは情報を検索するためのコンピュータ側における仕組みを記述している。

情報検索に対するコンピュータ側における技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。


目次

情報検索と情報検索システムの全体像[編集]

情報検索が基盤としている技術は多数の分野にのぼる。情報検索はデータの管理および入出力のためのデータベース、文書データ処理のための自然言語処理や計算言語学、画像や音声を扱うための信号処理や認知心理学を背景とするパターン認識技術、メタデータに関する考察の基盤となった図書館情報学、検索アルゴリズム設計や情報検索システムの評価尺度考案のヒントとして寄与した諸数学理論などのさまざまな要素技術の組み合わせによって成り立っている。情報検索システムは情報検索を実現するためのソフトウェアやハードウェアによって構成されるシステムである。ここでは主にソフトウェアに関して、現在よく用いられているシステムの構成について述べる。

歴史と現在の課題[編集]

「en:File Retrieval and Editing System」も参照

1970年代に、大規模に蓄積される学術文献や論文等の管理をコンピュータ上で行うために、規模の大きい図書館でデータの管理と検索が行われるようになり、需要に応えるべく情報検索システムの開発が進んだ。図書館における蔵書検索や電子ジャーナル、統計資料のデータベースなどへの応用は現在でも盛んに用いられているほか、1990年代から広まったGoogleやgooのようなWorld Wide Web上のデータを対象にした検索エンジンが現在では情報検索のシステムとして特に身近な存在となっている。2000年代以降の情報検索の課題は、例として以下のようにまとめることができる。

  • いわゆるDeep Web(ショッピングサイトなどに代表される、バックエンドの大規模なデータベースが動的なコンテンツを生成するウェブサイト)を対象にした検索
  • より直観的なユーザインタフェース
  • より人間に近い高度な判断尺度を持ったマルチメディア情報検索
  • さまざまなメディアを統合的かつ横断的に扱うクロスメディア情報検索
  • 格納されるデータや検索入力が言語に依存しないマルチリンガル(クロスリンガル)検索環境
  • P2Pネットワーク等の大規模分散データを対象にした情報検索

情報検索システムの構成要素[編集]

情報検索システムは主に以下に挙げる要素によって構成されている。

  • データベース
  • 検索対象のデータ
  • メタデータ(索引語)
  • ユーザインタフェース
  • 検索アルゴリズム

データベースは検索対象のデータを蓄積し、管理している。検索対象のデータからはメタデータが作成され、メタデータもデータベースに格納される。検索の利用者は検索語(検索文)をユーザインタフェースを通して検索を発行し、検索アルゴリズムが適切なデータをデータベースに格納されているメタデータから選択し、選択されたメタデータに対応する検索対象のデータをユーザインタフェースを通して利用者に返答する。

例えばウェブサイトの情報検索では、検索対象のデータが個々のウェブサイトの内容、メタデータがウェブサイトの内容の要約やキーワード・紹介文、ユーザーインターフェースと検索アルゴリズムが検索エンジンにあたる。検索エンジンは検索キーワードに一致するメタデータをデータベースから選択し、選択されたメタデータに対応する検索対象のデータを検索結果に表示する。

情報検索システム構築の手続き[編集]

情報検索システムの構築は以下のフェーズを経て行われる。順序は必ずしも一定ではなく、構築するシステムの内容や外的環境によって異なる。

検索対象データ収集[編集]

検索の対象とするデータの収集方針を決定する。World Wide Web上のハイパーテキストを収集して対象とする場合にはクローラ(ロボット、スパイダー)を用いて自動的な収集を行うのが一般的であるが、天文学的数量の膨大なデータが存在し、かつ急激に変化するWorld Wide Webのデータを全て網羅して収集することは事実上不可能である。そのため、いかにして網羅的に多くの対象のデータを収集するかが重要な課題となっており、World Wide Web検索エンジンのサービスでは何ページのデータか検索が可能であるかが性能の指標の一つとなっている。

検索対象のデータからのメタデータ作成[編集]

検索対象のデータからのメタデータを作成する。メタデータの形式および作成方法は検索アルゴリズムやデータ収集の方針と密接に関連する。たとえばデータ収集が継続的かつ大規模に行われるような場合、人手を使ってメタデータを作成することはコストの大幅な増大を意味することになる。

検索アルゴリズムの設計[編集]

作成されたメタデータを用いてどのような計算を用いてデータを出力するか決定する。検索アルゴリズムの詳細についてはメタデータ生成法と情報検索アルゴリズムを参照。

検索性能の評価[編集]

情報検索システムの検索性能の評価を行う。情報検索システムの検索性能は主に正確性と網羅性の質的な観点から適合率(precision;精度ともいう)と再現率(recall)を、処理性能の量的な観点からスループットを測定することにより判定するのが一般的である。適合率は検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標であり、再現率は検索対象としている文書の中で検索結果として適合している文書(正解文書)のうちでどれだけの文書を検索できているかという網羅性の指標である。適合率は、

(R:検索された適合文書の数、N:検索結果の文書の数) によって、再現率は、

(R:検索された適合文書の数、C:全対象文書中の正解文書の数) によって求められる。

適合率をあげれば再現率が下がり、再現率を上げれば適合率が下がる傾向にあるため、F値(F-measure)という尺度もよく用いられる。F値は適合率と再現率の調和平均であり、

によって求められ、RをNとCの相加平均で割ったものに相当する。F値が高ければ、性能が良いことを意味する。

情報検索技術の分類[編集]

情報検索の技術は以下のような観点で分類できる。

検索対象データの抽象度[編集]

直接検索メタデータを介さずデータそのものを直接計算アルゴリズム上で処理する検索方法。例としてハミングによる検索の入力を行い類似する音程の音楽を検索するもの等。実用上は、前処理としての索引の生成を事前におこなう方式も多いが、このような場合もデータに含まれる表現をそのまま用いて検索を行うため検索モデルとしては直接検索に分類される。全文検索直接検索の一種であり、文書データの全文から自動処理の走査によりメタデータを作成して保管し、検索の入力に合致するデータを検索結果とする検索方法。「全文検索システムNamazu」、「Apache Solr] 等が用いられている。間接検索データベースに蓄積されたデータからメタデータを生成して保管し、検索の入力が行われた際に内部表現に変換された検索の入力と保管されたメタデータを比較することにより検索結果を生成する検索方法。

検索入力の種類[編集]

検索入力は検索結果を求めるのに必要な情報で、言語に限らないが問い合わせ言語という意味でのクエリと考えてよい。

単語(キーワード)単語(キーワード)を指定することによって検索を行う。もっとも単純な形式と言える。検索したいキーワードを入力した後で実際の検索を開始させるコマンドを発行する方式が古典的だが、一文字入力するごとに直ちに検索が始まり、入力を進めるたびに絞りこまれていくインクリメンタルサーチも広く利用されている。さらに検索回数などでランク付けし、入力に続くキーワードと検索結果を予測して列挙する、その一覧をランクによってソートして素早く結果を提示するだけでなく、あいまい検索や「昨日」「今日」などの相対的な表現から日付を特定するといった、より自然な単語での検索を可能にする、ワイルドカードなど、他の種類の検索入力を取り込んで複雑化している分野でもある。検索言語システム特有の検索言語を用いて検索を行う方法。論理和・論理積などのブール論理の演算を検索の絞り込みに利用する際に用いられる。研究者や法律・医学等の専門的な実務家など、特定の分野の専門家を対象にした検索システムなどに用いられることが多い。SQLのようなデータベース管理システムで標準規格に則った言語を用いることもあるが、特定の検索エンジン特有の検索言語を用いているシステムも多い。実現例としてはIEEE Xploreなどがある。直接入力検索のパラメータとなる関連するデータを直接入力する方法。たとえば特定の画像を入力にして類似した画像を検索するもの(顔認証システム、Google画像検索の画像指定検索など)や、ハミング(鼻歌)の入力を受けて関連する音楽クリップを検索するものなどが研究されている。パターン認識技術と密接に関わる。自然文検索に関わるユーザインタフェースの研究として古くから研究が行われている。近年ではGoo ラボによって開発された「日本語自然文検索」が大手の検索エンジンとしては比較的珍しい自然文検索を試験的に提供したことで話題を集めた。文書文書そのものを入力し、入力した文書と類似する文書を検索する。例示による問い合わせ(Query by Example)と呼ばれることもある。マルチメディア文書検索ではキーワード検索よりも一般的に用いられる方法である。

検索アルゴリズム[編集]

情報検索に用いられるアルゴリズムは数多く提案されている。ここでは代表的なものについて概説する。情報検索アルゴリズムの詳細については情報検索アルゴリズムを参照のこと。

一般に情報検索システムの構築時にはメタデータ生成時に索引を同時に作成し、検索アルゴリズムによる検索結果の評価の際に索引を用いた最適化を行うが、メタデータの生成法や索引の詳細についてはここでは扱わない。

パターンマッチング検索質問として入力された表現をそのまま含む文書を検索するアルゴリズム。現在では単純にパターンのみを探すではなく、活用形の変化による同義語のパターンの不一致を解消した検索を行ったりといった拡張がしばしば行われる。パターンマッチング自体の詳細なアルゴリズムについては文字列探索を参照。ブール論理パターンマッチングの検索に付け加え、メタデータの属性ごとの絞り込み条件を論理和・論理積などによって組み合わせて併用する検索方法。ベクトル空間モデルキーワード等を各次元として設定した高次元ベクトル空間を想定し、検索の対象とするデータやユーザによる検索質問に何らかの加工を行いベクトルを生成する。ベクトル空間上に検索対象となるベクトルを配置し、ベクトル化された検索質問とデータのベクトルの相関量(ベクトル間のコサイン、内積、ユークリッド距離などが用いられる。)によって検索の対象のデータと検索質問の関係の強さを計算するモデル。潜在的意味索引付け(潜在的意味分析、LSI)ベクトル空間モデルの応用として考案された検索アルゴリズム。高次元ベクトル空間を行列として扱い特異値分解を行い、得られた直交低次元ベクトル空間上検索を行う。単純なベクトル空間モデルでの検索に比べて、同義語が用いられている文書間の関連を反映し、検索の対象のデータの内容的な偏りに影響を受けにくい検索を行うことができるというメリットがある。

特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。

シェアボタン: このページをSNSに投稿するのに便利です。


最近更新されたページ

左メニュー

左メニューサンプル左メニューはヘッダーメニューの【編集】>【左メニューを編集する】をクリックすると編集できます。ご自由に編集してください。掲示板雑談・質問・相談掲示板更新履歴最近のコメントカウン...

鼻葉

鼻葉(びよう)とは、小型のコウモリで発達している鼻のまわりの複雑なひだのこと。キクガシラコウモリ類やカグラコウモリ類でよく発達している。エコーロケーションを行うとき、超音波をコントロールするのに役に立...

黒住教

黒住教(くろずみきょう)は、岡山県岡山市にある今村宮の神官、黒住宗忠が江戸時代(文化11年11月11日・西暦1814年)に開いた教派神道で、神道十三派の一つである。同じ江戸時代末期に開かれた天理教、金...

黄疸

黄疸(おうだん、英: jaundice)とは、病気や疾患に伴う症状の1つ。身体にビリルビンが過剰にあることで眼球や皮膚といった組織や体液が黄染した(黄色く染まる)状態。目次1 黄疸の発生機序[編集]2...

黄泉

黄泉(よみ)とは、日本神話における死者の世界のこと。古事記では黄泉國(よみのくに、よもつくに)と表記される。目次1 語源[編集]2 記紀の伝承[編集]2.1 『古事記』[編集]2.2 『日本書紀』[編...

黄巾の乱

「紅巾の乱」とは異なります。黄巾の乱赤が黄巾の乱が発生した地域(184年)戦争:黄巾の乱年月日:184年場所:中国全土結果:後漢の勝利交戦勢力後漢黄巾賊指導者・指揮官何進皇甫嵩朱儁盧植董卓 他張角張宝...

麻痺性筋色素尿症

麻痺性筋色素尿症(まひせいきんしきそにょうしょう、paralytic myoglobinuria)とは数日の休養の後に激しい運動をさせた時に発生する牛や馬の疾病。蓄積されたグリコーゲンが著しい代謝によ...

鹿児島県立財部高等学校

鹿児島県立財部高等学校(かごしまけんりつ たからべこうとうがっこう, Kagoshima Prefectural Takarabe High School)は、鹿児島県曽於市財部町南俣に所在した公立の...

鳩胸

鳩胸(はとむね)は、胸部が鳩の胸のように高く突き出ていること。特に記載のない限り、コミュニティのコンテンツはCC BY-SAライセンスの下で利用可能です。...

魚沼丘陵

魚沼丘陵(うおぬまきゅうりょう)は、新潟県中越地方南部にある丘陵。地理[編集]魚野川流域の魚沼盆地(六日町盆地とも)と信濃川流域の十日町盆地を隔てている。行政区分では湯沢町、十日町市、南魚沼市、魚沼市...

魔虫兵ビービ

概要『天装戦隊ゴセイジャー』と言う番組における全敵組織共通の戦闘員で、ブレドランが使役するビービ虫が木偶人形に取り憑く事で生み出される。緑を基調として顔には山羊、胴体には蝙蝠と言う具合に悪魔を思わせる...

魏略

『魏略』(ぎりゃく)は、中国三国時代の魏を中心に書かれた歴史書。後に散逸したため、清代に王仁俊が逸文を集めて輯本を編したが、はなはだ疎漏であったため張鵬一が民国11年(1922年)に再び編した。著者は...

高齢者虐待

高齢者虐待(こうれいしゃぎゃくたい、Elder abuse)とは、家庭内や施設内での高齢者に対する虐待行為である。老人虐待(ろうじんぎゃくたい)とも称される。人間関係種類ボーイフレンドブロマンス同棲側...

高等工業学校

旧制教育機関 > 旧制高等教育機関 > 旧制専門学校 > 旧制実業専門学校 > 高等工業学校高等工業学校(こうとうこうぎょうがっこう)は、第二次世界大戦後の学制改革が行われるまで存在した日本の旧制高等...

高知大学教育学部附属中学校

出典: フリー百科事典『ウィキペディア(Wikipedia)』ナビゲーションに移動検索に移動高知大学教育学部附属中学校過去の名称高知県師範学校附属小学校高等科高知師範学校男子部附属国民学校高等科高知師...

高槻市立第九中学校

出典: フリー百科事典『ウィキペディア(Wikipedia)』ナビゲーションに移動検索に移動高槻市立第8中学校国公私立公立学校設置者高槻市併合学校高槻市立第五中学校設立年月日1972年4月1日創立記念...

高杉晋作が登場する大衆文化作品一覧

高杉晋作 > 高杉晋作が登場する大衆文化作品一覧高杉晋作が登場する大衆文化作品一覧(たかすぎしんさくがとうじょうするたいしゅうぶんかさくひんいちらん)目次1 小説[編集]2 映画[編集]3 テレビドラ...

高杉晋作

出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2015年10月)高杉晋作高杉晋作通称東行生年天保10年8月20日(...

高月北

高月北は、大阪府泉北郡忠岡町の地名。高月北1丁目及び2丁目がある。脚注[編集][脚注の使い方]参考文献[編集]この節の加筆が望まれています。外部リンク[編集]この節の加筆が望まれています。この項目は、...

高所恐怖症

高所恐怖症分類および外部参照情報診療科・学術分野精神医学ICD-10F40.2ICD-9-CM300.29テンプレートを表示高所恐怖症(こうしょきょうふしょう)は、特定の恐怖症のひとつ。高い所(人によ...