Archive for the '未分類' Category

ロボット型検索エンジンの特徴

ロボット型検索エンジンの特徴

現在、主流となっているロボット型検索エンジン。ディレクトリー型との大きな違いの1つにWEBページの収集方法です。

ディレクトリー型では、人手によって収集・整理していた情報を、ロボット型では、クローラー(スパイダー)と呼ばれるソフトを利用して、WEBページを巡回し、情報収集しています。

ロボット型のクエリープロセス

ロボット型検索エンジンは下記のように情報を収集・整理し、検索結果を返します。下記3ステップの一連の流れをクエリープロセスと呼びます。

STEP1:クローリング
クローラーは、WEBページを巡回しながら、そのページのコンテンツを収集していきます。
巡回は、Yahoo!カテゴリーなど、ディレクトリ型の信頼性の高いサイトから巡回をはじめ、ページ上のリンクをたどり巡回していく。

STEP2:インデクシング
収集したページのコンテンツを分類・整理し、インデックスを作成、データベース化する。
インデックス(索引)を作ることで、膨大なデータを効率的に引き出すことができる。

STEP3:クエリー
ユーザーが検索キーワードを入力して検索すると、検索エンジンは同じキーワードを含むページや重要性・関連性の高いと思われるページをインデックスの中から探し出し、検索結果を表示する。

ページ順位を決める検索アルゴリズム

検索結果に表示されるWEBページは、適合性や関連性などが評価され、評価ポイントの高いページから順付けされます。
この評価に用いられる技術が「検索アルゴリズム」です。

検索アルゴリズムは、検索エンジンによって異なります。
ある検索エンジンは<TITLE>タグ内のテキストを重要視したり、ある検索エンジンは<Strong>タグ内のテキストを重要視しているかもしれません。
この、検索アルゴリズムは、公表されていないので、はっきりとしたアルゴリズムの内容は不明です。現在はアルゴリズムも複雑化し、何百という評価基準からWEBページの評価を行っているそうです。

ロボット型検索エンジンの長所と短所

瞬時に検索

Yahoo!やGoogleで検索すると、瞬時に何十万件、何百万件という検索結果が返ってきます。
これは、収集された膨大なデータをインデックス化していることにより、1秒以内という早さで表示されます。

WEBページ単位での検索

ディレクトリ型では、サイト単位の検索結果を表示しますが、ロボット型はWEBページ単位で検索できるので、自分の求める情報にピンポイントでアクセスすることができる。

検索結果で返ってくる情報が多すぎる。

検索キーワードによっては、数百万件という検索結果が返ってきますが、あまりに多すぎる情報では求める情報がどこにあるのかわかりづらい。

この検索結果に返ってくる情報を減らす(絞り込む)ことが可能ですが、絞り込むには複合キーワード検索というテクニックが必要になります。適切な複合キーワードを選ぶスキルが必要となる。

検索エンジンはディレクトリ型とロボット型の2種類ありましたが、それぞれの特徴を理解しておくと検索する際に「Yahoo!カテゴリがら探した方が確実な情報がみれる」とか「情報はロボット型からの方が最新だ!」など検索目的にあわせて利用すると、効率的な検索ができるでしょう。

次ページへ »