« 6月9日のラッキーさん | メイン | »


 2005年06月09日

この日のCOTOBACO

検索サービスの運用側から見た検索技術の動向


blogWatcher、gooなど検索サービスの運用側から見た検索技術の動向

幕張メッセで開催中の「Interop Tokyo 2005」で8日、「インターネット検索技術にせまる! ネットから価値を引き出すあの技術、この技術」と題したワークショップが行なわれた。検索サービスに関する最近の動向や、実際のWeb検索サービスの構築から得られたノウハウなどが紹介された。
収集したページは文章を単語レベルに分解し、単語をキーとした検索インデックスを作成する。この際に、単語がページのどこで出現したかを示す指標や、単語間の関連性などをインデックスに含めることで、検索時間の短縮や検索精度の向上が図れるが、インデックス化に時間がかかるとそれだけ検索結果に新しいページが反映されるのが遅くなる。この問題への対処法としては、クローラーが収集したページをリアルタイムでインデックス化する方式を採用し、通常の検索処理を継続したままデータの追加・更新を可能にするサービスの実現を目指したという。

で、検索用のサーバがクラスタ構成のLinuxサーバ350台だそうです。

350台・・・。

ちなみにBlogPeopleの検索サーバは1台なんで、まったくお話にならないわけですが、1台の割にはよくがんばってますね。

検索システムもクローリングとインデッキシングのところでいろいろ工夫していかに早くインデックスを更新し、かつ、検索スピードを落とさないようにするか、というのがチャレンジなのですが、その部分が落ち着いてくると今度は検索結果の品質、というのが問題になってきてアダルトとか広告なんかの記事をいかに排除していくかというのが重要になってくるわけですが、そういうのに日々まじめに対応していると自分の神経がどんどん暗黒面のフォースに犯されていくのがわかります。

サスケ君が大蛇丸のとこに行ったのとか、アナキンがダースベータになった気持ちもわからなくないなあ。

激写Vol.6 卒業記念 川崎乃亜 in Amazon.co.jp


 投稿者 nagasawa : 2005年06月09日 13:55

 トラックバック

このエントリーのトラックバックURL:(モダシンへのリンクが記事中にない場合は弾かれます)
413

このリストは、次のエントリーを参照しています: 検索サービスの運用側から見た検索技術の動向:

» サイトリニューアルです。 from エロフラッシュ・エロ動画・エロ画像の日本軽罪新聞
皆さんお待たせしました。日本軽罪新聞が帰ってきました!! (誰も待ってないか・・) 世界のエロを学ぶために旅立っていて書き込みできずにうずうずしとりました。... [続きを読む]

トラックバック時刻: 2005年06月13日 21:16