memo.xight.org

情報検索

2005-02-28 Mon

アメリカで動画検索サービスが進んでいる理由

- Summary

米国では難視聴者のための字幕「クローズドキャプション」を義務化しており,
番組の字幕情報をメタデータとして検索エンジンに簡単に取り込める

- Reference
  INTERNET Watch - 2005-02-25 - デスクトップの動画検索にgooの検索結果を利用、Web動画検索も視野に
  http://internet.watch.impress.co.jp/cda/event/2005/02/25/6605.html

- via
  SEO ROOT DIRECTORY - 2005-02-28 - 動画検索ソフト「Video Pot」 + goo
  http://sem.ecjapan.co.jp/archives/2005/02/video_pot_goo.html

2004-02-12 Thu

形態素解析と検索エンジンの辞書

- Summary
  GoogleやAmazonではBasis technologyという会社の辞書を用いて形態素解析を行っているが,「お花見」という単語が入っていない.
  SEO的にお花見サイトを作る場合には「花見」「お花見」の両方の単語を利用する必要がある.
- Reference
  Basis technology
  http://www.basistech.com/ja/
- via
  SEO Root Directory - 2004-02-03
  http://sem.ecjapan.co.jp/archives/2004/02/post_66.html

2003-08-05 Tue

BTONIC

- Summary
  大量XMLドキュメントの高速全文検索システム
- 特徴
  高速フルテキスト検索
  DBでは表現できないXMLを活用した複雑なデータ構造をサポート
  Microsoft .NET フレームワークとの組み合わせで高速検索のXML Webサービスが実現可能
- Reference
  BTONIC
  http://www.btonic.com/

2003-06-30 Mon

2003-05-31 Sat

ユーザが行う情報獲得作業

- 情報検索 - Information Retrieval
  データベースから情報を得る最も一般的な作業
  ユーザは要求を`質問(query)'の形にしてデータベースに与える
  ユーザの一時的な要求に応えるもの (要求駆動)
- 情報フィルタリング - Information Filtering
  大量の情報から自分の欲しい情報のみをフィルタで濾過して情報獲得する作業
  ユーザは自分がどういう情報に興味があるか(profile)を設定しておく
  新しく発生した情報のうち,この条件を満たしたものだけが選択されてユーザに届けられる
  ユーザの長期的な要求を対象として,ユーザに有用な情報のみが報告される (データ駆動)
- 情報ブラウジング - Information Browsing
  情報を拾い読みすること.ざっと眺めること.
  情報検索では得られない情報が得られることがある.発見的情報獲得が可能.
  眺めることで,データ間の関係の把握が容易になる.
  情報が大量になると取り扱いにくくなる為,視覚化技術が重要となる.
- Reference
  http://agrinfo.narc.affrc.go.jp/fs/cdrom/3syou/306st/t0603.htm

2003-01-21 Tue

Kabayaki - 全文検索統合環境

- Summary
  Namazu にブラウザで管理できる機能を付け加えた全文検索統合環境.
  オプションパッケージの Sansho を加えることでWord,Excelのプロパティ,一太郎やオアシスも検索可能となる.
- 正しい表記
  Kabayaki 又は ≡KABAYAKI≡
- Debian の sourcelist
  deb http://www.kabayaki.jp/debian kabayaki/
  deb-src http://www.kabayaki.jp/debian kabayaki-src/
- Reference
  Kabayaki.jp
  http://www.kabayaki.jp/

2003-01-11 Sat

GETAによるファイル全文検索

- 基本
  GETAプログラムは標準で /usr/local/geta にインストールされる
  その下の sbin/mkw を使って,単語出現マトリックス WAM (Word-Article Matrix)を作成することにより
  tf/idf法などによる検索を高速に実行することができる.
  WAMは疎行列を効率的に表現するデータ構造らしい.詳細はたぶん論文に書いてある.
  mkwは単語の出現頻度ファイルを入力とする. 出現頻度ファイルは chasen や MeCab などで作成する.
  検索は WAM ライブラリを使用する.例: search.c

- 注意
  文書やチュートリアルが用意されているのだが構成が悪く理解しづらい.
  例えばWAMという言葉の説明すらどこにも見当たらない.
  WAMのバイナリデータが cw.c などというファイル名になっておりまぎらわしい.

  単語出現頻度ファイルは以下のような形式になっている必要がある.
  スペースのかわりにタブだとエラーになる.
  @ファイルパス
  2 単語1
  4 単語2

  WAMの置き場所などは検索コマンドの引数で指定するのではなく ci.conf という設定ファイルに記述することになっているらしい.

- 運用
  単語出現頻度ファイルは,もとのファイルが更新されたときだけ更新する
  find コマンドで単語出現頻度ファイルのリストを作成し, それを引数として mkw を起動することにより WAM を作成する
- Reference
  GETAによるファイルの全文検索
  http://pitecan.com/GETA/

2003-01-10 Fri

汎用連想計算エンジン GETA

- 目的
  連想検索をはじめ,文書分類,単語間類似度計算など,大規模文書の分析に必要な要素技術をサポートすることを目的としている.
- 構成
  汎用連想計算エンジン(GETA)は,文書検索における単語頻度付き索引ファイルを典型とする,
  大規模かつ粗な行列型データを対象として,文書間および単語間の類似度を
  内積型メジャーにより高速計算することを中心とする一連のツール群から構成.
- Reference
  汎用連想計算エンジン(GETA) 公開HP
  http://geta.ex.nii.ac.jp/

2002-12-18 Wed

How to WAM (GETA)

  $GETAROOT/etc/ci.conf に

handle: [Handle]
short-name: [Short-name]
dataroot: /usr/local/geta/data/corpus/mainichi/
jma:p: japanese.sh



  japanese.sh は形態素解析の結果を 1 行に 1 形態素を出力するためのもの.
  dataroot と同じディレクトリに配置する.

- WAM の生成

$ mkw [Handle] freqfile