memo.xight.org

日々のメモ

GETAによるファイル全文検索

基本

  GETAプログラムは標準で /usr/local/geta にインストールされる
  その下の sbin/mkw を使って,単語出現マトリックス WAM (Word-Article Matrix)を作成することにより
  tf/idf法などによる検索を高速に実行することができる.
  WAMは疎行列を効率的に表現するデータ構造らしい.詳細はたぶん論文に書いてある.
  mkwは単語の出現頻度ファイルを入力とする. 出現頻度ファイルは chasen や MeCab などで作成する.
  検索は WAM ライブラリを使用する.例: search.c

注意

  文書やチュートリアルが用意されているのだが構成が悪く理解しづらい.
  例えばWAMという言葉の説明すらどこにも見当たらない.
  WAMのバイナリデータが cw.c などというファイル名になっておりまぎらわしい.

  単語出現頻度ファイルは以下のような形式になっている必要がある.
  スペースのかわりにタブだとエラーになる.
  @ファイルパス
  2 単語1
  4 単語2

  WAMの置き場所などは検索コマンドの引数で指定するのではなく ci.conf という設定ファイルに記述することになっているらしい.

運用

  単語出現頻度ファイルは,もとのファイルが更新されたときだけ更新する
  find コマンドで単語出現頻度ファイルのリストを作成し, それを引数として mkw を起動することにより WAM を作成する

Reference

  GETAによるファイルの全文検索
  http://pitecan.com/GETA/