大量の情報から自分の欲しい情報のみをフィルタで濾過して情報獲得する作業
  ユーザは自分がどういう情報に興味があるか(profile)を設定しておく
  新しく発生した情報のうち，この条件を満たしたものだけが選択されてユーザに届けられる
  ユーザの長期的な要求を対象として，ユーザに有用な情報のみが報告される (データ駆動)

情報ブラウジング - Information Browsing

  情報を拾い読みすること．ざっと眺めること．
  情報検索では得られない情報が得られることがある．発見的情報獲得が可能．
  眺めることで，データ間の関係の把握が容易になる．
  情報が大量になると取り扱いにくくなる為，視覚化技術が重要となる．

Reference

http://agrinfo.narc.affrc.go.jp/fs/cdrom/3syou/306st/t0603.htm

Kabayaki - 全文検索統合環境

Posted on 2003-01-21 | Tagged : 情報検索

Summary

Namazu にブラウザで管理できる機能を付け加えた全文検索統合環境．
オプションパッケージの Sansho を加えることでWord，Excelのプロパティ，一太郎やオアシスも検索可能となる．

正しい表記

Kabayaki 又は ≡ＫＡＢＡＹＡＫＩ≡

Debian の sourcelist

deb http://www.kabayaki.jp/debian kabayaki/
deb-src http://www.kabayaki.jp/debian kabayaki-src/

Reference

Kabayaki.jp
http://www.kabayaki.jp/

GETA のごく簡単なチュートリアル

Posted on 2003-01-16 | Tagged : 情報検索, GETA

Reference

GETA のごく簡単なチュートリアル
http://geta.ex.nii.ac.jp/getaN2001/gdoc/geta/tutorial/wam/

GETAによるファイル全文検索

Posted on 2003-01-11 | Tagged : 情報検索, GETA

基本

  GETAプログラムは標準で /usr/local/geta にインストールされる
  その下の sbin/mkw を使って，単語出現マトリックス WAM (Word-Article Matrix)を作成することにより
  tf/idf法などによる検索を高速に実行することができる．
  WAMは疎行列を効率的に表現するデータ構造らしい．詳細はたぶん論文に書いてある．
  mkwは単語の出現頻度ファイルを入力とする．出現頻度ファイルは chasen や MeCab などで作成する．
  検索は WAM ライブラリを使用する．例: search.c

注意

  文書やチュートリアルが用意されているのだが構成が悪く理解しづらい．
  例えばWAMという言葉の説明すらどこにも見当たらない．
  WAMのバイナリデータが cw.c などというファイル名になっておりまぎらわしい．

  単語出現頻度ファイルは以下のような形式になっている必要がある．
  スペースのかわりにタブだとエラーになる．
  @ファイルパス
  2 単語1
  4 単語2

  WAMの置き場所などは検索コマンドの引数で指定するのではなく ci.conf という設定ファイルに記述することになっているらしい．

運用

単語出現頻度ファイルは，もとのファイルが更新されたときだけ更新する
find コマンドで単語出現頻度ファイルのリストを作成し，それを引数として mkw を起動することにより WAM を作成する

Reference

GETAによるファイルの全文検索
http://pitecan.com/GETA/

汎用連想計算エンジン GETA

Posted on 2003-01-10 | Tagged : 情報検索, GETA

目的

連想検索をはじめ，文書分類，単語間類似度計算など，大規模文書の分析に必要な要素技術をサポートすることを目的としている．

構成

  汎用連想計算エンジン(GETA)は，文書検索における単語頻度付き索引ファイルを典型とする，
  大規模かつ粗な行列型データを対象として，文書間および単語間の類似度を
  内積型メジャーにより高速計算することを中心とする一連のツール群から構成．

Reference

汎用連想計算エンジン(GETA) 公開HP
http://geta.ex.nii.ac.jp/

専門用語自動抽出システム

Posted on 2003-01-10 | Tagged : 情報検索

Summary

「専門用語の多くは複合語，とりわけ複合名詞である．」ということに着目．

termex.pl

茶筌の出力から専門用語を抽出
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/resource/termext/termex.tar.gz

Reference

専門用語自動抽出システム
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/resource/termext/atr.html

How to WAM (GETA)

Posted on 2002-12-18 | Tagged : 情報検索, GETA

$GETAROOT/etc/ci.conf に

handle: [Handle]
short-name: [Short-name]
dataroot: /usr/local/geta/data/corpus/mainichi/
jma:p: japanese.sh

japanese.sh は形態素解析の結果を 1 行に 1 形態素を出力するためのもの．
dataroot と同じディレクトリに配置する．

WAM の生成

$ mkw [Handle] freqfile