- Summary
国立情報学研究所による連想検索システム.
エキスパートによって作られたホワイトリストから検索.
検索結果の一部から連想検索が可能.
- Reference
ITmedia News:Googleの限界は「人の手」で破る——国産の新検索「想」
http://www.itmedia.co.jp/news/articles/0606/08/news115.html
きまぐれ日記: キーワード抽出: tf-idf の意味づけ
http://chasen.org/~taku/blog/archives/2005/11/_tfidf_1.html
- Summary
米国では難視聴者のための字幕「クローズドキャプション」を義務化しており,
番組の字幕情報をメタデータとして検索エンジンに簡単に取り込める
- Reference
INTERNET Watch - 2005-02-25 - デスクトップの動画検索にgooの検索結果を利用、Web動画検索も視野に
http://internet.watch.impress.co.jp/cda/event/2005/02/25/6605.html
- via
SEO ROOT DIRECTORY - 2005-02-28 - 動画検索ソフト「Video Pot」 + goo
http://sem.ecjapan.co.jp/archives/2005/02/video_pot_goo.html
- Modern Information Retrieval (Acm Press Series)

- Introduction to Modern Information Retrieval (Computer Science S.)

- Reference
洋書: Modern Information Retrieval (Acm Press Series)
洋書: Introduction to Modern Information Retrieval (Computer Science S.)
- TermExtract
http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html
- termex
http://gensen.dl.itc.u-tokyo.ac.jp/win.html
- Reference
”専門用語 (キーワード) 自動抽出システム”のページ
http://gensen.dl.itc.u-tokyo.ac.jp/
- Summary
GoogleやAmazonではBasis technologyという会社の辞書を用いて形態素解析を行っているが,「お花見」という単語が入っていない.
SEO的にお花見サイトを作る場合には「花見」「お花見」の両方の単語を利用する必要がある.
- Reference
Basis technology
http://www.basistech.com/ja/
- via
SEO Root Directory - 2004-02-03
http://sem.ecjapan.co.jp/archives/2004/02/post_66.html
- Summary
大量XMLドキュメントの高速全文検索システム
- 特徴
高速フルテキスト検索
DBでは表現できないXMLを活用した複雑なデータ構造をサポート
Microsoft .NET フレームワークとの組み合わせで高速検索のXML Webサービスが実現可能
- Reference
BTONIC
http://www.btonic.com/
- Summary
光エレクトロニクスと画像工学の専門誌 `O plus E' に Dr.SPIDER 名義で間欠的に掲載されているシリーズ
- Reference
O plus E連載目次 - コンピュータイメージフロンティア
http://www.ritsumei.ac.jp/~hideytam/opluse.html
因特網空間の探索と可視化
http://www.ritsumei.ac.jp/~hideytam/maindoc/search.html
- 情報検索 - Information Retrieval
データベースから情報を得る最も一般的な作業
ユーザは要求を`質問(query)'の形にしてデータベースに与える
ユーザの一時的な要求に応えるもの (要求駆動)
- 情報フィルタリング - Information Filtering
大量の情報から自分の欲しい情報のみをフィルタで濾過して情報獲得する作業
ユーザは自分がどういう情報に興味があるか(profile)を設定しておく
新しく発生した情報のうち,この条件を満たしたものだけが選択されてユーザに届けられる
ユーザの長期的な要求を対象として,ユーザに有用な情報のみが報告される (データ駆動)
- 情報ブラウジング - Information Browsing
情報を拾い読みすること.ざっと眺めること.
情報検索では得られない情報が得られることがある.発見的情報獲得が可能.
眺めることで,データ間の関係の把握が容易になる.
情報が大量になると取り扱いにくくなる為,視覚化技術が重要となる.
- Reference
http://agrinfo.narc.affrc.go.jp/fs/cdrom/3syou/306st/t0603.htm
- Summary
Namazu にブラウザで管理できる機能を付け加えた全文検索統合環境.
オプションパッケージの Sansho を加えることでWord,Excelのプロパティ,一太郎やオアシスも検索可能となる.
- 正しい表記
Kabayaki 又は ≡KABAYAKI≡
- Debian の sourcelist
deb http://www.kabayaki.jp/debian kabayaki/
deb-src http://www.kabayaki.jp/debian kabayaki-src/
- Reference
Kabayaki.jp
http://www.kabayaki.jp/
- Reference
GETA のごく簡単なチュートリアル
http://geta.ex.nii.ac.jp/getaN2001/gdoc/geta/tutorial/wam/
- 基本
GETAプログラムは標準で /usr/local/geta にインストールされる
その下の sbin/mkw を使って,単語出現マトリックス WAM (Word-Article Matrix)を作成することにより
tf/idf法などによる検索を高速に実行することができる.
WAMは疎行列を効率的に表現するデータ構造らしい.詳細はたぶん論文に書いてある.
mkwは単語の出現頻度ファイルを入力とする. 出現頻度ファイルは chasen や MeCab などで作成する.
検索は WAM ライブラリを使用する.例: search.c
- 注意
文書やチュートリアルが用意されているのだが構成が悪く理解しづらい.
例えばWAMという言葉の説明すらどこにも見当たらない.
WAMのバイナリデータが cw.c などというファイル名になっておりまぎらわしい.
単語出現頻度ファイルは以下のような形式になっている必要がある.
スペースのかわりにタブだとエラーになる.
@ファイルパス
2 単語1
4 単語2
WAMの置き場所などは検索コマンドの引数で指定するのではなく ci.conf という設定ファイルに記述することになっているらしい.
- 運用
単語出現頻度ファイルは,もとのファイルが更新されたときだけ更新する
find コマンドで単語出現頻度ファイルのリストを作成し, それを引数として mkw を起動することにより WAM を作成する
- Reference
GETAによるファイルの全文検索
http://pitecan.com/GETA/
- 目的
連想検索をはじめ,文書分類,単語間類似度計算など,大規模文書の分析に必要な要素技術をサポートすることを目的としている.
- 構成
汎用連想計算エンジン(GETA)は,文書検索における単語頻度付き索引ファイルを典型とする,
大規模かつ粗な行列型データを対象として,文書間および単語間の類似度を
内積型メジャーにより高速計算することを中心とする一連のツール群から構成.
- Reference
汎用連想計算エンジン(GETA) 公開HP
http://geta.ex.nii.ac.jp/
- Summary
「専門用語の多くは複合語,とりわけ複合名詞である.」ということに着目.
- termex.pl
茶筌の出力から専門用語を抽出
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/resource/termext/termex.tar.gz
- Reference
専門用語自動抽出システム
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/resource/termext/atr.html
$GETAROOT/etc/ci.conf に
handle: [Handle] short-name: [Short-name] dataroot: /usr/local/geta/data/corpus/mainichi/ jma:p: japanese.sh
japanese.sh は形態素解析の結果を 1 行に 1 形態素を出力するためのもの.
dataroot と同じディレクトリに配置する.
- WAM の生成
$ mkw [Handle] freqfile