memo.xight.org

日々のメモ

カテゴリ : 情報検索

1ページ目 / 全1ページ

想 (IMAGINE) - GETAを利用した連想検索システム

Summary

国立情報学研究所による連想検索システム.
エキスパートによって作られたホワイトリストから検索.
検索結果の一部から連想検索が可能.

Reference

ITmedia News:Googleの限界は「人の手」で破る——国産の新検索「想」
http://www.itmedia.co.jp/news/articles/0606/08/news115.html

アメリカで動画検索サービスが進んでいる理由

Summary

米国では難視聴者のための字幕「クローズドキャプション」を義務化しており,
番組の字幕情報をメタデータとして検索エンジンに簡単に取り込める

- Reference
  INTERNET Watch - 2005-02-25 - デスクトップの動画検索にgooの検索結果を利用、Web動画検索も視野に
  http://internet.watch.impress.co.jp/cda/event/2005/02/25/6605.html

via

  SEO ROOT DIRECTORY - 2005-02-28 - 動画検索ソフト「Video Pot」 + goo
  http://sem.ecjapan.co.jp/archives/2005/02/video_pot_goo.html

形態素解析と検索エンジンの辞書

Summary

  GoogleやAmazonではBasis technologyという会社の辞書を用いて形態素解析を行っているが,「お花見」という単語が入っていない.
  SEO的にお花見サイトを作る場合には「花見」「お花見」の両方の単語を利用する必要がある.

Reference

  Basis technology
  http://www.basistech.com/ja/

via

  SEO Root Directory - 2004-02-03
  http://sem.ecjapan.co.jp/archives/2004/02/post_66.html

BTONIC

Summary

  大量XMLドキュメントの高速全文検索システム

特徴

  高速フルテキスト検索
  DBでは表現できないXMLを活用した複雑なデータ構造をサポート
  Microsoft .NET フレームワークとの組み合わせで高速検索のXML Webサービスが実現可能

Reference

  BTONIC
  http://www.btonic.com/

コンピュータイメージフロンティア

Summary

  光エレクトロニクスと画像工学の専門誌 `O plus E' に Dr.SPIDER 名義で間欠的に掲載されているシリーズ

Reference

  O plus E連載目次 - コンピュータイメージフロンティア
  http://www.ritsumei.ac.jp/~hideytam/opluse.html
  因特網空間の探索と可視化
  http://www.ritsumei.ac.jp/~hideytam/maindoc/search.html

ユーザが行う情報獲得作業

情報検索 - Information Retrieval

  データベースから情報を得る最も一般的な作業
  ユーザは要求を`質問(query)'の形にしてデータベースに与える
  ユーザの一時的な要求に応えるもの (要求駆動)

情報フィルタリング - Information Filtering

  大量の情報から自分の欲しい情報のみをフィルタで濾過して情報獲得する作業
  ユーザは自分がどういう情報に興味があるか(profile)を設定しておく
  新しく発生した情報のうち,この条件を満たしたものだけが選択されてユーザに届けられる
  ユーザの長期的な要求を対象として,ユーザに有用な情報のみが報告される (データ駆動)

情報ブラウジング - Information Browsing

  情報を拾い読みすること.ざっと眺めること.
  情報検索では得られない情報が得られることがある.発見的情報獲得が可能.
  眺めることで,データ間の関係の把握が容易になる.
  情報が大量になると取り扱いにくくなる為,視覚化技術が重要となる.

Reference

  http://agrinfo.narc.affrc.go.jp/fs/cdrom/3syou/306st/t0603.htm

Kabayaki - 全文検索統合環境

Summary

  Namazu にブラウザで管理できる機能を付け加えた全文検索統合環境.
  オプションパッケージの Sansho を加えることでWord,Excelのプロパティ,一太郎やオアシスも検索可能となる.

正しい表記

  Kabayaki 又は ≡KABAYAKI≡

Debian の sourcelist

  deb http://www.kabayaki.jp/debian kabayaki/
  deb-src http://www.kabayaki.jp/debian kabayaki-src/

Reference

  Kabayaki.jp
  http://www.kabayaki.jp/

GETAによるファイル全文検索

基本

  GETAプログラムは標準で /usr/local/geta にインストールされる
  その下の sbin/mkw を使って,単語出現マトリックス WAM (Word-Article Matrix)を作成することにより
  tf/idf法などによる検索を高速に実行することができる.
  WAMは疎行列を効率的に表現するデータ構造らしい.詳細はたぶん論文に書いてある.
  mkwは単語の出現頻度ファイルを入力とする. 出現頻度ファイルは chasen や MeCab などで作成する.
  検索は WAM ライブラリを使用する.例: search.c

注意

  文書やチュートリアルが用意されているのだが構成が悪く理解しづらい.
  例えばWAMという言葉の説明すらどこにも見当たらない.
  WAMのバイナリデータが cw.c などというファイル名になっておりまぎらわしい.

  単語出現頻度ファイルは以下のような形式になっている必要がある.
  スペースのかわりにタブだとエラーになる.
  @ファイルパス
  2 単語1
  4 単語2

  WAMの置き場所などは検索コマンドの引数で指定するのではなく ci.conf という設定ファイルに記述することになっているらしい.

運用

  単語出現頻度ファイルは,もとのファイルが更新されたときだけ更新する
  find コマンドで単語出現頻度ファイルのリストを作成し, それを引数として mkw を起動することにより WAM を作成する

Reference

  GETAによるファイルの全文検索
  http://pitecan.com/GETA/

汎用連想計算エンジン GETA

目的

  連想検索をはじめ,文書分類,単語間類似度計算など,大規模文書の分析に必要な要素技術をサポートすることを目的としている.

構成

  汎用連想計算エンジン(GETA)は,文書検索における単語頻度付き索引ファイルを典型とする,
  大規模かつ粗な行列型データを対象として,文書間および単語間の類似度を
  内積型メジャーにより高速計算することを中心とする一連のツール群から構成.

Reference

  汎用連想計算エンジン(GETA) 公開HP
  http://geta.ex.nii.ac.jp/

専門用語自動抽出システム

Summary

  「専門用語の多くは複合語,とりわけ複合名詞である.」ということに着目.

termex.pl

  茶筌の出力から専門用語を抽出
  http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/resource/termext/termex.tar.gz

Reference

  専門用語自動抽出システム
  http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/resource/termext/atr.html

How to WAM (GETA)

  $GETAROOT/etc/ci.conf に

handle: [Handle]
short-name: [Short-name]
dataroot: /usr/local/geta/data/corpus/mainichi/
jma:p: japanese.sh

  japanese.sh は形態素解析の結果を 1 行に 1 形態素を出力するためのもの.
  dataroot と同じディレクトリに配置する.

WAM の生成

$ mkw [Handle] freqfile