memo.xight.org

日々のメモ

SimString - Pythonの類似文字列検索ライブラリ

Summary

類似文字列検索のためのPythonのライブラリ。
検索漏れがなく、高速な検索を実現する。
1クエリあたり Google Web 1Tコーパスで1.10ms程度で検索可能とのこと。
BSDライセンス。

Reference

SimString (類似文字列検索ライブラリ) 1.0 released
http://www.chokkan.org/blog/archives/285

SimString
http://www.chokkan.org/software/simstring/

LDC Catalog - Web 1T 5-gram Version 1
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13