memo.xight.org

日々のメモ

Unicode Normalizer extension - 文字列を Unicode 正規化する PHP 拡張モジュール

Summary

UTF-8で変換できない機種依存文字を置換する [2006-06-19-13] の PHP拡張モジュールを発見.
IBMによる ICU (International Components for Unicode) を用いて正規化する.

Reference

Page2 - Unicode Normalizer extension
http://page2.xrea.jp/#php_unorm

IBM Globalization - ICU
http://www-306.ibm.com/software/globalization/icu/

Unicode::Normalize で機種依存文字の置換 (Unicodeの正規化)

Summary

UTF-8で変換できない機種依存文字を置換する [2006-06-19-13] の Perl版.
Unicode::Normalize を用いることで簡単に実現できる.

機種依存文字の変換ではなく,正しくは "Unicode の正規化" という作業のようだ.

Reference

daily dayflower - Unicode::Normalize で遊ぶ
http://d.hatena.ne.jp/dayflower/20060605/1149478073

perl5.8のUnicodeサポート
http://www.lr.pi.titech.ac.jp/~abekawa/perl/perl_unicode.html#normalization

Unicode正規化
http://homepage1.nifty.com/nomenclator/unicode/normalization.htm

Unicode::Normalize