UTF-8 に対応した分かち書きツール
2006-04-19


開発版の kakasi では UTF-8 の入出力が可能です。
しかし、内部で EUC-JP に変換して処理後、UTF-8 に再変換して出力するだけですので、EUC-JP に含まれない文字の処理はできません。
kakasi では3バイト文字に対応していませんので、JISX0212補助漢字(またはJISX0213 JIS第3/4水準漢字)には対応していません。

このため、Namazu の UTF-8 化に伴い、UTF-8 の分かち書きが可能なツールが欲しいものです。
Namazu の開発版には簡易分かち書き機能がありますので、これを発展させるか、あるいは kakasi の分かち書き機能を切り出して UTF-8 化を行うというのも良いかもしれません。

なお、ChaSen, MeCab は、辞書を UTF-8 で用意すれば UTF-8 で処理が可能ではあります。
[NG]

コメント(全0件)
コメントをする


記事を書く
powered by ASAHIネット