2005-12-07
Malformed UTF-8 character .... というワーニングやWide character in print at mknmz といったワーニングが発生し、インデックスを壊す可能性があるので、とりあえずfilter/html.pl の decode_numbered_entity で、256以上を削除するようにしました。(本来ですと 128以上は削除しなければなりませんが...。)
日本語環境では元々128以上は削除されるので、あまり関係ありません。
filter/gnumeric.pl も似たような問題があったので修正しました。
gnumeric では日本語はEUC-JPのままエンコードされるらしいです。
(というより何も考えずにエンコードしているのでしょう。)
このため、日本語環境以外でデコードすると文字化けの原因となるため、日本語環境以外では128以上は削除するようにしました。
また、EUC-JPの範囲外のコードをデコードするのは好ましくないため、簡単なコードの範囲チェックを加えました。
セ記事を書く
セコメントをする