以前の記事で、ファイルに日本語が含まれているかどうか調べるのに正規表現を使うと書いた。
なお、CR2Builderでは、
「CR2Builderで文字化け部分を調べる方法」にその方法が載っています。
しかし、パッケージ前にチェックする時などは、ファイル1つずつ開いて調べるのは手間がかかるし、漏れがあると困る。
そこで、フォルダ内のファイルを一度に調べるソフトを探してみた。
UTFにも対応しているのがなかなかなくて苦労したが、
Devasというソフトを見つけた。
さて、いざ検索しようとすると、
「検索文字列が不正です」という内容のメッセージ。
[、-◯ぁ-んァ-ヶ亜-腕弌-熙] ではだめなようで、 [◯-、ぁ-んァ-ヶ亜-腕弌-熙] にすると検索できた。
さらに使っていると、金、軸、転などの文字がひっかからないことに気づく。
Devasのホームページで調べてみると、以下のようなコメントが、
---------------------------------------------------------
実はDevasは内部的にはUnicode(UTF-16)でテキストを扱っているので、
[亜-]などの正規表現はUnicodeの順番で解釈されるのです。
...
漢字が全てヒットする正規表現は
[x4e00-x9fff]
です。
---------------------------------------------------------
サポートBBSの No.580 です。
文字コードはいろいろ複雑なんだなぁと改めて感じた次第でございます。
そんなこんなで、なんとか第2段「ダクタスくん」をアップしました。
承認されるのが楽しみです。
pdoll's store(レンダロシティ|マーケットプレイス)
Mr.ダクタス マグカップ
人気blogランキングへ