言語空間+備忘録

メモ (備忘録) をつけながら、私なりの言論を形成すること (言語空間) を目指しています。

文字コードと文字化け

2010-04-29 | 日記
 以前、「ブログ記事の検閲・自動書換えが行われているらしい」 に掲載した記事ですが、

   政治的な問題ではなく、技術的な問題 ( 文字コードの問題 ) ではないか、

ということで、話が収まったようです。



 しかし、もともとのブログ、「ひねくれ老耄記」 の HTML ソースを見ると、

   <meta http-equiv="Content-Type" content="text/html; charset=euc-jp" />

とあり、EUC-JP で記述されていることがわかります。



Kawa.netxp Shift_JIS に含まれない文字をエスケープ (Jcode.pm編)

下記の『』『』『』の3文字は
現在は Unicode を使って表現できますが、
Shift_JIS には含まれない文字のため、
クライアント環境によっては表示できない場合は依然多く、文字化けしやすいです。


 「とう小平」の「とう()」は、Shift_JIS には含まれない文字であるが、EUC-JP には含まれる (定義されている) 、と解説し、次の表が掲げられています。


漢字CP932EUC-JPUCS2UTF8補足
FAB1-FA11EFA891山+立+可
FBB98FE2C79127E984A7とう小平
FBFC-9AD9E9AB99ハシゴ高




 とすると、なぜ、EUC-JP で記述されているサイト、「ひねくれ老耄記」 において、「とう()」を原因とする文字化けが発生するのか、という疑問が残ります。

 どなたか、ご存知のかたがおられましたら、ぜひともご教示ください。



 なお、当ブログでは、「深圳」の「圳」など、日本語にない文字 ( または文字コード上問題の発生しそうな文字 ) については、原則として、

   「深圳 (シンセン)」

といった表記を行っています (「中国の技術力」に実例があります ) 。