以前、「ブログ記事の検閲・自動書換えが行われているらしい」 に掲載した記事ですが、
政治的な問題ではなく、技術的な問題 ( 文字コードの問題 ) ではないか、
ということで、話が収まったようです。
しかし、もともとのブログ、「ひねくれ老耄記」 の HTML ソースを見ると、
<meta http-equiv="Content-Type" content="text/html; charset=euc-jp" />
とあり、EUC-JP で記述されていることがわかります。
「Kawa.netxp Shift_JIS に含まれない文字をエスケープ (Jcode.pm編)」
「とう小平」の「とう()」は、Shift_JIS には含まれない文字であるが、EUC-JP には含まれる (定義されている) 、と解説し、次の表が掲げられています。
とすると、なぜ、EUC-JP で記述されているサイト、「ひねくれ老耄記」 において、「とう()」を原因とする文字化けが発生するのか、という疑問が残ります。
どなたか、ご存知のかたがおられましたら、ぜひともご教示ください。
なお、当ブログでは、「深圳」の「圳」など、日本語にない文字 ( または文字コード上問題の発生しそうな文字 ) については、原則として、
「深圳 (シンセン)」
といった表記を行っています (「中国の技術力」に実例があります ) 。
政治的な問題ではなく、技術的な問題 ( 文字コードの問題 ) ではないか、
ということで、話が収まったようです。
しかし、もともとのブログ、「ひねくれ老耄記」 の HTML ソースを見ると、
<meta http-equiv="Content-Type" content="text/html; charset=euc-jp" />
とあり、EUC-JP で記述されていることがわかります。
「Kawa.netxp Shift_JIS に含まれない文字をエスケープ (Jcode.pm編)」
下記の『』『』『』の3文字は
現在は Unicode を使って表現できますが、
Shift_JIS には含まれない文字のため、
クライアント環境によっては表示できない場合は依然多く、文字化けしやすいです。
「とう小平」の「とう()」は、Shift_JIS には含まれない文字であるが、EUC-JP には含まれる (定義されている) 、と解説し、次の表が掲げられています。
漢字 | CP932 | EUC-JP | UCS2 | UTF8 | 補足 |
---|---|---|---|---|---|
| FAB1 | - | FA11 | EFA891 | 山+立+可 |
| FBB9 | 8FE2C7 | 9127 | E984A7 | とう小平 |
| FBFC | - | 9AD9 | E9AB99 | ハシゴ高 |
とすると、なぜ、EUC-JP で記述されているサイト、「ひねくれ老耄記」 において、「とう()」を原因とする文字化けが発生するのか、という疑問が残ります。
どなたか、ご存知のかたがおられましたら、ぜひともご教示ください。
なお、当ブログでは、「深圳」の「圳」など、日本語にない文字 ( または文字コード上問題の発生しそうな文字 ) については、原則として、
「深圳 (シンセン)」
といった表記を行っています (「中国の技術力」に実例があります ) 。