白亜45会HP管理人

白亜(白堊)45会は、岩手県立盛岡第一高等学校昭和45年卒業の同期会です。

文字コード

2016年01月03日 23時30分30秒 | 電脳
箱根駅伝を見たのちに、昨日からの原稿をサラサラと書き進めました。
ファイルサイズをチェックしたら、分量は充分あり少し削除しなけりゃダメかな、と取りあえず安心してました。ふと、実際に文字数を概算したら足りません。

あれっ?
ファイルの文字コードを見たらutf-8でした。shift-JISに変換してファイルサイズを調べたら文字数の概数と一致。

utf-8で書かれたファイルはほぼ5割程度サイズが増加するようです。
MSwindowsを除いたほとんどのコンピュータはutf-8が標準です。
文字コードがutf-8対応のアプリケーションソフトは「日本語化」などという面倒なことをせずに、そのまま日本語も使用できます。便利。

utf-8では、同じ文字を複数のコードで表現することが可能です。ただし、複数のコードが可能な場合には最もバイト数が少ないコードを使用する、というルールもあるようです(絶対的なのかは知らないが)。マックの標準utf-8はこのルールに抵触しているように思います。
未だにshift-JISを使っているMSwindowsは問題外だけどね。

いずれにせよ、原稿の分量を充足するには2,3のエピソードを付け加えないといけません。困った。