FREEBOX IV

かりっちのブログ 《 超個人的メモブログ 》

【文字コード】UTF-8NとUTF-8

2006年09月16日 | Tips

 unicodeのストリームのビッグエンディアンかリトルエンディアンを表示するために、
Byte Order Markというのが決まっています。 UTF-8でもBOMを使うことについては
UTF & BOMに、「使ってもいいがUTF-8では意味がない」とあります。 
現在、エディタ等のツールで単にUTF-8というとこのBOM付きということになっています。逆にBOMのないのをUTF-8Nと区別するようです。
 しかし、Netscape Navigator 4.7xでは、BOM付きのUTF-8は先頭にゴミがあるとみなします。また、IANAのエンコード方式には、UTF-8しか定義されていません。ここでのUTF-8の目的はNetscape Navigator 4.7xでも多国語文字を混在させることだからです.

・HTMLファイルの場合 : UTF-8N (BOM無し)

・httpレスポンスやmetaヘッダのcharsetsの場合 : UTF-8、

とすることになります。ご注意ください。

参照先

【エンディアン】

例えば16進数で 0x1234ABCD という4バイトのデータを、データの上位バイトからメモリに「12 34 AB CD」と並べる方式をビッグエンディアン (big endian)、データの下位バイトから「CD AB 34 12」と並べる方式をリトルエンディアン (little endian) という。 その他に「34 12 CD AB」あるいは「AB CD 12 34」のように並べる方式もあり、DECのPDP-11やVAXシリーズで使われていたことからPDPエンディアンなどと呼ばれるが、現在ではほとんど見られない。

ビッグエンディアンは人間にとって直観的にわかりやすいという利点があり、一方リトルエンディアンはコンピュータにとって処理しやすい(多倍長加算の起点は最下位バイトであることなど)という利点がある。

SunのSPARC、MotorolaのMC68000、PowerPC G5等は「ビッグエンディアン」を採用

インテルのx86系などは「リトルエンディアン」を採用

ARMアーキテクチャのCPU、Transmeta社のCrusoe、Hewlett-Packard社のPA-RISC、G4までのPowerPCなど、エンディアンを切り替えられるバイエンディアン (bi-endian) のものも存在する。

参照元

【IANA】

 インターネット上で利用されるアドレス資源(IPアドレス、ドメイン名、プロトコル番号など)の標準化や割り当てを行なっていた組織。1998年10月、インターネット資源の管理・調整を行なう国際的な非営利法人ICANNが設立されたため、IANAが行なっていた各種資源の管理はICANNに移管された。現在では、IANAはICANNにおける資源管理・調整機能の名称として使われている。

参照元



最新の画像もっと見る