まったり アイマス2

アイドルマスター2 超ライトユーザーのプレイ日記

3496. データベース、続き^8

2021年08月21日 | 日記

 日本では漢字でデータベースが検索できる必要があり、コード化は必須です。ところが、大型機では各社各様にコードを振ってしまいました。

 1978年にJIS漢字コードが制定され、これは非常にタイミングが良くてパソコンではコードの混乱は(ほぼ)起こりませんでした。ただし、DOS/V系のパソコンの内部コードはいわゆるシフトJIS (MS漢字コード)で、これがファイルとして流通してしまって、こちらはJIS規格ではありません。UNIXのEUCはほぼJIS準拠ですが、UNIX以外ではマイナーと思います。

 現在はユニコードの時代で、普通のwebページはおそらくこちらになっていると思います。ワープロもユニコードが扱えて便利になりました。
 ところがユニコードの方は通信規格がいっぱいあって、私はUTF-8で十分と思っていましたから意外でした。
 このブログの文章を打っているエディタはもちろんユニコードが扱えますが、実は私はMS漢字コードを使い続けています。このJIS第一水準・第二水準の範囲では表示が変になる心配はほとんど無いからです。現在でもユニコードの数学記号の扱いはやや雑と思います。

 いずれもASCII 94文字の範囲は共通です。ですから最後の手段としてはここに落とし込めば、まず間違いなく通信が成り立ちます。
 漢字はシフトJISでもEUCでも2バイトとなり、初期のワープロの文字表示は固定幅なので律儀に漢字はアルファベットの2倍の幅があって、半角・全角と呼ばれました。今も日本語キーボードにこの用語が残っています。

 当然ですが、データベースの検索には1文字が1文字として扱われる必要があります。しかし、習慣的にC言語などの計算機言語の文字列はオクテット列を指すので、1文字を1文字として扱うだけでテクニックが必要となります。まあ、普通はコードを決めればビットパターンが決まりますから、キーワード自体は決まります。問題は連結とか削除とかの操作時です。

 漢字の扱いについてはほぼ上記で網羅されていると思います((処理時の)内部コード、ファイル形式、通信規約)。細かいことを言い出せばきりがありません。日本だけで無くヨーロッパなどでも計算機での文字の扱いはデリケートな問題と思います。


コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 3495. データベース、続き^7 | トップ | 3497. 休日 »
最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

日記」カテゴリの最新記事