文字列型に関しては、私は初期のパソコンBASICのやり方が気に入っています。おそらく今のVisual BASICでも同様。表計算ソフトでも文字列は単純型扱いです。
現在の計算機で文字列という場合は普通は8bitの列を指します。バイトとかオクテットと呼ばれるものが単位で、それを系列として並べたものです。
C言語などの普通の計算機言語はASCII 94文字(コード33~コード126)で記述できるように設計されます。数字とアルファベットとハイフンやピリオドなどの若干の記号です。現在は大型機のEBCDICはほぼ考えなくて良いので、これでもかなり楽になりました。
ASCIIではコード0~31とコード127は特別で、改行などの制御文字です。コード127はあまりまともな解説を見たことはないのですが、私の感触では紙テープで打ち間違えたときに位置を一つ戻して穴を全部に空けて無かったことにする、と言う意味の抹消です。
コード32の空白は印字文字と制御文字の両方の性格を持つ唯一の文字です。
これでコード0~127の7bitが埋められます。
紙テープは5単位から8単位の4種が流通していたそうで、しかし私は8単位のものしか知りません。スプロケットだったか紙送り用の小さな穴の片側に3個の穴があって、その反対側を2穴→5穴と増やしてゆくみたいです。5bitは国際テレックス網の単位だったか。これが世界を変えたはずですが、仮名文字は無くて我が国は完全に蚊帳の外。ASCIIは本来は7bitで、これも通信規約のはずです。8bit目はパリティと言って誤り訂正に使われたはずです。はずですって、さすがにこれも私はよく知りません。
早いとこ漢字をどう扱うかの話に持って行きたいのですが、まだこの感じがちょっと続くと思います。