アラビア語に興味があります。

 イランはペルシア語の国です。トルコはトルコ語で、現代トルコ語はローマ字で表記されます。

ツイッターの文字数制限

2010年12月20日 00時46分21秒 | アラビア語
 この話の発端は、「Twitterは560文字制限!? 同じ文字数に込められる情報量の違い」という記事です。

英語に比べて、日本語や中国語のような表意文字には一文字にたくさんの意味を込められる、したがって同じ140文字の制限でもその中で語られる内容量は大きく異なる

これを実際の資料で確かめてみようというもので、具体的には、

創世記の第一章

  1節 まだ何もない時、神様は天と地をお造りになりました。
  ~ 31節 神様はでき上がった世界を隅から隅まで見渡しましたが、
       どこから見ても非の打ちどこ ろがありません。 こうして
       六日目も終わりました。

に含まれる文字数を比較


したのです。その結果が下のグラフです。

© Nao Tokui


 やはり、中国語がいちばん文字数が少なくて、次が日本語、その次が朝鮮語です。ヨーロッパ言語は大きく水を空けられています。トップの中国語が約1000文字、イタリア語以降がほぼ4000字ということで、中国語ツイッターでは、ヨーロッパ諸語の4倍の情報が詰め込めることになります。

 この記事がツイッターで話題になり、そこでのつぶやきが、Toggeter のアラビア語が長いことと、イスラムにおける聖書の位置にまとめられています。

 かいつまんで紹介すると、

1) ハングルは表音文字なのに、なぜ日本語とさほどの差がないのか。
  →ハングル1文字に最大でローマ字4文字分の音素が入るので。

2) アラビア文字は母音を表記しないのに、なぜヨーロッパ言語並みに文字数が多いのか。
  →推測1)所詮表音文字なので欧米諸語と同じ程度の字数は必要。
     2)語根3子音に別の音を付加して語を作るので字数を取られる。

3) ロシア語の文字数が、他のヨーロッパ言語に比べて少ないのはなぜか。
  →冠詞がないからではないか。2~3文字でも、ちりも積もれば山となる。

 さらにその後、コメントがあり、アラビア語では、どうも母音の記号の付いたテキストでデータを取っていたらしいことが判明しました。ツイッターでアラビア語を打つとき、母音記号を入れると、それもひとつ1文字として数えられてしまいます。上記 2) では、母音記号が付いていないことを前提に考えていましたが、母音記号付きだったとすると、アラビア語の文字数が膨れ上がったのは、それが大きな原因ではないでしょうか。

最新の画像もっと見る

2 コメント

コメント日が  古い順  |   新しい順
すごいすごい! (まきえ)
2011-03-10 09:08:17
非常に面白いデータですね。
世界の人たちと広く情報交換するにはやはり英語を学ばねば・・・というのが世の中の流れになってきていますが、中国語や日本語を世界の人が理解するようになってくれれば、より簡潔により迅速に(日本語だったら日本人にとってはなお更・・・^^;)いろいろな情報が得られるようになる・・・
と単純にはいかないのかな?
でも、ホント面白い記事でした。
返信する
ありがとうございます (haruko)
2011-06-03 11:58:20
調べた最初の方が、まずすごいですよね。
中国語は、漢字を習得するのが困難ですが、いったん習得してしまえば、こんなに効率の良い文字は世界にもほかにないということになります。
返信する

コメントを投稿