アラビア語に興味があります。

 イランはペルシア語の国です。トルコはトルコ語で、現代トルコ語はローマ字で表記されます。

GoogleのWikipedia翻訳活動

2010年07月21日 22時07分55秒 | アラビア語
 ITpro の記事によると、Googleは、2008年から行なってきたオンライン百科事典 Wikipedia の翻訳活動で、1600万語以上の英文記事を、少数言語に翻訳できたと発表したそうだ。そして、その少数言語の中に、アラビア語も含まれていた…国連の公用語でもあるのに、なぜ?

 しかし、そのもとの英文記事を見ると、英語版の記事の量を1.0とした場合、アラビア語の記事の分量はたったの0.3で、0.5の朝鮮語やヒンディー語より少ない。ウィキペディアの発展状況からだけ見ると、確かに弱小言語なのかもしれない。(ちなみにトップはドイツ語の2.8、次いでフランス語の2.2、ロシア語の1.9、日本語はその次の1.5 である。日本語の記事は英語より多かったのか…。)

 また、記事によると、翻訳には、人力のほか、Translator Toolkit (翻訳者ツールキット) を使ったとのことであるが、アクセスしても、使い方がさっぱりわからない。ただ、チャットの機能があることだけはわかった。

【追記 2010/07/24】 「日本語の記事は英語より多かったのか…」などと書いてしまったが、コメント欄にむじな様よりご指摘。これは、「「書きかけ表示がない記事の数」だけの統計で、英語の場合は相当内容を書き込まないと、「書きかけ(stub)」指定になってしまうので、ノンスタッブ項目だけに絞ると英語がたまたま少なくなってしまうだけ」とのこと。
 ご紹介いただいたList of Wikipedias によれば、すべての記事の合計が100万を超えているのは、英語とドイツ語だけで、英語は3,359,002件と、次点のドイツ語1,096,791件の3倍以上という圧倒的記事量を誇っている。

最新の画像もっと見る

3 コメント

コメント日が  古い順  |   新しい順
Unknown (むじな)
2010-07-24 17:26:18
>日本語の記事は英語より多かったのか…。

それは違います。
Number of non-stub Wikipedia articles とあるので、「書きかけ表示がない記事の数」だけの統計で、英語の場合は相当内容を書き込まないと、「書きかけ(stub)」指定になってしまうので、ノンスタッブ項目だけに絞ると英語がたまたま少なくなってしまうだけです。

実際には
http://meta.wikimedia.org/wiki/List_of_Wikipedias
をごらんになるとわかりますが、英語の項目数は300万を超えていて、2位のドイツ語の3倍以上と、ぶっちぎりです。
これによると日本語は6位、アラビア語は24位です。

「国連公用語」といっても、アラビア語は年間図書出版点数では、欧米日とは比べ物にならないくらい少ないですよね?(アラブ世界の書店は、きわめて貧弱)
アラブの知識人は英語かフランス語(あるいはいずれも)が達者で、英語やフランス語を読んだり書いたりする機会も多くなるので(例外はシリアか)、書き言葉という観点から見ると、アラビア語はきわめてマイナー言語でしょうね。

使用人口の多さや地域の広がりと言語のメジャーさは比例しません。その典型が中国語です。ウィキペディアの項目数ではスウェーデン語の下の12位に過ぎません(中国でウィキが禁止されているという事情もありますが)。
書籍にしても、中国語で読めるものは、日本語よりも少ないです(中国語圏は文盲が多いし)。
返信する
Unknown (むじな)
2010-07-24 17:32:30
>Translator Toolkit (翻訳者ツールキット) を使ったとのことであるが、アクセスしても、使い方がさっぱりわからない。

確かによくわかりませんが、グーグル翻訳
http://translate.google.com/
と基本的には同じエンジンなのでは?

だとしたら、欧州言語やアラビア語→英語はけっこう使えると思います。
(ただなぜかドイツ語やオランダ語から英語が駄目だったりしますがw)
インド言語ははじめから知らないし、使ったこともないので、精度のほどはわかりませんが。

日本語への翻訳は、構造が似ている韓国語以外は、ほとんど使い物になりません。
おそらくいったん英語を経由して重訳しているためでしょう。
まあ、韓国語にしても私はできるので、電子翻訳は使いませんが。
返信する
shukran (haruko)
2010-07-24 20:27:50
> Number of non-stub Wikipedia articles とあるので、「書きかけ表示がない記事の数」だけの統計で、英語の場合は相当内容を書き込まないと、「書きかけ(stub)」指定になってしまうので、ノンスタッブ項目だけに絞ると英語がたまたま少なくなってしまうだけです。

見落としていました。ありがとうございます。

グーグル翻訳は、私もアラビア語⇔日本語を試してみましたが、
「やめておいた方が良い」
というレベルでした。
返信する

コメントを投稿