「書籍「アインシュタイン その生涯と宇宙 下」が機械翻訳だったため回収へ
http://gigazine.net/news/20110730_randomhouse/
読者からのタレコミによると、株式会社武田ランダムハウスジャパンが2011年6月に発売した「アインシュタイン その生涯と宇宙」上下巻のうち、下巻の内容になんと機械翻訳された部分が含まれており、回収騒ぎになってしまったようです。
なお、機械翻訳のまま出版されるというのは極めて珍しいケースなので、ある意味、出版界の歴史に名を刻んでしまった貴重な本になってしまい、逆に今は中古本が高値になるという事態になりつつあります。
あってはならない、いや、あるえるはずのないことが現実になってしまったようだ。
機械翻訳
既にマイクロソフトはオンライン上の技術情報などを機械翻訳のままで公開しているが、それはあくまでも情報を見つけるためのプレビューとしての位置づけであり、詳しい内容は原文を見ろ。といった姿勢が顕著だ。
日本で発売される書籍で、一部とはいえ、機械翻訳された文章がそのまま出版されてしまったというのは、恐らく初めてであろう。
現時点では(日本語の体をなしていないレベルであるので)すぐにそれと解ってしまう機械翻訳であるが、将来的には、人が現在手作業でしているレベルの翻訳が、コンピュータによる自動翻訳に取って変わる日がくるかもしれない。
チェスの名人に必要な素養とは、先天的に頭の回転が速く、何手も先を一瞬にして検討してしまうような能力よりも、多くの指し手を知っていることがの方がより重要だ。との記事を読んだことがある。
恐らく、パターン認識能力の一種により、その局面に似た状況を、自分の知っている棋譜から何通りかを瞬時に導きだし、実際に検討するのはその限られた棋譜の内のさらに限られた指し手のみと思われる。
いかに的確な棋譜を探し出せるか?が勝敗の鍵を握っているのではないのか。
この棋譜を検索する能力は、意識下で行われ、結果のみが意識上に伝達される。
人間の脳の90%は使用されていないという説があるが、恐らくこのような膨大なバックグラウンドの処理が、脳全体で絶えず行われているのではないかと思われる。
その点、人間に勝ったとはいえ、力ずくで何十手も先までを検討し尽くして、回答を得るようなプログラムは、まだまだ人間の知能の一部のみしか模倣していない。
自動翻訳もそうであろう。
文章を、名詞/動詞/形容詞などに分類し、出現順序に当てはまる文法を決定し、それをもう一つの言語に置き換えて行く。そういった、ロジカルな方式が、まだまだ主流であろう。
その方式は、外国語を翻訳する際に、人間が(もっと言えばプログラム開発者が)どう行っているかをプログラムの仕様としたために、採用された方式だ。
意識下で行われている作業については、何が行われているのか認識できないので、「翻訳の仕方」を頭で考えた場合の仕様に含まれることはない。
機械翻訳を実用レベルのものにするためには、膨大な例文のなかから、パターン認識的にその場に適合したものを抽出し、それを参考にしながらロジカルな検証を適合して行く。という方式が必要であろう。
自動翻訳においてブレイクスルーを起こすのはやはり、膨大な文章の蓄積と、パターンに適合したものを瞬時に取りだすとう技術に卓越しているグーグルではないかと思う。
「この本は機械翻訳された文章が初めてそのまま出版された、記念すべき本なんだよ。」
「始めてって?それまでは、どうやっていたの?」
「もちろん、人が全て翻訳していたんだよ。」
「英語と日本語の両方話せる人が?」
「あぁ、そうだよ。」
「全部のツイートも?」
「いや、さすがにそんなものをイチイチ翻訳は、してなかったけどね。」
「それじゃあ、外国の人とは、おはなし出来なかったの?」
「昔の人は、多かれ少なかれ、英語が読めたからね。」
「それは、ごく、一部の特殊な人達でしょ?」
「いや、昔は学校で、ちゃんと英語の授業があったんだよ。」
「学校で?」
「ああ。」
「全員が?」
「うん。」
「授業でちょっと勉強したくらいで、英語が喋れるようになるの?」
「中・高だと週に5~6時間は英語の授業があったし、小学校から大学までの10数年くらいは、皆、勉強してたよ。」
「じゃぁ、お父さんも、英語喋れるんだ。」
「いや、結局、学校の授業だけで話せるようになる人は、ほとんどいなくて、大人になってからも、英会話教室とか通って、みんなかなり努力してたよ。」
「そんなすごい時間が、翻訳するために使われていたなんて、凄いもったいないと思わなかったのかしら?」
「あぁ、今考えると、ぞっとするよ。英語の学習に費やした膨大な時間を、もっと有意義な時間に当てられたはずだとね。」
「この本が、そうゆー教訓を教えてくれるのね。」
だが、自動翻訳には、大きなネックがある。
固有名詞はもちろんのこと、その国にはない、翻訳不可能な概念を表す言葉を、どう翻訳するべきか。
開国の前後、急激に外国語が入って来た日本では、日本語にない言葉を表わす手段として、新しい日本語が作られた。杉田玄白の『解体新書』などが好例だ。
今の時代ではコンピュータ用語を始め、新たな概念は外国語のカタカナ表記が、そのまま日本語となることが多い。
やたらとカタカナ言葉を使うことに対して閉口する向きもあるが、慣れてしまえばその方がしっくりする。
「クラウド」を「雲」と訳しても、その真意は伝わらない。
文中に「クラウド」という見慣れない言葉が現れた場合、それは今まで日本語にはなかった概念であることを察知し、意味を調べるという行為が必要となる。
これに適当な日本語の造語を付けることは可能であるが、それが文中に現れた場合に、その意味を調べなければならないことに変わりない。
今後の自動翻訳では、「これは、この国の言葉にはない概念である。」ことを翻訳システムが察知して、そのままカタカナ表記で乗り切ることで、ほぼOKな気がする。
「お前さ、外人相手だと、妙に口調が固くなるよね。」
「いや、部長こそ、アメリカ人相手に、おやじギャグ言っても、通じるはずないですねよ。」
「知らないのか?最近の自動翻訳は、ダジャレでも、それなりに翻訳してくれるんだよ。」
「そんなわけ、ないですよね。」
「いやいや、現にスティーブとか、いつもウケてくれるし。」
「・・・え゛っ?知らないんですか?」
「何がだね?」
「スティーブは、日本語話せるんですよ。ってゆーか、いつも日本語話してますよね。」
「あれ、本人が話してるのか?」
「そりゃ、そーですよ。一体、誰が話してると思ってたんですか?」
「新らしい自動翻訳装置を使ってるのかと思ってたよ。」
「そんなわけ、ないですよね。ってゆーか、話している言葉と、唇の動きが、完全にマッチしてますよね。」
「いや、だからさ、いつも『良く出来てるなー』って、感心してたんだよ。」
「だいたい、ダジャレの翻訳って、原理的に無理があると思いませんか?」
「でもアメリカ人相手に、日本固有の言葉を使っても、ふつーに通じるぞ。」
「日本にビジネスに来ている外国人は、ちゃんと日本の文化とか勉強してますからね。」
「そうなんだ。」
「最近の自動翻訳は、翻訳不可能な言葉の場合、そのままカタカナ表記ですよ。逆もそうですね。」
「そうなのか?」
「たとえば、ネット用語で、ショックが大きすぎて何も考えられなくなっているような状況に追い込まれていた人が、寄せられたメッセージに勇気付けられて、『もう大丈夫。とまでは行かないけど、なんとか、なりそうな気がしてきた。』というような微妙なニュアンスで使用する『野茂できた。』とかは、英語圏でもそのまま『NOMO DEKITA』で通用するんですよ。」
「なんで、そんなこと解るんだよ。」
「いや、自分、英語喋れるんで。」
「・・・うそだろ?」
「いや、本当ですよ。」
「日本人でも英語喋れる奴っているんだ。そんな、必要もないもののために、どれだけ時間無駄にしたんだよ。」
「いや、うちって、父親がアメリカ人なもので。」
「・・・そうだったのか。」
「ええ。」
「どうりで、良く一緒にいると思ったよ。」
「・・・一応言っときますけど、父親ってスティーブじゃありませんからね。」
「え゛っ!違うのか?」
「どんだけ、バイリンガルが希少種だと思ってるんですか?」
| Trackback ( 0 )
|
|