goo

自動翻訳なぜ急速進化 2つのブレークスルー

【出所:2017年3月6日 日本経済新聞】

 コンピューターで外国語を翻訳する機械翻訳(自動翻訳)技術が、長足の進歩を遂げている。人工知能(AI)技術を採用したことで翻訳精度が向上、最新の翻訳システムを組み込んだ音声翻訳などの製品やサービスが続々と登場している。通訳なしで外国人と相当なレベルのコミュニケーションができる時代が確実に近づいている。

■日本人医師と外国人の患者がタブレットで会話

 ディスプレーに現れた外国人が英語でスピーチを始める。話を追いかけるように画面下に映画の字幕のような英文が表示され、その下にこれを翻訳した日本語の字幕が表れる。情報通信研究機構(NICT)が開発中の「同時通訳システム」のプロトタイプ。会議などで将来、同時通訳の代わりに使うことを想定している。

 話者の英語の音声を認識して文章を書き起こすシステムと、英語の文章を和訳するシステムを組み合わせた。「どのくらいの長さで切って翻訳するかで、使い勝手や翻訳の精度も変わる。今後5年くらいで完成したい」。NICTの隅田英一郎・先進的翻訳技術研究室長は説明する。

 NICTはこれに先立ち、富士通と共同で日本人医師と外国人の患者がタブレットをはさんで会話ができる医療向けの多言語音声翻訳システムを開発した。医師が「体調が悪いのはいつからですか」などと話しかけると、タブレットから翻訳された音声が流れ、患者の答えを日本語にして返してくれる。昨年11月から医療機関で実証試験を進めている。

 パナソニックはNICTの技術を使い、拡声器のような格好をした装置に、日本語で話すと英語、中国語、韓国語に訳してアナウンスできる「メガホンヤク」を開発。空港やイベント会場などでの利用を想定している。

■文法に沿った「ルール翻訳」からビッグデータ活用の「統計翻訳」へ

 米グーグルがインターネット上で提供している「グーグル翻訳」をはじめ、機械翻訳の応用が広がっている背景には、翻訳精度がここ数年で急速に高まったことがある。「以前は自動翻訳というと精度が低く、ウェブで翻訳をかけると変な日本語が出てくるといわれていた。それが目立って改善した」とNICTの隅田氏はいう。

 翻訳の精度が上がったのは、ここ数年で翻訳のやり方(アルゴリズム)が切り替わったことが大きい。約60年前に機械翻訳技術が誕生して以来、ずっと使われていたのが「ルール翻訳」というやり方。ここでは開発者が翻訳に必要な文法などの規則をつくり、それにそって翻訳をする。

 これに代わってIBMが1980年代に開発を始め、近年急速に普及したのが「統計翻訳」と呼ばれるビッグデータを活用した翻訳だ。対訳のデータを大量に集めて統計処理することで、翻訳規則や翻訳辞書に相当する翻訳モデルを自動的に作成する。典型的なAI技術だ。

 例えば「どこですか」という日本語を英語にする場合。「どこですか」という言葉が含まれるものには、Could you direct me to Kyoto station?(京都駅はどこですか)、Where is the station?(駅はどこですか)、Where is the rest room?(トイレはどこですか)、Where is the taxi stand?(タクシー乗り場はどこですか)、Where am I?(ここはどこですか)――などの例がある。この場合「Where is」が5例中3回(60%)、「Could you direct me to」が同1回(20%)、「Where am」が同1回(20%)の割合で表れる。

 大量の対訳例をもとにこうした「確率付きの対訳辞書」を自動的に作製し、これをもとに翻訳結果を決める。日英で語順が変わるかどうかや、ある単語の次にどんな単語が来ることが多いかなども学習する。学習する対訳データが多いほど翻訳の精度が向上する。

 統計翻訳は多くの言語に対応できるのも特徴だ。統計翻訳では言語の文法や単語の意味を知らなくても対訳データさえ集めれば翻訳モデルが短時間で自動的につくれる。NICTが無償公開している自動音声翻訳システム「ボイストラ」は日英独仏や中国語はもとよりミャンマー語など31言語に対応している。従来のルール翻訳では、言語ごとに1つずつ翻訳ルールを専門家が何年もかけてつくっていた。

■さらに進化、脳を模した「ニューラルネット翻訳」に

 昨年、統計翻訳をさらに進化させた翻訳技術がウェブ上で使えるようになった。グーグルとマイクロソフトはそれぞれ、脳の働きを模したニューラルネットワーク(神経回路網)による翻訳技術を開発。ネットで利用できる「グーグル翻訳」や「マイクロソフト・トランスレーター」として公開した。

 新方式も統計翻訳と同様に大量の対訳データを学習して翻訳モデルをつくる。ただ統計翻訳のように文のパーツごとに翻訳するのではなく、文単位で文脈を把握することでより適切な訳語を見つける。グーグルは統計翻訳による従来法と比べ翻訳エラーを平均60%減らせたとしている。ネット上では「グーグル翻訳の精度が目立って上がった」といった声が寄せられた。

 ニューラルネット翻訳は京都大学など国内勢も研究を進めており、NICTも導入の時期を探っている。2020年の東京五輪や観光立国などで外国語を使う機会は増えるが、日本人にとって言葉の壁は依然として厚い。だが、進化する機械翻訳システムを使うことで外国語でのコミュニケーションが格段に容易になる時代が見えてきた。
コメント ( 0 ) | Trackback ( 0 )
« 日歯連、繰越... たばこ肺疾患... »
 
コメント
 
コメントはありません。
コメントを投稿する
ブログ作成者から承認されるまでコメントは反映されません
 
名前
タイトル
URL
コメント
コメント利用規約に同意の上コメント投稿を行ってください。
数字4桁を入力し、投稿ボタンを押してください。