goo blog サービス終了のお知らせ 

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

なぜ、機械翻訳が素人考えで、プロは翻訳メモリを使うのか?

2017-03-16 13:33:30 | Weblog
「人工知能が変える仕事の未来」を聞いてきた
http://blog.goo.ne.jp/xmldtp/e/6089e0ee0fb3f8734273e8e06acc69ef

で「機械翻訳→経済的に使い物にならない」と書いてある。
この前に、「素人は良く思いつくんだけど」みたいな事を言ってた気がするけど、
じゃあ、プロはどうしていて、

どうして、
 素人は機械翻訳をやろうとして失敗し、
 プロは翻訳メモリを使うのか
について、説明しようと思う。

これを説明すると、今の人工知能の限界が分かると共に、
機械翻訳っていうのが、どんだけ「無茶しやがって」
なのかがわかる。

でははじめる




■翻訳のプロは、翻訳メモリを使っている

例えば、あるソフトを日本語化するときとかは、
十印とかに依頼すると思うけど、そこでは
翻訳メモリを使って日本語文が作られる(らしい)。


翻訳メモリ(ほんやくメモリ、英語: translation memory)は、原文と翻訳文を一対としてデータベース化し、その内容を自動的に繰り返し利用することで翻訳を支援する翻訳支援ツールである

Wikipediより

つまり、
 英語を訳すのではなく
 既に訳した文を元に、それを効率的にコピペする。

手順としては
  はじめに画面などから、いくつかの単語を取り出す

  それを(場合によっては何人かの人=翻訳スタッフ各人に)訳してもらう:仮訳

  訳したものを持ち寄り、違いを見つけ、統一見解を出し、そのように訳す
    用語統一

  用語統一した単語を、辞書に入れる

  この辞書に入れた単語をベースに訳していき、翻訳メモリに入れていく

こうすると、翻訳メモリをベースに訳語が統一されたものができる。
用語統一した時点で、プログラムチームだけでなく、マニュアルチームにいったりする

私が関わっていた頃はこんな流れだけど、今は、この分野発展したので、
大きく変わってるかも。今は、TMSになってるのかな?
たぶん、Tradosが有名なのは、変わっていない?
フリーではOmegaTすくしょはここ




■そもそも、翻訳には、2つのケースがある

「It's fine today」を「今日は晴れです」と訳した場合を考えよう。

このケースには、2つの場合がある。

(1)日本語を知ったアメリカ人が、「It's fine today」を
  「今日は晴れです」と訳した場合と

(2)英語を知っている日本人が「It's fine today」を
  「今日は晴れです」と訳した場合(って、普通こうは訳さないけど・・)

(1)は、
 アメリカの文化を知ったアメリカ人が、
 日本語の知識を元に、
 日本人なら、こういうだろうと「妄想して」
 つけた訳文

(2)は、
 日本の文化を知った日本人が、
 英語の知識を元に、
 多分、こういうことを言いたいんだろうと推測して、
 つけた訳文

 アメリカ人でも、「It's fine today」というのを見たとき、
  2通りの意味があることは、想像がつくと思う。

 一つは、 「今日は晴れです」
 もう一つは「マイクのテスト中」

 どちらのことを言っているかは、コンテキストからわかる。
 だが、日本の文化で、マイクのテスト中は
 「本日は、晴天なり」というということまでは、妄想できないかもしれない。
 なので、どっちかの訳になる。

 日本人は、日本の文化で知っている。
 なので、コンテキストでマイクのテスト中だと分かれば、
 「It's fine today」を 「今日は晴れです」ではなく
 「本日は、晴天なり」と訳すだろう。
 場合によっては、「チェック・ワン・ツー」と訳してもOKだ。

 つまり、

・文化によって、訳文は違うのだ。

・そして、訳される文化のほうにあわせないと
 訳の意味が変わってしまう可能性すらある

・逆に、意味さえ通じればよいのなら、
 シチュエーションさえ分かれば、
 元の言葉わかんなくっても、OKなときある
 (上記でIt's fine todayを仮に知らなくて
  チェック・ワン・ツーって訳してしまっても、
  原文みてない人には、OKだ・・・いわゆる超訳)




■なぜ、「機械」翻訳でなく「日本人が翻訳メモリを使って日本語で訳す」のか

機械翻訳は、どういう文化を理解しているのか、さっぱりわからないから。

 英語と日本語の対を学習させたのでは、

  日本の文化を理解してるのか、
  アメリカの文化を理解しているのか
  別の国の文化をりかいしているのか
  何の文化もりかいしていないのか

わからない。

例えば、神Excelということば、
この言い方は、なんでも神にしてOKな日本だから、ゆるされる。
これをアラビア語にして、イスラム圏の人に行ったら・・・
・・神を冒涜してる!とか言われて、大変なことになりそうです(>_<!)

翻訳メモリを使う話は、実は、翻訳メモリが大事なのではない。
日本人が日本語にする点が重要。

はっきり言って、ソフトなんて、使い方とデータが分かれば、
パネルに書いてある言葉なんて、大体想像つく。
英語が読めなくても・・・

なので、英語は、想起しやすい目印程度でいいのだ。
日本語でつじつまが合うことが重要。
だから、日本人が訳をチェックし、
そのチェックを支援する翻訳メモリをプロが使うということ

はじめに、用語統一するのは、表面的な言葉の統一をしているのではなく、
そのソフトの世界観とか、日本におけるそのソフトの特徴づけとかを
用語を通じて統一してるわけ(カルチャーを統一しているわけね)




素人は、翻訳の裏に文化があり、その文化が違うと、
おかしな文になるということを知らないし、
ましてや、文化を理解させるのに、どれだけ学習させないと
いけないかなんて、まだ分かっていないということを知らない
だから、機械翻訳といってしまうけど、

翻訳するくらいなら、日本人がテキトーに画面見て、
言葉つけてったほうが、まだましなのだ・・・

それほど、文化って、影響大きい。
その文化の理解までは、機械翻訳は行っていない。
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« カメレオンとペンギンが抱き... | トップ | SQLServerをSUSE LINUXで稼... »
最新の画像もっと見る

Weblog」カテゴリの最新記事