ウィリアムのいたずらの開発日記

ウィリアムのいたずらが、コンピューター関係について、思ったことを好き勝手に書いているブログです。

Googleニューラル機械翻訳について聞いてきた

2017-04-24 00:43:04 | Weblog
4月22日
「ディープラーニング」入門6時間集中講義/自然言語処理とニューラルネットワーク
に行ってきた!のつづき。、第三部(これで終わり)をメモメモ




6時間集中講義 自然言語とニューラルネットワーク
第三部 Googleニューラル機械翻訳

PBMT;句を利用
GNMT;Googleニューラル機械翻訳
・日本語はまだ低い。ポルトガル語はつよい
 英語と日本語の違い
  BLUE:統計的→質的には
  日本文法:主語の省略を許す、代名詞を落とす
 Google翻訳はよくやっている→質が違う。下訳として使える

・ニューラル機械翻訳に先行したもの
  ルールベース機械翻訳:機械翻訳の主役だった
   →いまはあまり・・・
  Combinatory
   →ルールベースも進化

 統計的機械翻訳モデル(SMT)
  すべてのソースとターゲットペアに確率を割り付ける
  対比したコーパスの学習→近い文を探す:検索

   P(J|E)     P(E)

     P(J|E)P(E)

 →語順が一致するとは限らない:
  いくつも対応、バータリティ、対応するものがない

・統計的機械翻訳モデルの成功と限界
 Very Very Large Corpora
  とても長いコーパスがいる
 スペル訂正 Power of data
 →Google翻訳は、量による質の改善ではない!
 
・パラレルコーパス
 現在のコーパス:共有されている
  英語フランス語:3600万
  英語ドイツ語:500万
 →Googleの自前のセットは、2~3桁多い。

・Googleの書籍のデジタル化
 ロゼッタストーン:最古のコーパス パラレル データ
  →しゃんぽりおん
 ベフィストン碑文:楔形文字
 ベントリス:エバンスが線文字Bとしたのを解読した

・ニューラル確率言語モデル Bengioの「次元の呪い」
 アルファベット:ワード 単語の数は追いかけられる
 文の複雑さ:限りない。量的な飛躍
   さらに
 見たことのない文

 →意味が違いものを捕らえるアプローチ
  特徴ベクトルを対応付ける
 →意味をフィーチャー

・語と文の複雑さの違いについて
 単語は有限個
 文は無限→用例集は存在し得ない

・Word2Vec語の「意味ベクトル」
 語と語の間に距離
 似た意味を持つ言葉は似たベクトルを持つ
 意味を変換するベクトルは共通?

・RNNの文法認識能力

・文法の階層性
 チョムスキーの階層
  Type-0,1,2,3

・DeepLearningの理解
  正規文法;1997
  文脈自由:
  自然言語:Google翻訳
 実はチョムスキーはリカーシブルな世界に関心?

・方法論上の問題
 機械の能力の階層性
  ディープラーニングの質的な違い:わかっていない
  機械にできるかできないかは、ある程度学習させると
   できる・できないの判断がむずかしい
  問題は、機械やデータではない
  機械学習:作ってみたら、できました!
 チョムスキーは形式的に証明できる
 機械学習は・・・

・Google翻訳は、意味を理解しているか?
 そうじゃない?→記号の変換の可能性もある

・人間と機械翻訳のギャップにはしをかける
 LSTM8段
  エンコーダーとデコーダーをアテンションでつなく
  いろんないいとこどり
  8ビット処理:TPU(8ビットのテンソル用ハード)も

・Encoder/decoder Hintonのオートエンコーダー
 圧縮して拡大する
 書類の分類にもつかってみる;図書のエンコーダー
 セマンティックハッシング

 AutoEncoder:うまくいく

・AttentionMachine
 固定長ベクトル:長い文でも短い文でも?

・GNMTはそういうのをみんな入れている

・WordPiece
 キャラクターをいれてキャラクターを出す
 →ワードを入れてワードを出す:精度はわるくない(効率は悪い)
 →人間の言葉は音、キャラクターモードに近い

・Wordへの分割の問題
 音のつながり:区切りの意味持たない
 日本語:構文解析が必要

 基本的な単語
 訓練用データセット:語の区切り方をサンプルで学習
 つながり情報があれば
 追加していく:バランス言い切り方を機械が決める

・意味:語に意味があるわけではない→つながりさえ維持できていれば・・・

・ワードピース32Kに抑える 2バイトでいける
 日本発の技術

・多言語ニューラル機械翻訳
 ひとつのシステムでマルチ機械翻訳
 特徴
  1:シンプルさ
  2:リソースの少ない
  3;ゼロショット翻訳:教えていない言語を生成

 実験;多対多
  性能は落ちるが、ペイする

・ゼロショット翻訳
 インターリンガ:内部で同じ言葉があるんじゃないか?
 ちょっとデータを追加すると成績が伸びる

・ビジュアルな分析:インターリンガの存在
 内部で意味をちゃんと捉えているか:YES
 アテンションがどう動くか
  英語、日本、韓国語:同じ文;近いところが活性化

 チョムスキー:ユニバーサルランゲージ

 ゼロショットだと、意味が分かれてしまう。

・混合言語
 日本語と韓国語を混ぜる:ちゃんぽんにならない
 ただし
 ロシア語+ベラルーシ→ウクライナ語がでることも!

・新しい人工知能観へ
 人工知能研究のパースペクティブ
 新しい人工知能観:自らの手で作る
ジャンル:
ウェブログ
この記事についてブログを書く
この記事をはてなブックマークに追加
« RNNとLSTMの基礎を聞いてきた! | トップ | マルツオンラインが4月24... »
最近の画像もっと見る

あわせて読む