ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

ランベックとチョムスキーによる、「計算主義的言語論理」?を聞いてきた!

2018-08-28 09:03:36 | Weblog
8月27日、マルレクの第三回

自然言語とコンピュータ概論 -- 計算主義的言語論理入門 --

に行ってきたのでメモ




(はじめの10分くらい遅れたので、途中から)

Benjio(ベンジオ)の次元の呪い
・単語と文では次元が違う
・統計的言語モデル
 語のシーケンスを学ぶ
 指数関数的な広がり:語の特徴ベクトルの並び
  →Wordベクトルで実現される:当時2004年はまだなかった
 辞書は存在できても、用語集は存在しない(無限に生成される)
・ヒントンのオートエンコーダー
 元の画像2000バイト→30バイト→2000バイトの画像に戻す
 教師あり学習に似てるけど、教師はない:教師はもとの画像
 →書籍の分類に成功
  主成分分析だと分類できない
 →セマンティック・ハッシング

・Word2Vec:
 意味を持つ語の並びとしてとらえよう!
 国を首都に対応付けるベクトル

・エンコーダー・デコーダー→機械翻訳へ
 シーケンス To シーケンス
 1つのシーケンスを
 ABC XYZ
  シーケンスを圧縮する→全情報集約→シーケンスを戻す

・5段重ねのLSTMで8000次元

・ばーらなー(べんじおの弟子) アテンション
 固定長がボトルネック
 GNMT(ぐーぐるにゅーらる機械翻訳)
  アノテーション、コンテキスト・・・
 復元するときに、

・ワードピース
 文をどのように分割するか
 日本語、中国語:区切りがない
 Googleは革命的!:語を分割するのをやめた
   ワードピース:文法関係ない!
  →語分割の学習をする
  キャラクターの柔軟性
  ワードの効率
    →ワードピース
 テキトーに切っていい:どの言語でも使える

・多言語翻訳を単一モデルで
 ゼロショット翻訳:初めて見たはずなのに翻訳できる
  Googleは膨大なコーパスを持っている。

・Google翻訳は、意味を理解しているか?
  機械翻訳 2人のいんげんの間に機械がいる
   →両端の人間が意味を理解している
  人間が介在じない機械翻訳:コンパイラの機械翻訳
  おんなじ形で、機械学習でコンパイラはできるはず!
   →karpathy:Linuxのコードから機械学習させた・・・走らない

・中国人の部屋→Alexaと同じこと
 誰がマニュアルを作った?:だれが言語能力の担い手か?

・グレーブス
 ニューラルネット:外部メモリをもたない:メモリと計算入り混じる
 現代のコンピューター:計算とメモリを分離する
 DNC:外部メモリ

 実験結果をどう見るか?bAbIテスト

 スケールできるのか?

ボイスアシスタント
 Speech2Text、Text2Speech以外は、ディープラーニングは使われていない
 Google:エンティティモデル Schema.org
 IBMわとそん:候補を見つけて評価
  →ディープラーニングできえてしまった

・Alexa:Intent以外の抽象化をもたない
 Slot,Slot type
 Alextの進化は面白い
 文法性に目覚めた

・出発点 2012年 ヒントンの音声認識
 ワードピース 中島けいさん

・Google アシスタントとGoogle Now
 命令文と疑問文に対応
 ナレッジグラフ→グラフ検索

 オーディオデータを送ると、オーディオデータが返ってくる

・アレクサの進歩
 インテント:アタランスをかく

 スロット→スロットタイプ
   名前にスロットタイプ割り当て

 Intent Signature
 ビルトイン インテント
 複数のプロパティを持つAction→@による文法

AIをめぐる新たな社会的問題
 マイクロターゲティング
 Google:みんなに同じニュース
 ボイスアシスタント・ナレッジグラフの検索:絞る

2000年 リスティング広告
2010年 検索のリアルタイム化:ナレッジグラフと音声検索
2020 情報の収集・ターゲット広告へのAIの利用

広告抜きにはAI語れない(成功していない)
儲かるエンジンへ

・チャーチ・チューリング、チョムスキー、らんべっく
 チョムスキー:
   Syntactic Structures 1957
   Minimalist Program  1995
     マージ
   文法的に正しい文を生成する
 文法の計算ルールは2つの式であらわされる

 ランベック:数学→50年後復活(2008年 From Word to Sentence)
 チョムスキーとランベックはともだち
 Minimalist ProgramとCategorical Grammerの融合は進んでいる

 Berwick&Chomsky WHY ONLY US 2016

・言語学の数学の応用
 チョムスキーとロバートリーズ
 ランベック: Word to Sentence
 WordにTypeをわりあてる
 型でおこる。リアルタイムで計算

・チョムスキー ヒエラルキー
  言語の階層→自然言語を位置づけ

・レコグニショングラマー W3C:正規文法→うまくいかない

・ディープラーニング ダイアグラムは書けない。猫は書けても
 言語階層だと、空白ができる

・マージが生まれた
 鳥の概念はある
 飛ぶ概念はある
  →マージで、「トリが飛ぶ」

・計算システムとしての言語能力
 概念:言語能力に潜在
  れきしかるアイテム
  れきしこん
  PP
  言語は バイナリのスイッチに還元
  実装はない

・ランベック
 あじょいん
 n/sで計算していく
 →タイプが追加される 
  文法の計算


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 国はAIとかIoTとか叫んでいる... | トップ | オープンソースのChat Bot(B... »
最新の画像もっと見る

Weblog」カテゴリの最新記事