8月27日、マルレクの第三回
自然言語とコンピュータ概論 -- 計算主義的言語論理入門 --
に行ってきたのでメモ
(はじめの10分くらい遅れたので、途中から)
Benjio(ベンジオ)の次元の呪い
・単語と文では次元が違う
・統計的言語モデル
語のシーケンスを学ぶ
指数関数的な広がり:語の特徴ベクトルの並び
→Wordベクトルで実現される:当時2004年はまだなかった
辞書は存在できても、用語集は存在しない(無限に生成される)
・ヒントンのオートエンコーダー
元の画像2000バイト→30バイト→2000バイトの画像に戻す
教師あり学習に似てるけど、教師はない:教師はもとの画像
→書籍の分類に成功
主成分分析だと分類できない
→セマンティック・ハッシング
・Word2Vec:
意味を持つ語の並びとしてとらえよう!
国を首都に対応付けるベクトル
・エンコーダー・デコーダー→機械翻訳へ
シーケンス To シーケンス
1つのシーケンスを
ABC XYZ
シーケンスを圧縮する→全情報集約→シーケンスを戻す
・5段重ねのLSTMで8000次元
・ばーらなー(べんじおの弟子) アテンション
固定長がボトルネック
GNMT(ぐーぐるにゅーらる機械翻訳)
アノテーション、コンテキスト・・・
復元するときに、
・ワードピース
文をどのように分割するか
日本語、中国語:区切りがない
Googleは革命的!:語を分割するのをやめた
ワードピース:文法関係ない!
→語分割の学習をする
キャラクターの柔軟性
ワードの効率
→ワードピース
テキトーに切っていい:どの言語でも使える
・多言語翻訳を単一モデルで
ゼロショット翻訳:初めて見たはずなのに翻訳できる
Googleは膨大なコーパスを持っている。
・Google翻訳は、意味を理解しているか?
機械翻訳 2人のいんげんの間に機械がいる
→両端の人間が意味を理解している
人間が介在じない機械翻訳:コンパイラの機械翻訳
おんなじ形で、機械学習でコンパイラはできるはず!
→karpathy:Linuxのコードから機械学習させた・・・走らない
・中国人の部屋→Alexaと同じこと
誰がマニュアルを作った?:だれが言語能力の担い手か?
・グレーブス
ニューラルネット:外部メモリをもたない:メモリと計算入り混じる
現代のコンピューター:計算とメモリを分離する
DNC:外部メモリ
実験結果をどう見るか?bAbIテスト
スケールできるのか?
ボイスアシスタント
Speech2Text、Text2Speech以外は、ディープラーニングは使われていない
Google:エンティティモデル Schema.org
IBMわとそん:候補を見つけて評価
→ディープラーニングできえてしまった
・Alexa:Intent以外の抽象化をもたない
Slot,Slot type
Alextの進化は面白い
文法性に目覚めた
・出発点 2012年 ヒントンの音声認識
ワードピース 中島けいさん
・Google アシスタントとGoogle Now
命令文と疑問文に対応
ナレッジグラフ→グラフ検索
オーディオデータを送ると、オーディオデータが返ってくる
・アレクサの進歩
インテント:アタランスをかく
スロット→スロットタイプ
名前にスロットタイプ割り当て
Intent Signature
ビルトイン インテント
複数のプロパティを持つAction→@による文法
AIをめぐる新たな社会的問題
マイクロターゲティング
Google:みんなに同じニュース
ボイスアシスタント・ナレッジグラフの検索:絞る
2000年 リスティング広告
2010年 検索のリアルタイム化:ナレッジグラフと音声検索
2020 情報の収集・ターゲット広告へのAIの利用
広告抜きにはAI語れない(成功していない)
儲かるエンジンへ
・チャーチ・チューリング、チョムスキー、らんべっく
チョムスキー:
Syntactic Structures 1957
Minimalist Program 1995
マージ
文法的に正しい文を生成する
文法の計算ルールは2つの式であらわされる
ランベック:数学→50年後復活(2008年 From Word to Sentence)
チョムスキーとランベックはともだち
Minimalist ProgramとCategorical Grammerの融合は進んでいる
Berwick&Chomsky WHY ONLY US 2016
・言語学の数学の応用
チョムスキーとロバートリーズ
ランベック: Word to Sentence
WordにTypeをわりあてる
型でおこる。リアルタイムで計算
・チョムスキー ヒエラルキー
言語の階層→自然言語を位置づけ
・レコグニショングラマー W3C:正規文法→うまくいかない
・ディープラーニング ダイアグラムは書けない。猫は書けても
言語階層だと、空白ができる
・マージが生まれた
鳥の概念はある
飛ぶ概念はある
→マージで、「トリが飛ぶ」
・計算システムとしての言語能力
概念:言語能力に潜在
れきしかるアイテム
れきしこん
PP
言語は バイナリのスイッチに還元
実装はない
・ランベック
あじょいん
n/sで計算していく
→タイプが追加される
文法の計算
自然言語とコンピュータ概論 -- 計算主義的言語論理入門 --
に行ってきたのでメモ
(はじめの10分くらい遅れたので、途中から)
Benjio(ベンジオ)の次元の呪い
・単語と文では次元が違う
・統計的言語モデル
語のシーケンスを学ぶ
指数関数的な広がり:語の特徴ベクトルの並び
→Wordベクトルで実現される:当時2004年はまだなかった
辞書は存在できても、用語集は存在しない(無限に生成される)
・ヒントンのオートエンコーダー
元の画像2000バイト→30バイト→2000バイトの画像に戻す
教師あり学習に似てるけど、教師はない:教師はもとの画像
→書籍の分類に成功
主成分分析だと分類できない
→セマンティック・ハッシング
・Word2Vec:
意味を持つ語の並びとしてとらえよう!
国を首都に対応付けるベクトル
・エンコーダー・デコーダー→機械翻訳へ
シーケンス To シーケンス
1つのシーケンスを
ABC XYZ
シーケンスを圧縮する→全情報集約→シーケンスを戻す
・5段重ねのLSTMで8000次元
・ばーらなー(べんじおの弟子) アテンション
固定長がボトルネック
GNMT(ぐーぐるにゅーらる機械翻訳)
アノテーション、コンテキスト・・・
復元するときに、
・ワードピース
文をどのように分割するか
日本語、中国語:区切りがない
Googleは革命的!:語を分割するのをやめた
ワードピース:文法関係ない!
→語分割の学習をする
キャラクターの柔軟性
ワードの効率
→ワードピース
テキトーに切っていい:どの言語でも使える
・多言語翻訳を単一モデルで
ゼロショット翻訳:初めて見たはずなのに翻訳できる
Googleは膨大なコーパスを持っている。
・Google翻訳は、意味を理解しているか?
機械翻訳 2人のいんげんの間に機械がいる
→両端の人間が意味を理解している
人間が介在じない機械翻訳:コンパイラの機械翻訳
おんなじ形で、機械学習でコンパイラはできるはず!
→karpathy:Linuxのコードから機械学習させた・・・走らない
・中国人の部屋→Alexaと同じこと
誰がマニュアルを作った?:だれが言語能力の担い手か?
・グレーブス
ニューラルネット:外部メモリをもたない:メモリと計算入り混じる
現代のコンピューター:計算とメモリを分離する
DNC:外部メモリ
実験結果をどう見るか?bAbIテスト
スケールできるのか?
ボイスアシスタント
Speech2Text、Text2Speech以外は、ディープラーニングは使われていない
Google:エンティティモデル Schema.org
IBMわとそん:候補を見つけて評価
→ディープラーニングできえてしまった
・Alexa:Intent以外の抽象化をもたない
Slot,Slot type
Alextの進化は面白い
文法性に目覚めた
・出発点 2012年 ヒントンの音声認識
ワードピース 中島けいさん
・Google アシスタントとGoogle Now
命令文と疑問文に対応
ナレッジグラフ→グラフ検索
オーディオデータを送ると、オーディオデータが返ってくる
・アレクサの進歩
インテント:アタランスをかく
スロット→スロットタイプ
名前にスロットタイプ割り当て
Intent Signature
ビルトイン インテント
複数のプロパティを持つAction→@による文法
AIをめぐる新たな社会的問題
マイクロターゲティング
Google:みんなに同じニュース
ボイスアシスタント・ナレッジグラフの検索:絞る
2000年 リスティング広告
2010年 検索のリアルタイム化:ナレッジグラフと音声検索
2020 情報の収集・ターゲット広告へのAIの利用
広告抜きにはAI語れない(成功していない)
儲かるエンジンへ
・チャーチ・チューリング、チョムスキー、らんべっく
チョムスキー:
Syntactic Structures 1957
Minimalist Program 1995
マージ
文法的に正しい文を生成する
文法の計算ルールは2つの式であらわされる
ランベック:数学→50年後復活(2008年 From Word to Sentence)
チョムスキーとランベックはともだち
Minimalist ProgramとCategorical Grammerの融合は進んでいる
Berwick&Chomsky WHY ONLY US 2016
・言語学の数学の応用
チョムスキーとロバートリーズ
ランベック: Word to Sentence
WordにTypeをわりあてる
型でおこる。リアルタイムで計算
・チョムスキー ヒエラルキー
言語の階層→自然言語を位置づけ
・レコグニショングラマー W3C:正規文法→うまくいかない
・ディープラーニング ダイアグラムは書けない。猫は書けても
言語階層だと、空白ができる
・マージが生まれた
鳥の概念はある
飛ぶ概念はある
→マージで、「トリが飛ぶ」
・計算システムとしての言語能力
概念:言語能力に潜在
れきしかるアイテム
れきしこん
PP
言語は バイナリのスイッチに還元
実装はない
・ランベック
あじょいん
n/sで計算していく
→タイプが追加される
文法の計算