ウィリアムのいたずらの開発日記

ウィリアムのいたずらが、コンピューター関係について、思ったことを好き勝手に書いているブログです。

「自然言語とニューラルネットワーク」をまずはメモメモ

2017-04-23 14:25:35 | Weblog
4月22日
「ディープラーニング」入門6時間集中講義/自然言語処理とニューラルネットワーク
に行ってきた!ので、まずは、第一部をメモメモ




6時間集中講義 自然言語とニューラルネットワーク

バベルの塔の絵

今日の3部構成
・自然言語と人工知能
・RNNとLSTMの基礎
・Googleニューラル機械翻訳

ニューラルネットと自然言語のつながり
2012年におきたこと
 1.Googleの猫
 2.ImageNetで、Alexnet
 3.ひんとんが、音声認識に飛躍的
今日は第三の音声→テキストのはなし
今また、新しい動き
 ・Google機械翻訳
 ・デファレンシャル ニューラル 
   →第4のモデル:ターゲットはヒューリスティック推論

AI技術を構成する複数の流れ
・統計的分析(機械学習)
・ヒューリスティックに構築された対話アシスタント
・DeepLearning
・言語に対するアプローチ
→いまDeepLearning
 次、言語理解:転換点

第一部:自然言語と人工知能
・言語と人間の知能
 身近なもの:機械翻訳、
       ボイスアシスタントシステム
          →検索を実行するのがかぎ
          →ニューラルネットとは違うアプローチ
 知識体系の機械化
 Googleはかわってるっていう話

・言語と人間の知能
 生物の知能:目ができた→ニューラルネットの発展
  Pax-6:動物の目の遺伝子は同じ
 →DeepLearningが得意なところ

 人間:言語
  コミュニケーションは、動物にはいろいろある
  ソーシャルネットワーク
  言語能力に生物的基礎
   さいもんふぃっしゃー FOXP2:言語能力に関係する遺伝子
    →鳥にも存在。さえずりを真似する鳥とまねできない鳥
   ゴリラやチンパンジーとのちがい2箇所、ねずみは3箇所しか違わない
   ネアンデルタール人と同じFOXP2

・マックス・プランク研究所
 ”Language and Genetics"
   遺伝子からのアプローチ:わかっていない

・言語能力を持つのは人間だけ
  CNN:視覚のモデル化→とどかない
  言語:生物の進化の中で、ごくごく最近(6~10万年前に突然変異)

  文字:さいきん
  メディア
  機械
  コンピュータ
  インターネット

  言語能力がターニングポイント

・技術の進歩と人口
  文字の登場と数学(2000~3000)
   →爆発を準備

・シンギュラリティはおきている
  人類:地球にインパクト
 シンギュラリティ→機械が人間より賢くなったら・・・
  人間が愚かしくなれば、シンギュラリティを迎えるのでは?

・コトバと文字(Dyslexia)
  人間は、ほとんど同じ:実は違う
  Dyslexia→文字が読めない

 言葉の理解
  ウェルニッケ→ブローカー→脳
 文字
  視覚や→39野、40野:しゃべる→言語理解へ

 学習によって作られる回路
  39野40野に障害が起きるとつながらない
 
認識の発展
・外界の把握
・認識の飛躍
・知識の蓄積:メディア
・数学的な対象認識
→知能は重層的

・言語への言語学からのアプローチ
・チョムスキーの観察(1)
 聞いたこともない文章を理解できる
  →文を生成する文法が帰納的

・リカージョンの能力
  はと:3以上わからない
  さる:一般化できない
  あかんぼうは、ものには名前があることを知っている

・コトバの獲得
  うまれたところの言語の能力を短い期間で習得、その能力が消えない
   →強烈に学習
   →大量なデータではない:刺激の貧困
    共通な構造が埋め込まれている

・バイオリニスティック;生物学的言語学
  チョムスキー:みにまりすと
 なぜわれわれだけ、言語能力?

・最近のトピックス
   機械翻訳
   ボイスアシスタント

・翻訳
  Google翻訳 日本語→機械翻訳に影響 
  Google翻訳 103言語

  Google リアルタイムカメラ翻訳

  Microsoft Translator
    Skype X AI翻訳

・ボイスアシスタント
  アマゾンエコー:あれくさ
  Apple Siri
  MS こるたな
  Google Now→Google Grass

  2番目に始めた国:日本
   日本語:貢献→むずかしい
   聞いた音→文字?
     例:えーけーびーふぉーてぃーえいと、かかくどっとこむ、しゃらんきゅー
   →音声辞書をつくる:ワードピース
     英語:ワードの区切るある 日本語:くぎりない
     音声:くぎりない
   →じつはディープラーニング関係ない
  RNNで画期的
   音声をテキストに変える:ボイスアシスタントの出発点
   実はその先はたいしたことしていない。

・あれくさの実装
 マッチングすれば、定義されたIntentNameに対応付ける
  HelloIntent こんにちは
  HelloIntent おい
 スピーチレットでうける

 文字にするのはディープラーニング

 もじにしたら、対応する印テントを探す

 いんてんとがみつかったらOnIntentでやったことを実効

・ああいえば、こういう
  →かしこくない

・こるたな
  ListenForに相手がしゃべる言葉を書いておく
  Feedbackにかえすことば

  フランス語をListenForして中国語をFeedback

・Watson
  どれかをしゃべったら

  Grammerタグないのワイルドカードのアスタリスク
   *、$、%、#・・・マッチングする
  W3Cのマッチングで言語観を定義

・なんについてのことか、大まかにまとめる

・全部羅列している
  BOT

・Facebook Bot エンジン
 組み合わせの呪い

 ボット
   ルールベース
   マシンラーニング
 →核心部分は命令実行型

 たくさんの枝分かれ→いつかきっと破綻する

・ディープラーニングではない
 入り口だけ

・チューリングテストを突破したBot
 Botエンジンの特徴
  →話をはぐらかせる
 watson:会話を続ける→ごまかしていく

 Bot:こういうノウハウ大事!
  →すべてのパターンは想定できない

・IBM Watson
 Watsonは自然言語を解析する能力を持っている(部分的)
  質問の分析→検索→もう一度検索→評価

・人工知能と検索技術
 ニューラルネット:入り口部分だけ、検索技術が重要
  →コンシューマーターゲット
    IT技術と広告と検索を結びつける
    検索や広告:パーソナルアシスタントシステム
     広告もそう。広告の中に自分たちの探したいものがあれば
     ニューラルネットでリーチしえていない
・Google Knowlage Graph
  完璧な検索エンジン:あなたが意図したものを返す

 大規模グラフ処理
  Facebook:グラフをコントロールするものは、世界をコントロールする
 それまで
  大規模データ処理の第一世代への転化
  第二世代へ転化
   バッチ処理からリアルタイム Open Graph
   MapReduceをやめて、カフェインにPregalへ
  →Googleかつ:Knowledge Graph
  →知識データ処理:
    Google Caffeine→Pregal →Google+
    Apache Graph

 Moonshot

 Facenookの10年計画
  高度にパーソナライズかされたターゲット広告
  多様な人工知能サービスを可能にするSearch

 グラフのスキーマ;エンティティモデル
  言語の表現と知識の表現
   エンティティ:プロパティ:実態
  アインシュタインの誕生日
   アインシュタイン:エンティティを検索
   プロパティ:誕生日を探す
    →わかる
  全部じゃない:グラフデータは少ない

 schema.org→スキーマの提供
   ボキャブラリー
   型をもつ is-a
 プロパティを持つ has-a

 おさまらないもの:action→プロパティの一部

・HTML5マイクロデータ

 タグをつける(Itemprop)
 →自然言語で抽出できないので、タグをつける
 →かしこいか?Botとにてる
   →言語を理解していない

 Google Now カードシステム
  JSONのタグがメールに埋め込まれている
  受け取ったエージェントが解析している
 →タグ付けして

・自然言語から見たグラフスキーマの「貧困」
  リンネの分類学
 グラフ検索で荒れれるもの
  プロパティがないと、検索結果を返す
 ぐぐった結果でもう一回検索を繰り返す

 Schema.org:本当は貧弱(自然言語に比べると)

 タグ付け:英語がわかること必要
   →英語がわかるためにたぐづけしているのでは?

・ワードネット
  なんでもはいっている

・GAAFのAIへの取り組み
 →ボイスアシスタントシステムをしっかりやろう
  Facebook:執事をつくる(人間を助けるシステム)

  Amazon:AIは数十年続くトレンドの初期段階
   エコーとあれくさ
    ボイスアシスタント戦争
    あれくさ;プライバシー

  Apple:上品
   Siriをサードパーティに開放
   スマホの電池
   ユーザーのプライバシーを守る:デファレンシャルプライバシー
   スマホの情報をクラウドに飛ばさない
   キラー・ユーザー・エクスペリエンス

→ボイスアシスタントと自動車で食い込んでいく

  Google
   ラリーペイジ:世界のすべてを理解する。それが人工知能
   Elon Musk:それじゃスカイネット
   ラリーペイジは特殊

 GAAF(がーふ)
  消費者にターゲット
  違いもある:Google 究極のAI

・グラフの遍在と人工知能の未来
 自然言語とグラフ構造
  Watsonでさえ、自然言語を構造化されていないデータとしている
  →構造化されている
   タグ付けを人間がやっていることが問題

 自然言語のグラフの中心は動詞

・Scene Graph
  画像から、あれもあるこれもある→関係を出す
  →このグラフを機械では作れない
   でも、アルバイトは作れる
  →でも、つまんない文章(まちがってはいない)

  イメージキャプショニング:まちがえる
  その前に音声のキャプショニングが先
  →リアルタイム翻訳

・グラフの遍在と「すべてを知ること」
 究極の人工知能
 世界のすべての情報:把握できない?→次元の呪い
 世界のすべての情報を知る必要はあるか?たぶん、ない
 すべての知っているシステムは効率的なの?→集中になる
   →分散されてもたれていることで確実になる
 Wikipediaは50Gくらいしかない
   全員がもっていればいい
 科学:わからないことを解決している
   なぞ→科学のターゲット
ジャンル:
ウェブログ
この記事についてブログを書く
この記事をはてなブックマークに追加
« Microsoftのタスク管理アプリ | トップ | RNNとLSTMの基礎を聞いてきた! »
最近の画像もっと見る

Weblog」カテゴリの最新記事