なんでもぐもぐもぐ= (なんでも-も)+(も+ぐ)+もぐもぐ

専門のマシン知能に限らず、身辺で感じたこと、なんでも、なぜ、という観点から
もぐもぐもぐ(深堀り)を試みるブログです.

失敗と報酬による学習の仕組み

2010-04-06 19:55:43 | 日記
最近、ユニクロ社長の柳井さんが執筆された本
を読みました.

ユニクロは、9失敗して1成功させる、という
哲学のようです.

学習とは、ある意味で、失敗の中から成功となる
事柄を見出す作業といえると思います.

失敗をしなければ、成功はない、という意味です
ね.


研究はそのほとんどがどちらかというと失敗だと
思っています.

しかし、何が失敗で、何が成功なのか、は実の
ところよくわからない、のではないでしょうか.

短期的にみれば失敗でも、時間がたつとうまく
いっているケースもよくありますよね.

たとえば、ある会社の株を買って、短期的には、
下がっても、長期的には、あがる、という体験は
よくあります.

自身、未だ、サブプライムからの回収が100%
には達しておらず、頭の痛い話しではあるの
ですが、何が、勝ちで負けかは、結局、時間が
解決してくれるのでは、などと時々思います.
(もちろん、何がしか行動を起こす、という
ことが前提ではありますが、、)

そう意味では、成功は、失敗の延長線、という
見方もできると考えられますが、なんにもしなく
てよいか、といえばそういうわけでもありません.

しなければならない事の一つに”予想”があると
思います.

何かをなす、その結果が云々となる.これを
具体的にイメージするのが予想ですね.

脳の中では、予想に関係するドーパミン神経細胞
があります.

ドーパミン過剰状態となると、恍惚感や快感の
ような感情が増すと考えられています.これは、
いわゆる脳内麻薬に相当します.

人はある意味で、この恍惚感や快感を主体的、
能動的に求める生物といっていいかもしれません.

一方、最近の脳科学では、ドーパミンが生み出す
のは、恍惚感のみでなく、嫌悪間も生み出すこと
が知られています.

興味深いのは、ドーパミンの量は、ドーパミン
神経細胞が発火により決まるのですが、この発火
は、報酬が得られる直前であることが、サルの
実験からわかっています.

つまり、サルは、何をすれば、バナナ(報酬)が
もらえるのかを期待し、このときにドーパミンが
放出されるよう学習している、ということですね.

機械学習では、このような報酬予測を基にした
学習スキームを強化学習法などと呼んでいます.

または、情動学習と言われることもあって、その
理由として、すべて計画通りにいくと、ドーパミン
が喜びの状態を作り、逆に計画が失敗すると、
ドーパミンを分泌しなくなる、という具合に
アメとムチの使いわけを情動込みで学習させます.

興味深いことに、計画の失敗をモニターする機能
(前帯状皮質)と密接にリンケージをもっており、
脳科学者は、これを「しまった!回路」と呼んで
いたりします.


ところで、ドーパミン過剰で思い出すのは、著名な
作曲家であったWolfgang Amadeus Mozartです.

Mozartは、幼児のころ比較的ドーパミンが少ない
ときにでる行動パターン(無気力・自閉の症状)
があったといわれています.しかし、晩年は、
むしろ快楽を貪り、ドーパミン過多とみられる
行動パターンが顕著であった、と記されています.

実は、Mozartの音楽が、"The Morart effect"を
作りだすことは良く知られています.

Morart作曲のソナタを学生にきかせると空間認識
テストを高成績を示すことが可能となった、と
ネイチャー(科学論文)で発表されています.

このあと、いろいろこの効果が拡大解釈されて、
心身の健康や、創造性が向上し、アレルギーにも
よい、という宣伝もあった、のですが、Mozartの
音楽は、人を心地よくさせ、ドーパミンを放出
させるトリガーになっている、という考えも
あるようですね.
コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 湯たんぽよ、ありがとう! | トップ | 現象の時遅れ、予兆を捉える... »

コメントを投稿

日記」カテゴリの最新記事