学生の頃、『人工知能』の研究室で様々な学習の仕組みを研究していました。
今日は、オセロ等で機械に"人間に勝つための学習"をさせる仕組みを簡単に紹介したいと思います。
強化学習と呼ぶ仕組みを使って、次の様な手順で機械に学習させます。
-------
(step1)
機械にランダムな手を打たせる(状態・行動の選択をさせる)
(step2)
機械が勝った場合は、一連の状態sと行動aに『報酬』を与えて他の状態や行動よりも高い確率で選択させるように確率値p(s,a)を変更する
※負けた場合は、『罰』を与え低い確率で選択させるよう確率値を変更する
(step3)
step2で変更された確率値に基づき機械に次の手をうたせる
(step4)
step2とstep3を繰り返し、機械に選択させる状態・行動の確率値を最適化する
-------
オセロの場合、機械は64個のマスと『黒』『白』『空』の組合せ(64×64×64)の状態sについて、どの選択が良いかを学習します。
機械に『報酬』と『罰』という教師を与えて学習させる強化学習の仕組みは『教師あり学習』と呼ばれますが、
重要なのは、教師(『報酬』と『罰』)が信頼に足るものかどうかということです。
不適切な『報酬』や『罰』で学習させると機械は強くなりません。
機械にどの行動を選択させるかについても工夫をこらさなければなりません。
常に教師に従った行動を選択させると、機械はミクロな最適解に陥ってしまい全体を見通した選択ができなくなってしまいます。
時々は自由に行動させなくてはならないのです。
子育てにあたり、自分が正しい教師なのか不安になる事があります。
自分の都合で子供に自由を与えず、やる気をくじいている事もあります。
その他思い返すだけでも沢山失敗しています。
反面教師と斜に構える訳にはいかず、自分も学習しなければと感じます。
『学習』を『環境への適用』と考えると、会社生活がメインとなっている自分にとって、
地域のこのような集いの場はとてもありがたいものです。
新たな環境に適用する中で色々と学ばせて頂けるからです。
おかげ様で、娘のEもたくさんの事を学んでいます。
直接お会いする機会は少ないのですが、親子共々今後ともよろしくお願いいたします。(なおとく)