宇宙論、ブラックホール、ダークマター、ホーキング放射、相対論

ブラックホール、ダークマター、ホーキング放射、相対論 etc etc

電王戦・AlphaGoとは・・・

2016-03-18 12:07:44 | 日記
AlphaGoは、ディープニューラルネットワークを用いて実装された「value network」と「policy network」によって動くモンテカルロ木探索(英語版)を用いる。

まあこんな風にWikiには書かれています。


MCTS(モンテカルロ木探索)まではCrazyStone(2006年)が起こしたブレークスルーでした。<--リンク

そして今回のAlphaGoのブレークスルーはArakiさんによれば、<--リンク

1.遅いけど正確な行動評価関数をDCNNで作る(b)。

2.bを強化学習でさらに学習する(c)。

3.cを使った自己対戦により、状態評価関数をDCNNで作る(d)(これにより状態評価が15000分の1の時間で出来るようになった。)

そうしてたぶん行動評価関数「policy network」と状態評価関数「value network」を使ったMCTS(モンテカルロ木探索)で対局する、、、ということの様です。


そういう訳で、AlphaGoは盤面全体を見渡しての大局観にすぐれてはおりますが、モンテカルロ木探索の弱点である、「• 細く長い正解手順がある場合、 最善手が1手だけある、という局面が長手順連続すると、確率的に正解にたどり着かない」というものも合わせ持っている様であります。

・シチョウ : プレイアウトをパターンで強化して回避

・死活、攻め合い : まだ対処法は不明

(• 山下さんは、探索との組合せなどを試しているらしい)


PS
行動評価関数「policy network」<--13層のニューラルネットワーク(CNN)

枝刈り用のものである。(というよりは次の一手候補を戦略的に複数、選択する機能かな。)

「policy network」で有効な次の一手の候補を絞り、「value network」でその候補盤面の評価をする。

序盤はこれでしょう。

そうして終盤に近くなると、具体的にプレイアウトを実行して勝率を確認するものと思われる。

ソースはこちら<--リンク


PS
「電王戦記」はこちらから入れます<--リンク

特集記事一覧にはこちらから入れます。<--リンク
コメント