電王戦・AlphaGoとは・・・

2016-03-19 11:03:08 | 日記

AlphaGoは、ディープニューラルネットワークを用いて実装された「value network」と「policy network」によって動くモンテカルロ木探索（英語版）を用いる。

まあこんな風にWikiには書かれています。

MCTS（モンテカルロ木探索）まではCrazyStone(2006年）が起こしたブレークスルーでした。＜－－リンク

そして今回のAlphaGoのブレークスルーはArakiさんによれば、＜－－リンク

1.遅いけど正確な行動評価関数をDCNNで作る(b)。

2.ｂを強化学習でさらに学習する(c)。

3.cを使った自己対戦により、状態評価関数をDCNNで作る(d)（これにより状態評価が15000分の1の時間で出来るようになった。）

そうしてたぶん行動評価関数「policy network」と状態評価関数「value network」を使ったMCTS（モンテカルロ木探索）で対局する、、、ということの様です。

そういう訳で、AlphaGoは盤面全体を見渡しての大局観にすぐれてはおりますが、モンテカルロ木探索の弱点である、「• 細く長い正解手順がある場合、最善手が1手だけある、という局面が長手順連続すると、確率的に正解にたどり着かない」というものも合わせ持っている様であります。

・シチョウ：プレイアウトをパターンで強化して回避

・死活、攻め合い：まだ対処法は不明

（• 山下さんは、探索との組合せなどを試しているらしい）

PS
行動評価関数「policy network」＜－－１３層のニューラルネットワーク（CNN）

枝刈り用のものである。（というよりは次の一手候補を戦略的に複数、選択する機能かな。）

「policy network」で有効な次の一手の候補を絞り、「value network」でその候補盤面の評価をする。

序盤はこれでしょう。

そうして終盤に近くなると、具体的にプレイアウトを実行して勝率を確認するものと思われる。

ソースはこちら＜－－リンク

PS
「電王戦記」はこちらから入れます。＜－－リンク

特集記事一覧にはこちらから入れます。＜－－リンク

2024年9月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ダークマター、ホーキング放射、ブラックホールなど

ブラックホール、ダークマター、相対論、そうして賢者の石探索中。

電王戦・AlphaGoとは・・・