ウィトラのつぶやき

コンサルタントのウィトラが日頃感じたことを書いていきます

人間の知恵とAIの知恵ーアルファ碁から考える

2017-11-12 20:01:48 | 囲碁

囲碁の分野でグーグルが開発したアルファ碁が人間を超えたことは既に有名である。そのアルファ碁は今年の初めに世界のプロ棋士の強豪を相手に60連勝以上して、その後世界最強と言われる中国の棋士に3連勝した後は「もう人間とは対戦しない」と宣言していた。そのアルファ碁が最近Alpha Go Zeroというのを開発して更に進化した、と発表した。

これでグーグルの開発したアルファ碁はAlpha Go Lee、Alpha Go Master、Alpha Go Zeroと3バージョンになった。Alpha Go Leeは昨年春に韓国のトップ棋士を4勝1敗で破って人類を驚かせたバージョン、Alpha Go Masterは今年の初めに世界のプロ棋士を総なめにしたバージョンである。これらは人間の棋譜を与えてある程度強くした後で、コンピュータ同士の強化学習で強くしたものである。そしてAlpha Go Zeroは人間の棋士の棋譜を与えず、コンピュータ同士の対戦のみから学習させたバージョンである。Alpha Go ZeroはAlpha Go Leeに100戦100勝、Alpha Go Masterには100戦90勝程度だという。そしてバージョンの異なるアルファ碁同士の対戦の棋譜を公開した。それが「棋譜う」というサイトにいくつかアップされている。

棋譜を見るとAlpha Go ZeroとAlpha Go Leeの間にははっきりとした実力差があることが分かる。Alpha Go ZeroとAlpha Go Masterの実力差は私には分からなかったが、結果としてはAlpha Go Zeroがほとんど勝っている。過去の人間の知識が、最適解を見つける際の妨げになっていることが分かる。

Alpha Go ZeroとAlpha Go Masterの対局では「アルファ碁定石」とでも呼べるような同じパタンが何度も出てくる。アルファ碁は次の候補手を得点化して最も得点の高い手を選んでおり、点差が小さいときには乱数を使って着手を選んでいるはずだから、同じパタンが繰り返し出てくるということは、他の手との得点差があるということだろうと思う。

興味深いのは白がA、黒がBという形になる定石が出来た場合に、Alpha Go Zeroは白でも黒でもAの形を選び、Alpha Go Masterは白でも黒でもBの形を選んでいる点である。つまりAlpha Go ZeroはAが有利、Alpha Go MasterはBが有利と考えているようである。学習は通常、初期段階では乱数の要素を大きくしていろいろな手を試し、成熟してくると乱数の要素を小さくするものだから、学習は相当に成熟段階にきていると見てよいだろう。

このことから、過去の人間の着手はかなり良い着手ではあるが、最善ではない。そして、かなり良い手であるがゆえに、Alpha Go Masterは人間の呪縛から抜け出せない、ということだと推測している。

一般的な人間の常識にもこのようなことが多々あり、これからコンピュータに教えられることが増えてくるだろうと思う。