aq3948の日記(がわりtwitterまとめ)

twitterのつぶやきをまとめ投稿してます

1月28日(木)のつぶやき その2

2016-01-29 00:50:24 | 日記

@demishassabis pros. That means CrazyStone/Zen w/o any handicap is about as strong as Han Fui or AlphaGO(non-distributed).


@demishassabis Correction: CrazyStone/Zen *w/ 4-6 stone hadicap* should be roughly on par with top pros twitter.com/aq3948/status/…


@morikuni_net Fan Huiとやったのはクラスタ版では?



1月28日(木)のつぶやき その1

2016-01-29 00:50:23 | 日記

www3.nhk.or.jp/news/html/2016… こちらでもすでにニュースが公開されています。なお、(たぶんもう言ってもいいと思いますが)明日の朝7:00~のNHKニュースで流れます(私は出ませんが)。あと、おととい夕方からの私と大橋先生のネガティブTweetの原因はこれでしたw。

Eikyu Itoさんがリツイート | 8 RT

Googleの囲碁プログラムが勝ったFan Huiさんはプロ2段か。3月にやるイ・セドルさんは世界トップクラスなので彼に勝ったら本物だけど。これは注目。自分は深層学習だけではトップには勝てないと予想してるけど、深層学習以外に何かやってるのかな。まあ予想外れの可能性もあるけど。

20 件 リツイートされました

Fan Hui氏は世界ランク633位だそう twitter.com/alexjc/status/…

1 件 リツイートされました

しかし3月の電聖戦は一気に興味なくなったな… 他のプログラムに勝っても、だから何、になりそう(まあ負けたらそれなりに面白いかもしれんが)

5 件 リツイートされました

一方FBのザッカーバーグは自身のFacebookで碁について発言している。論文を紹介してる。これから読む
arxiv.org/pdf/1511.06410…

8 件 リツイートされました

今日は仕事はお休みだなw 碁の論文読もう(一応研究職なのでまあ許容範囲)

6 件 リツイートされました

Gの方読んだ。

【学習】
指し手の評価関数(確率分布 p)を3通り、局面の評価関数(v)を1通り作った:
・まず指し手の評価を2通り、教師あり学習で作る。軽いプレイアウト用の(pπ)と、重い木探索用(pθ)。
 ※rolloutって、普通プレイアウトでは?(自分の知識古いかも

5 件 リツイートされました

・更に指し手の評価をもう1通り、強化学習で(pρ)。pρの学習には、初期値としてpθを使う。
・そして局面評価を強化学習で作る(vθ)。これにはpρとの対戦を使う(※ここ具体的に何やったのかよくわからず)。pρはここで使うだけで、対局時は使わない。

5 件 リツイートされました

【探索】
基本MCTSと似ている。各局面(ノード)での確率分布の初期値はpθを使う。リーフノードの評価は、プレイアウトの結果だけでなく、vθによる評価と重みづけする(1:1)。

4 件 リツイートされました

てことで要約すると、
1)指し手の評価がより正確になりました(木探索、プレイアウト共)
2)局面の評価がより正確になりました
3)ノード評価で、局面評価とプレイアウトを重みづけするようにしました
てことみたい。

5 件 リツイートされました

以前たしかRemiさんは「プレイアウトの手選択に凝っても強くならない」と言ってた気がするけど、あれは間違いなのね。まあ直感的にそんなはずなさそうとは思ってたけど。ちょっと不思議なのは、3)の重みづけでレーティングで500近く強くなってる。

4 件 リツイートされました

将棋でいう合議みたいな感じなので多少強くなるくらいはわかるにしても、500は想定外。なんかここにポイントがあるんだろうか。

4 件 リツイートされました

ちなみにレーティングに関しては、Fan Hui氏とAlphaGO1台版がほぼ互角、クラスタ版が+300くらいとのこと。イ・セドル氏はFan Hui氏より600上との情報を見たので(要出典)、それからするとまだトップ棋士には及ばなさそう。まあそれは去年10月の話で、3月は知らんが。

5 件 リツイートされました

モンテカルロが出てきた当初は、既存ソフトより明らかに強くて、みんな「おぉーっ!」となったんだけど、その後そんなに伸びてない。今回も、state of the artは明らかに超えたが、この路線でトップ棋士を超えられるかはまだ何とも言えないかなあ。まあまずは3月のイセドル戦だ。

5 件 リツイートされました

出典は多分Remiさんが作ったレーティング goratings.org
5 Lee Sedol 3515
633 Fan Hui 2916
twitter.com/aq3948/status/…

Eikyu Itoさんがリツイート | 2 RT

えーっ 家のWinはVMWare Playerなんだけど、これもダメなのかな?VMWareのイメージみたいのを作ってVirtualBoxに持ってくのってできるんだっけ(<ggrks) twitter.com/kmo2/status/69…


ちょっと待てよ、やっぱなんかおかしい。ZenやCrazyStoneは一流プロに4~6子で互角のはず。
ja.wikipedia.org/wiki/%E3%82%B3…
だがGoogle論文の図では、4子置いたZen,CrazyStoneがFan Hui(≒AlphaGO)よりもかなり弱いとなってる

15 件 リツイートされました

やっぱGoogle信用できないな。どっかに嘘が混じってる。

13 件 リツイートされました

G論文ではCrazyStoneは32CPUと書いてあり、それなら本気の強さかと思ったが、「一流プロに4~6子」だとすると、Fan HuiやAlphaGOとあまり変わらんレベルということになる。32CPUって、80486x32とかじゃないよねw

12 件 リツイートされました

というわけで、ちょっとAlphaGOの評価は保留だなー。もしかしたら本当に強いのかもしれないけど、これだけじゃ信用できるだけの根拠がない。

14 件 リツイートされました

ちなみにFB論文の方もざっと見てるけど、こちらは「Deep Learning + MCTS でZen/DolBaram/CrazyStone と互角になりました~」という話で、そう衝撃的ではないみたい。

4 件 リツイートされました

ま、G社が "That Day" とかいう手記を出すハメにならないといいけどね。

1 件 リツイートされました

@demishassabis
I have read the paper on AlphaGO. It's just amazing! Congrats on your wonderful achievements. BTW, I have one question;


@demishassabis I would appreciate if you could clarify.
A figure on your paper says that CrazyStone/Zen w/ 4-stone handicap is significantly


@demishassabis weaker than AlphaGO or Fan Hui. However, the match records so far show that CrazyStone/Zen should be roughly on par with top