マーちゃんの数独日記

かっては数独解説。今はつれづれに旅行記や日常雑記など。

敗軍の将、兵を語る(その2)

2017年09月06日 | 将棋

 電王戦第1局は201741日(土)日光東照宮で開催された。持ち時間は5時間。







 先手ポナンザの初手は「38金」の右図。検討中の多くの棋士からため息がもれた。解説の木村一基八段曰く「プロの常識ではまったくあり得ない、悪手になる確率が高い手」と。後手の名人にとっていやだなと感じる初手。初手から定跡を離れ、1手1手自力で考えなければならない展開となった。

    
     (左が開発者山本一成。右が名人佐藤天彦)

 ドキュメンタリーは敗者に語らせると並行して将棋ソフトの現状に触れていた。その点は今後私なりにまとめたいが、今はドキュメンタリーの流れを追って行く。
 何故ポナンザはここまで強くなったのか?10年ほど前からポナンザをふくむ将棋ソフトは、5万局の棋譜を手本にして棋士の指し方を学ぶ、いわゆる「機械学習」を取り入れていた。学習する要素の1つに駒の配置がある。強い棋士が指す局面に現れる駒の配置を“勝利の図形”(現段階では三角形)として記憶。この勝利の図形が沢山ある局面ほど有利と判断し、最善の手を学んでいく。この機械学習の登場でソフトは強力に力を付けていった。
 
更には「強化学習」を取り入れていた。ポナンザ同士を何度も対戦させ、人間の対局では得られない未知の局面を大量に収集。その数1兆局面。その膨大なデータをボナンザ自身に分析させ、独自に学習させることで棋力を向上させてきた。その結果ポナンザは棋士の定跡やセオリーに縛られず、独自に最善と判断した手を指せるようになった。山本曰く「最初は先生の言うことを聞き(教師在り学習)、最後には自分で考える(教師無し学習)ところまでに成長したと思います。そこから、将棋に関する常識や物語から逸脱しそうな手がいっぱい生まれてきたんです」と。

 ポナンザ独自には初手をランダムに指すという戦法を採用していた。
忙しい名人に変わってポナンザ対策を考えたのが、得意手は”千日手”という異端児の永瀬拓矢六段。2年前、別の対将棋ソフト戦では、ソフトを反則負けに追い込んで勝利を収めていた。永瀬六段の報告を受けながら対策を練っていた名人にとって取り分け厄介なのがポナンザの初手。ポナンザの初手には22手の選択肢があった。それでは対ポナンザの戦略を練りずらい。定跡を用いての戦いになりずらいのである。山本曰く「いくらポナンザが強くても同じ戦法ばかり指していてはそれを相手に深く研究され有効な対策を練られてしまう恐れがある」と。(将棋棋士永瀬拓矢)


 局面が進んで、一時は評価関数による評価は両者互角と見られる局面となった。その局面で、永瀬六段は難しい展開になったと分析していた。「じりじりした神経戦が続いていくので体力が無限なコンピューターに対し体力に限りがある人間は不利。コンピュータと人間の差が出やすくなる」。永瀬の不安は現実のものになっていく。中盤に差し掛かろうというあたりで持ち時間は名人が1時間少なくなっていた。ポナンザは名人の指し手が読み通りだと直ぐに指してくる。名人曰く「相手が考えていればその間に頭を休めることが出来るがそのイトマを与えてくれない。いつなんどきも集中していなければならない」(評価値と呼ばれるもののランク)

 その名人に疲れが出たのか、54手目に「74」の☗
歩を「☖同銀」と取った。その瞬間名人の評価値は大きくマイナスに振れていく。名人はポナンザの狙いに気が付いたが時既に遅し。飛車が包囲され、そこから僅か17手で名人投了。名人の完敗。(上が名人。この歩を☖同銀と取った)
 初戦を終えての名人の感想「棋士同士で対戦していると、将棋の宇宙の中の、ある一つの銀河系にしか住んでいないような感じになっていく。もっと広い視点で見れば、いろいろな惑星があるかも知れません。未知の存在との戦いという意味では、楽しみ・興味・好奇心があります」と。