ポーカーの世界でも、AIが人間を打ち負かすようになるとは……。
**********
(@ピッツバーグ)AIがプロに勝利 白熱のポーカー対決
2017年3月18日00時00分
■特派員リポート 小林哲(アメリカ総局員)
米カーネギーメロン大の開発した人工知能(AI)がポーカーの対決でトッププロ4人を破った。ポーカーはお互いの手札が見えず、勝利するには相手の手の内を読み、裏をかく高度な戦術が求められる。その分、プロをしのぐAIの開発は、囲碁や将棋より時間がかかるとみられてきた。ペンシルベニア州ピッツバーグのカジノで開かれた対戦は紙面(http://www.asahi.com/articles/ASK1Y5674K1YUHBI00L.html)でも紹介したが、白熱した現場の様子を詳しく報告したい。
「チェスや囲碁のチャンピオンに勝った時より画期的だ」。カーネギーメロン大のサンドホルム教授は記者会見で胸を張った。プロ4人との20日間の対戦で176万ドル(約2億円)のチップを稼いだAI「リブラトゥス」を開発した。
1月にピッツバーグの「リバースカジノ」で開かれた対戦は、米国のカジノで人気のポーカー「テキサスホールデム」のルールで行われ、プロ4人が20日間、毎日8時間以上にわたる勝負を繰り返した。プロはいずれも、全米各地で開かれるポーカー大会やネットポーカーで多額の賞金を稼ぐ実力者たち。それぞれ2台のモニターに向かい、同時に2局の対戦を続けた。1戦ごとの勝敗は、配られた手札の組み合わせや運にも左右されるため、実力差を見極めるために数多くの対戦を繰り返す。4人による対戦は計12万回に達し、その様子はネット中継された。
序盤は接戦が続いた。ところが、1週間たったあたりからリブラトゥスが強さを見せ始めた。
プロの中で最も負けが少なかったドン・キム氏を除く3人に対し、いずれも10万ドル以上を勝ち越し、差は最終的に1人あたり数十万ドルまで広がった。キム氏によると、序盤にチップの賭け方にある癖が見つかり、プロ側はその「弱点」を攻めた。ところが、数日後に流れは再びリブラトゥスに。賭け方が変わり、プロの戦術が通じなくなったという。
4人は毎晩集まって対策を練ったが、妙案が見つからないまま押し切られた。キム氏は「人間は、賭け方やブラフ(はったり)の仕掛け方に傾向があるものだが、AIはうまく使い分けていた。弱点が見当たらなくなってしまい、つけいる隙がなかった」。同じく対戦したジェイソン・レス氏も「中盤以降は勝てる気がしなかった」と舌を巻く。
サンドホルム教授は「トッププロ相手でもいい勝負になると期待していたが、ここまで強いとは思わなかった。統計的にもAIの強さが証明された」と話す。対戦データを図示するとその強さがよくわかる。タテ軸に獲得チップの累計額、ヨコ軸に対戦日数を取るとグラフのようになる(「人工知能とプロのポーカー対戦の結果」参照)。
接戦が続いていた8日目。リブラトゥスは突然、何かに目覚めたかのように勝ちを重ね始める。それ以降はプロを引き離し、ほぼ一人勝ちの独走状態に。前日までの対戦を通して自分の弱点を学び、戦術を修正する機能が働いたとみられる。
◇
リブラトゥスはどのように作られたのか? 開発チームの大学院生ノーム・ブラウンさんによると、2年前にプロとのポーカー対戦で敗れた旧型AIの弱点を分析し、一からプログラムを作り直した。開発にかけた時間は約1年。計算効率を大幅に向上させたことで、旧型が考慮していなかったカードの組み合わせの微妙な違いなどに対応できるようになり、強さが増したという。
「初めは適当な手をランダムに打たせた。偶然ある手を選んだときに相手に勝ち、チップを稼げる。すると、その手が有効と学ぶ。人間と同じように、試行錯誤を繰り返して上達していった」。ブラウンさんは、リブラトゥスがポーカーを学んだ過程をこう説明する。
人間の戦い方は参考にしておらず、プログラム同士をひたすら対戦させて経験を積ませる「強化学習」と呼ばれる手法を繰り返した。仮想の対戦は数兆回にも及び、それぞれの局面を記録したデータベースは、2.7ペタバイト(ペタは千兆)という途方もない情報量に達しているという。
ただ、AIといえども、次に来るカードや相手の出方が正確に読めるわけではない。チップを賭け続けるか、勝負を降りるか。ある局面での判断は、膨大な量の過去の対戦データを参考に「最も後悔が少なくなるような一手」を選ぶようプログラムされている。
リブラトゥスは、ラテン語で「バランスの取れた力強さ」の意味があるという。先が読めない局面であっても常に最善の手を探り、勝負の結果から戦術を修正する。名前のとおり力業の繰り返しと自己修正の妙で、強さの高みに上りつめたようだ。
◇
ポーカーは対戦中に相手の手札を見ることができず、不確かな情報に基づいて次の手を選ぶ。ゲーム理論では、盤上の駒の並びが一目瞭然にわかるチェスや囲碁などの「完全情報ゲーム」に対し、不確実性が高い「不完全情報ゲーム」と呼んで区別している。
AIの開発は、局面が分析しやすい「完全情報ゲーム」が先行した。1997年には、米IBMのAI「ディープ・ブルー」がチェスの世界チャンピオン、カスパロフ氏に勝利。囲碁は昨年、米グーグルの英子会社が開発した「アルファ碁」が韓国の第一人者との五番勝負を4勝1敗で制した。将棋でもプロ棋士をしのぐAIが登場している。
一方、不完全情報ゲームへの応用はまだこれからだ。ビジネスなど実社会の現象は不完全情報ゲームである場合が多く、大きな可能性が広がっている。
サンドホルム教授によると、身近な例として商取引などへの利用が考えられる。近い将来、車を購入する際の値引き交渉をスマホに搭載されたAIアプリが助けてくれるようになるかもしれない。政策や軍事戦略の決定など複雑な意思決定にも活用できるという。サンドホルム教授たちは、臓器移植の提供者と患者を効率よく結びつけるシステム開発を進めているほか、サイバーセキュリティーや医薬品開発などへの応用も進めている。アフリカの野生動物を密猟から守るため、監視部隊の適切な配置法をAIで決める研究をしているグループもある。
人間の判断をしのぐ高度なAIが手軽に利用できるような時代が来れば、社会は一変しそうだ。
ただ、その能力が詐欺などの犯罪に悪用される心配はないだろうか。こんな私の疑問に対するサンドホルム教授の回答はこうだった。
「悪い人は常に存在する。悪用するかどうかは使う人間の問題だ。AIは、そんな悪い人も含めた人類すべての役に立つ、世界を救う技術になる」
◇
小林哲(こばやし・てつ) アメリカ総局員。1996年入社。科学医療部、広州・香港支局長、文化くらし報道部(環境省担当)などを経て2014年4月から現職。リブラトゥスはプロとの対戦を楽しんでいた気がする。
**********
どこまで進むAIの開発ぞ。末恐ろしくなります。
※コメント投稿者のブログIDはブログ作成者のみに通知されます