AIリブラトゥス、ポーカーでトッププロを粉砕

2017年03月18日 07時30分53秒 | 時事放談：　海外編

ポーカーの世界でも、AIが人間を打ち負かすようになるとは……。

＊＊＊＊＊＊＊＊＊＊

（＠ピッツバーグ）ＡＩがプロに勝利　白熱のポーカー対決
2017年3月18日00時00分

■特派員リポート　小林哲（アメリカ総局員）

　米カーネギーメロン大の開発した人工知能（ＡＩ）がポーカーの対決でトッププロ４人を破った。ポーカーはお互いの手札が見えず、勝利するには相手の手の内を読み、裏をかく高度な戦術が求められる。その分、プロをしのぐＡＩの開発は、囲碁や将棋より時間がかかるとみられてきた。ペンシルベニア州ピッツバーグのカジノで開かれた対戦は紙面（http://www.asahi.com/articles/ASK1Y5674K1YUHBI00L.html）でも紹介したが、白熱した現場の様子を詳しく報告したい。

　「チェスや囲碁のチャンピオンに勝った時より画期的だ」。カーネギーメロン大のサンドホルム教授は記者会見で胸を張った。プロ４人との２０日間の対戦で１７６万ドル（約２億円）のチップを稼いだＡＩ「リブラトゥス」を開発した。

　１月にピッツバーグの「リバースカジノ」で開かれた対戦は、米国のカジノで人気のポーカー「テキサスホールデム」のルールで行われ、プロ４人が２０日間、毎日８時間以上にわたる勝負を繰り返した。プロはいずれも、全米各地で開かれるポーカー大会やネットポーカーで多額の賞金を稼ぐ実力者たち。それぞれ２台のモニターに向かい、同時に２局の対戦を続けた。１戦ごとの勝敗は、配られた手札の組み合わせや運にも左右されるため、実力差を見極めるために数多くの対戦を繰り返す。４人による対戦は計１２万回に達し、その様子はネット中継された。

　序盤は接戦が続いた。ところが、１週間たったあたりからリブラトゥスが強さを見せ始めた。

　プロの中で最も負けが少なかったドン・キム氏を除く３人に対し、いずれも１０万ドル以上を勝ち越し、差は最終的に１人あたり数十万ドルまで広がった。キム氏によると、序盤にチップの賭け方にある癖が見つかり、プロ側はその「弱点」を攻めた。ところが、数日後に流れは再びリブラトゥスに。賭け方が変わり、プロの戦術が通じなくなったという。

　４人は毎晩集まって対策を練ったが、妙案が見つからないまま押し切られた。キム氏は「人間は、賭け方やブラフ（はったり）の仕掛け方に傾向があるものだが、ＡＩはうまく使い分けていた。弱点が見当たらなくなってしまい、つけいる隙がなかった」。同じく対戦したジェイソン・レス氏も「中盤以降は勝てる気がしなかった」と舌を巻く。

　サンドホルム教授は「トッププロ相手でもいい勝負になると期待していたが、ここまで強いとは思わなかった。統計的にもＡＩの強さが証明された」と話す。対戦データを図示するとその強さがよくわかる。タテ軸に獲得チップの累計額、ヨコ軸に対戦日数を取るとグラフのようになる（「人工知能とプロのポーカー対戦の結果」参照）。

　接戦が続いていた８日目。リブラトゥスは突然、何かに目覚めたかのように勝ちを重ね始める。それ以降はプロを引き離し、ほぼ一人勝ちの独走状態に。前日までの対戦を通して自分の弱点を学び、戦術を修正する機能が働いたとみられる。

　　　　　◇

　リブラトゥスはどのように作られたのか？　開発チームの大学院生ノーム・ブラウンさんによると、２年前にプロとのポーカー対戦で敗れた旧型ＡＩの弱点を分析し、一からプログラムを作り直した。開発にかけた時間は約１年。計算効率を大幅に向上させたことで、旧型が考慮していなかったカードの組み合わせの微妙な違いなどに対応できるようになり、強さが増したという。

　「初めは適当な手をランダムに打たせた。偶然ある手を選んだときに相手に勝ち、チップを稼げる。すると、その手が有効と学ぶ。人間と同じように、試行錯誤を繰り返して上達していった」。ブラウンさんは、リブラトゥスがポーカーを学んだ過程をこう説明する。

　人間の戦い方は参考にしておらず、プログラム同士をひたすら対戦させて経験を積ませる「強化学習」と呼ばれる手法を繰り返した。仮想の対戦は数兆回にも及び、それぞれの局面を記録したデータベースは、２．７ペタバイト（ペタは千兆）という途方もない情報量に達しているという。

　ただ、ＡＩといえども、次に来るカードや相手の出方が正確に読めるわけではない。チップを賭け続けるか、勝負を降りるか。ある局面での判断は、膨大な量の過去の対戦データを参考に「最も後悔が少なくなるような一手」を選ぶようプログラムされている。

　リブラトゥスは、ラテン語で「バランスの取れた力強さ」の意味があるという。先が読めない局面であっても常に最善の手を探り、勝負の結果から戦術を修正する。名前のとおり力業の繰り返しと自己修正の妙で、強さの高みに上りつめたようだ。

　　　　　◇

　ポーカーは対戦中に相手の手札を見ることができず、不確かな情報に基づいて次の手を選ぶ。ゲーム理論では、盤上の駒の並びが一目瞭然にわかるチェスや囲碁などの「完全情報ゲーム」に対し、不確実性が高い「不完全情報ゲーム」と呼んで区別している。

　ＡＩの開発は、局面が分析しやすい「完全情報ゲーム」が先行した。１９９７年には、米ＩＢＭのＡＩ「ディープ・ブルー」がチェスの世界チャンピオン、カスパロフ氏に勝利。囲碁は昨年、米グーグルの英子会社が開発した「アルファ碁」が韓国の第一人者との五番勝負を４勝１敗で制した。将棋でもプロ棋士をしのぐＡＩが登場している。

　一方、不完全情報ゲームへの応用はまだこれからだ。ビジネスなど実社会の現象は不完全情報ゲームである場合が多く、大きな可能性が広がっている。

　サンドホルム教授によると、身近な例として商取引などへの利用が考えられる。近い将来、車を購入する際の値引き交渉をスマホに搭載されたＡＩアプリが助けてくれるようになるかもしれない。政策や軍事戦略の決定など複雑な意思決定にも活用できるという。サンドホルム教授たちは、臓器移植の提供者と患者を効率よく結びつけるシステム開発を進めているほか、サイバーセキュリティーや医薬品開発などへの応用も進めている。アフリカの野生動物を密猟から守るため、監視部隊の適切な配置法をＡＩで決める研究をしているグループもある。

　人間の判断をしのぐ高度なＡＩが手軽に利用できるような時代が来れば、社会は一変しそうだ。

　ただ、その能力が詐欺などの犯罪に悪用される心配はないだろうか。こんな私の疑問に対するサンドホルム教授の回答はこうだった。

　「悪い人は常に存在する。悪用するかどうかは使う人間の問題だ。ＡＩは、そんな悪い人も含めた人類すべての役に立つ、世界を救う技術になる」

　　　　　◇

　小林哲（こばやし・てつ）　アメリカ総局員。１９９６年入社。科学医療部、広州・香港支局長、文化くらし報道部（環境省担当）などを経て２０１４年４月から現職。リブラトゥスはプロとの対戦を楽しんでいた気がする。

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

夢と希望と笑いと涙の英語塾

INDECという名の東京高田馬場にある英語塾で繰り広げられる笑いと涙の物語 新入会員募集中！

AIリブラトゥス、ポーカーでトッププロを粉砕

このブログの人気記事

コメントを投稿

「時事放談： 海外編」カテゴリの最新記事

プロフィール

最新記事

カテゴリー

ログイン

最新コメント

カレンダー

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

文字サイズ変更

INDECという名の東京高田馬場にある英語塾で繰り広げられる笑いと涙の物語
新入会員募集中！

「時事放談：　海外編」カテゴリの最新記事