将棋の評価値とゲーム理論

2021年2月11日に行われた朝日杯将棋オープン戦決勝トーナメントでは、藤井聡太2冠が準決勝で渡辺明名人に対して、決勝で三浦弘行九段に対して、いずれも見事な逆転勝ちを収め優勝しました。

「逆転」というからには、藤井さんが劣勢の局面があったわけで、昨今はそれが将棋AIが計算する「評価値」でわかるようになっています。実際、準決勝渡辺戦では99%、決勝三浦戦では98%、終盤に「藤井さんの負け」と判断された局面がありました。野球でいえば、9回裏2アウト満塁で3点の差をつけられている状況で、防御率0点台のピッチャーと対峙している状況とでもいうのでしょうか。そのような状況で藤井さんが満塁ホームランを、2試合続けて打ったと解釈すべきでしょうか。

そもそも将棋の評価値は「自分の玉が詰む前に、相手の玉を詰ます」というゴールに向かって幾通りもの手順を計算し、その目的に到達する確率を計算しています。より多くの手順でゴールに到達できるようなら、より勝ちやすいということになります。そして、数ある候補手の中でも最短でゴールに到達できる手が最善手ということになります。そしてそこでは、相手も相手にとってのゴールのもとで最善手を指すことが前提になっています。

評価値は「局面の複雑さ」を表現したものではありません。最善手だけが勝ちに繋がり、その他のすべての選択が負けであっても、最善手を選択することを前提に確率が計算されています。トッププロの対局になると随所に「毒まんじゅう」が仕掛けられていて、うっかりそれを喰らってしまったらたちまち逆転という状況はよくあるのです。「自分の玉が詰む前に、相手の玉を詰ます」というゴールに対して必ずしも合理的な選択ではない「相手が間違いやすい手」を選択したときでも、評価値は「相手が最善手を指す」前提で計算されているので、複雑な局面での「毒まんじゅう」の価値が確率に反映されないのです。

ミクロ経済学分野では、近年、非合理的(に見える)選択について研究が進んでいます。いくつかの例で、非合理的に見える選択が、実は合理的な選択であるという証明がなされているのです。例えば「囚人のジレンマ」では、別々に裁判を受ける2人の囚人が自白を選択してしまい、互いに黙秘していたら得られたかもしれない減刑を逃してしまうことが証明されています。オークションでは最高価格で落札するとビジネスが成り立たないという「勝者の呪い」の存在が証明され、それをどうやったら排除できるかも証明されています。

将棋の評価値計算において、相手が間違う(ゴールのもとでの最善手を選択しない)という合理性が証明され、それを計算に織り込むことができれば、評価値の大逆転はもっと少なくなります。ピッチャーにプレッシャーをかけて四球を連発させることができるとして、その確率を考慮すると、9回裏であっても評価値は1%にはならないはずです。藤井さんの逆転はもちろん見ごたえあるものでしたが、渡辺さんにしても三浦さんにしても、絶対的な勝ちを逃したというより、難解な終盤の駆け引きに負けたという程度の負けなのです。

ブログを更新したときや、趣味やビジネスに関する興味深い記事を見つけたときにTweetしています!