学位論文 ガイスターにおける自己対戦による行動価値関数の学習

佐藤, 佑史  ,  サトウ, ユウシ  ,  Sato, Yushi

pp.1 - 86 , 2016-03-25 , The University of Electro-Communications
内容記述
ガイスター(Geister)とは,Alex Randolphによって開発された二人不完全情報ゲームである.相手の駒の色が分からないチェスのようなゲームとなっている.ガイスターにおいて,2種類ある駒の推測やブラフなどの心理戦と将棋のような先読みに基づいた駒の動きが重要となる.ガイスターにおけるAIは現在非常に弱い.本研究では,機械学習の一種である強化学習法のモンテカルロ法やTD(0),Sarsa(λ)学習を用いて,ある局面における手を指したときの勝率の見積もりを計算する行動価値関数をAI同士での対戦を行った結果を用いて学習する.通常のガイスターだけでなく,より盤面の小さいMinimum-Geisterを定義し,このガイスターにおいても行動価値関数の学習を行うことで既知である最善戦略を求めることが出来るかも検証する.なお,通常のガイスターにおける局面数は膨大となるため,行動価値関数は3層ニューラルネットワークという神経回路を模した数学モデルを用いて近似する.このニューラルネットワークの入力として,駒に対する推測を全く用いない盤面の情報のみにより構成される入力,Prototype-Based Learningを使用した相手の駒に対する推測と盤面の情報で構成される入力,同じくPrototype-Based Learningを使用し両プレイヤの駒に対する推測と盤面の情報で構成される入力の三種類を用意し,学習を行う.さらに,この入力に出口と呼ばれるマスへの最短距離や隣接している駒の位置などのゲーム上で重要と思われる特徴を加えるなどの改良を行った入力でも同様の学習を行い,学習により獲得した各入力での行動価値関数を用いたAIプレイヤの性能比較を行う.行動価値関数の学習において,通常のガイスターのルールに加えて,ルールに変更を加えた様々なルール上での学習や着手に制限を加えた上での学習を行う。さらに,学習によって得られた行動価値関数に基づき手を選択するAIプレイヤを作成し,ランダムプレイヤや既存手法であるモンテカルロ木探索を利用したAIとの対局実験を行う.

このアイテムのアクセス数:  回

その他の情報