Thesis or Dissertation コンピュータ大貧民に対するニューラルネットワークと強化学習の適用

平井, 芳孝  ,  ヒライ, ヨシタカ

pp.1 - 27 , 2015-03-25 , The University of Electro-Communications
Description
本研究では,(大)富豪と(大)貧民間のカード交換後の手札およびカード提出後のゲーム状態から,大富豪から大貧民までの順位予測を試みた.カード交換後の手札から順位予測する実験では,学習パターン数を50万まで増やしたが正答率は42\%を越え,なお上昇し続けた.一方,カード提出後の事後状態から順位予測する実験では,学習パターン数を50万まで増やしたが正答率は48\%を越え,なお上昇し続けた.各特徴の影響を順位予測の正答率で確認する実験では,順位予測に影響を与えるゲーム状態の特徴は影響力の強いものから順に,カード残り枚数,相手の手札,自分の手札,使われたカード,革命・しばりの有無,場に出ているカードであった.予測順位に最も強い影響を与えると考えられるカード残り枚数について,自分のカード残り枚数が少なく相手のカード残り枚数が多いときに予測順位が高くなることを確認した.特に,自分のカード残り枚数が0枚で他プレイヤのカード残り枚数が0枚でないときには1位を正しく予測した.また,本研究の事後状態で使用した全特徴を使用した場合でも,自分のカード残り枚数が0のときには,上がりのプレイヤの人数に応じて,正しい階級を予測できた.学習パターン数を増やすと,正答率が向上することを確認したので,TD-Gammonのように,膨大な回数の自己対戦から強化学習するコンピュータ大貧民プレイヤの開発を目指したい.

Number of accesses :  

Other information