本書は、囲碁におけるAlphaGoの手法を参照しつつ、コンピュータ将棋のアルゴリズムを、モンテカルロ法+ディープラーニングを使って、実装する方法を解説している。
コンピュータ将棋の従来手法
→ミニマックス法。
評価関数の質が要であり、2006年のBonanzaが初めて、評価関数の機械学習を導入した
...続きを読む。
コンピュータ囲碁で用いられているモンテカルロ法
→ランダムに終局までプレイして、
その勝敗の平均値から、最も勝率の高い手を選択する。
AlphaGoにおける、ディープラーニングの適用範囲は、次の2点
方策ネットワーク(Policy Network)
→ 合法手の中から探索すべき手を選択 → 多クラス分類問題
価値ネットワーク(Value Network)
→ 「勝ち」になる確率を算出(≒評価関数) → 2値分類問題
学術的な内容を避けて、扱うテーマをよく吟味しているのだと思うが、理解して貰おうという親切心が紙面に感じられ、とても分かりやすい。
また、Chainer初心者としては、本書のコードがTrainerライブラリを使わずに実装してあり、
損失の求め方や、逆伝播の仕組み、学習のループ構造など、
ブラックボックスになりがちな箇所が、明示されているのがありがたかった。
Chainer自体についての理解にも役に立った。