山岡忠夫のレビュー一覧

  • 将棋AIで学ぶディープラーニング

    Posted by ブクログ

    Ⅰ部 導入編
     1章 コンピュータ将棋について
      省略
    Ⅱ部 理論編
     2章 コンピュータ将棋のアルゴリズム
      ゲームの木、ミニマックス法、αβ法、評価関数について簡単な説明
     3章 コンピュータ囲碁のアルゴリズム
      モンテカルロ法とその発展版UCTアルゴリズム
     4章 AlphaGoの手法
      優先順位制御の改善 -> 方策ネットワーク
      プレイアウトの改善 -> 価値ネットワーク

      方策ネットワーク
       囲碁の局面を画像のように認識して多くの棋譜を学習させてどの着手から優先して指すか決める
      価値ネットワーク
       囲碁の局面を画像のように認識して直接その局面を

    0
    2019年12月28日
  • 将棋AIで学ぶディープラーニング

    Posted by ブクログ

    本書は、囲碁におけるAlphaGoの手法を参照しつつ、コンピュータ将棋のアルゴリズムを、モンテカルロ法+ディープラーニングを使って、実装する方法を解説している。

    コンピュータ将棋の従来手法
    →ミニマックス法。
    評価関数の質が要であり、2006年のBonanzaが初めて、評価関数の機械学習を導入した。

    コンピュータ囲碁で用いられているモンテカルロ法
    →ランダムに終局までプレイして、
    その勝敗の平均値から、最も勝率の高い手を選択する。

    AlphaGoにおける、ディープラーニングの適用範囲は、次の2点
    方策ネットワーク(Policy Network)
    → 合法手の中から探索すべき手を選択 →

    0
    2018年05月29日