森村哲郎のレビュー一覧

  • 強化学習

    Posted by ブクログ

    確立過程として互いに独立で同一の確率分布という強めの仮定の独立同一分布(i.i.d.)。そこから仮定弱めたマルコフ性。状態遷移確率。TD法各種。アクター・クリティック法面白いけど使いこなせる気がしない。モデルフリー/モデルベース型強化学習。名前だけ紹介のあった、報酬観測なしの履歴データから報酬関数や行動方策を推定する逆強化学習、どうやるんだろう。途中から式を追うのがしんどくなり、飛ばし飛ばし…最後の今流行りのDQNのところは少しゆっくり読んでみた。レインボーDQNという欲張り手法。

    0
    2025年05月30日