最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

Neuro DP

2007年07月18日 13時12分45秒 | Weblog
10年ほど前に Neuro-Dynamic Programming の本を購入したのだが、その後転勤等によって本を置いていかなければならなかったので、2回も購入したにもかかわらず手元にはない(また購入することにした:3回目)。10年前に読んだときは Policy Iteration(方策反復)や TD 学習などもピンと来なかったのだが、他の強化学習の本なども読んで見ると概念は簡単だ。ただし実際の適用に関しては様々な工夫が必要なことがわかる。Bellman 方程式の定義の仕方や価値関数の収束の方法などのアイデアが悪いと効果が表れない。Bellman 方程式も考え直してみると非常に奥が深い。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする