10年ほど前に Neuro-Dynamic Programming の本を購入したのだが、その後転勤等によって本を置いていかなければならなかったので、2回も購入したにもかかわらず手元にはない(また購入することにした:3回目)。10年前に読んだときは Policy Iteration(方策反復)や TD 学習などもピンと来なかったのだが、他の強化学習の本なども読んで見ると概念は簡単だ。ただし実際の適用に関しては様々な工夫が必要なことがわかる。Bellman 方程式の定義の仕方や価値関数の収束の方法などのアイデアが悪いと効果が表れない。Bellman 方程式も考え直してみると非常に奥が深い。
カレンダー
最新記事
- 自己紹介と重要リンク
- 「人間そっくりの会話ロボ」に空飛ぶクルマ、MWCで見た次世代技術5選
- データセンターにPUE報告義務が発生『データセンター事業者向け改正省エネ法・省エネルギー対策 特別セミナー 第2弾』
- Microsoft、Teamsのバンドル販売を停止 Microsoft 365から分離
- Google、生成AI「Gemini」を広告の安全性でも活用 金融詐欺広告などを迅速に検出
- 「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力
- NEC、IOWN APNを活用したデモ環境を本社の「NEC Future Creation Hub」に構築
- 東海道新幹線の臨時ダイヤ作成をシステム化、JR東海×NSSOLが季節変動やイベントへの対応力向上に挑む
- 情報通信研究機構が毎秒378.9テラビットの光通信に成功して世界記録を更新、光ファイバー1本で「日本の全トラフィックの11倍のデータ」を伝送可能
- 横浜赤レンガや森ビルが描く「デジタルとリアルの好循環」、アプリで体験価値向上
検索
バックナンバー
アクセス状況
アクセス | |||
---|---|---|---|
閲覧 | 189 | PV | |
訪問者 | 156 | IP | |
トータル | |||
閲覧 | 4,997,377 | PV | |
訪問者 | 1,258,274 | IP |