增强学习
第 1 章,介绍
第 2 章,决策学习
第 3 章,增强学习
- 简介
- 值函数和 Q-Learning
- 深度增强学习和 DQN
- 模拟策略学习
- Policy Gradient
- Actor Critic
- TRPO 和 PPO
- TRPO数理基础-NPG自然策略梯度
- Reward 学习
- 反向学习
- 基于模型的学习
- 离线学习
- 基于分布的学习
- 约束下的学习
- 部分可观察的序列学习
- 领域之间的知识转移
- 应用
- 挑战
第 4 章,多臂老虎机
第 5 章,博弈
Index | Next |
第 1 章,介绍
第 2 章,决策学习
第 3 章,增强学习
第 4 章,多臂老虎机
第 5 章,博弈
Index | Next |