Contents Author GitHub

增强学习

第 1 章，介绍

简介
材料
编程

第 2 章，决策学习

决策网络
马尔可夫决策过程
MDP 数学模型
贝尔曼方程
贝尔曼最优方程

第 3 章，增强学习

简介
值函数和 Q-Learning
深度增强学习和 DQN
模拟策略学习
Policy Gradient
Actor Critic
TRPO 和 PPO
TRPO数理基础-NPG自然策略梯度
Reward 学习
反向学习
基于模型的学习
离线学习
基于分布的学习
约束下的学习
部分可观察的序列学习
领域之间的知识转移
应用
挑战

第 4 章，多臂老虎机

简介
启发式算法
贝叶斯算法
上下文算法

第 5 章，博弈

博弈论
多智能体强化学习

Site created with Jekyll using the Tufte theme. © 2025