基于分布的学习

如果模型的策略不是返回一个“动作”,而是返回一组动作中,各个动作的概率,这就是基于分布的学习。

课程材料

论文

滑铁卢 论文

练习

课本材料

N/A


Index Previous Next