下面是一套 Lecture 17 Exit Ticket,对应 lec17.md 的当前内容。把它当成一张“RL 训练循环拆解图”会更顺手。重点不是记公式,而是看你有没有把 policy gradient、baseline、advantage 和 GRPO 串成一个能跑的更新故事。
Exit Ticket(10 题,开卷)
1) policy gradient 想干的到底是什么
请用 2 句话回答:
- policy gradient 的目标是什么
- 它和监督学习最大的不同是什么
2) baseline 和 advantage 为什么是好搭档
请分别用一句短语解释:
- baseline 在减什么噪声
- advantage 在表达什么
3) GRPO 为什么会受欢迎
请用 2 到 3 句话回答:
- GRPO 和 group 这个设计有什么关系
- 为什么它适合做语言模型 RL
4) freeze old policy 和 KL penalty 在防什么
请回答:
- 为什么要冻结 old policy
- KL penalty 为什么能限制更新幅度
5) 为什么 loss 里会出现这么多“稳定器”
请用 2 句话回答:
6) 一个简单任务里,reward、loss、update 三者各自是什么角色
请分别用一句短语说明:
- reward 负责什么
- loss 负责什么
- update 负责什么
7) 为什么这讲强调训练循环本身
请用 2 句话回答:
- RL 的难点是不是只是“加个奖励”
- 为什么循环细节会直接影响结果
8) 在语言模型里做 RL,为什么方差控制这么重要
请回答:
- 方差大时会发生什么
- baseline / group 这类东西为什么能帮上忙
9) 如果你要给朋友讲 GRPO,你会怎么说
请尽量自然一点:
- 它在解决什么训练烦恼
- 为什么“组内比较”这个想法有用
10) 用一句话把这讲的核心直觉说出来
请尽量自然一点:
- RL 不是“加个奖励”这么简单
- 真正要管的是稳定性、方差和更新幅度