lec17-exit

下面是一套 Lecture 17 Exit Ticket，对应 lec17.md 的当前内容。把它当成一张“RL 训练循环拆解图”会更顺手。重点不是记公式，而是看你有没有把 policy gradient、baseline、advantage 和 GRPO 串成一个能跑的更新故事。

Exit Ticket（10 题，开卷）

1) policy gradient 想干的到底是什么

请用 2 句话回答：

policy gradient 的目标是什么
它和监督学习最大的不同是什么

2) baseline 和 advantage 为什么是好搭档

请分别用一句短语解释：

baseline 在减什么噪声
advantage 在表达什么

3) GRPO 为什么会受欢迎

请用 2 到 3 句话回答：

GRPO 和 group 这个设计有什么关系
为什么它适合做语言模型 RL

4) freeze old policy 和 KL penalty 在防什么

请回答：

为什么要冻结 old policy
KL penalty 为什么能限制更新幅度

5) 为什么 loss 里会出现这么多“稳定器”

请用 2 句话回答：

RL 训练最怕什么
这些稳定器在帮你挡什么

6) 一个简单任务里，reward、loss、update 三者各自是什么角色

请分别用一句短语说明：

reward 负责什么
loss 负责什么
update 负责什么

7) 为什么这讲强调训练循环本身

请用 2 句话回答：

RL 的难点是不是只是“加个奖励”
为什么循环细节会直接影响结果

8) 在语言模型里做 RL，为什么方差控制这么重要

请回答：

方差大时会发生什么
baseline / group 这类东西为什么能帮上忙

9) 如果你要给朋友讲 GRPO，你会怎么说

请尽量自然一点：

它在解决什么训练烦恼
为什么“组内比较”这个想法有用

10) 用一句话把这讲的核心直觉说出来

请尽量自然一点：

RL 不是“加个奖励”这么简单
真正要管的是稳定性、方差和更新幅度