lec16-exit

下面是一套 Lecture 16 Exit Ticket，对应 lec16.md 的当前内容。把它当成一张“奖励可验证时，训练会发生什么”的观察单会更轻松。重点不是背 RL 算法名，而是看你有没有抓住：当答案能被检查时，推理训练的逻辑会变得完全不一样。

Exit Ticket（10 题，开卷）

1) 什么是 verifiable reward

请用 2 句话回答：

什么样的奖励算可验证
为什么这比纯主观偏好更直接

2) 为什么数学和代码特别适合 RLVR

请说明：

这类任务为什么容易给出对错
为什么它们很适合做推理训练

3) GRPO 为什么适合这类任务

请用 2 到 3 句话回答：

GRPO 想解决什么训练问题
group 这个设计为什么有用

4) baseline / advantage 为什么重要

请分别用一句短语解释：

baseline 在减什么噪声
advantage 在表达什么

5) policy gradient 到底在优化什么

请回答：

policy gradient 的目标是什么
它和直接监督学习的差别是什么

6) 为什么 reasoning 模型常常要先 SFT 再蒸馏

请回答：

SFT 在这条链路里做什么
蒸馏为什么常常紧跟在后面

7) 长 CoT 和长度偏差为什么要一起看

请用 2 句话回答：

长 CoT 为什么有价值
长度偏差会带来什么误判

8) 从 RLHF 到 RLVR，这条路的气质有什么变化

请用 2 到 3 句话回答：

它从“猜人类喜欢什么”变成了什么
为什么这会让训练更直接

9) 如果你要给同学解释这讲，你会怎么说

请尽量口语化：

这讲在鼓励你相信什么
它为什么对推理模型特别关键

10) 用一句话把这讲的核心直觉说出来

请尽量自然一点：

当奖励可验证，训练会发生什么变化
为什么这会让推理训练更像“做题”而不是“猜偏好”