下面是一套 Lecture 16 Exit Ticket,对应 lec16.md 的当前内容。把它当成一张“奖励可验证时,训练会发生什么”的观察单会更轻松。重点不是背 RL 算法名,而是看你有没有抓住:当答案能被检查时,推理训练的逻辑会变得完全不一样。
Exit Ticket(10 题,开卷)
1) 什么是 verifiable reward
请用 2 句话回答:
2) 为什么数学和代码特别适合 RLVR
请说明:
- 这类任务为什么容易给出对错
- 为什么它们很适合做推理训练
3) GRPO 为什么适合这类任务
请用 2 到 3 句话回答:
- GRPO 想解决什么训练问题
- group 这个设计为什么有用
4) baseline / advantage 为什么重要
请分别用一句短语解释:
- baseline 在减什么噪声
- advantage 在表达什么
5) policy gradient 到底在优化什么
请回答:
- policy gradient 的目标是什么
- 它和直接监督学习的差别是什么
6) 为什么 reasoning 模型常常要先 SFT 再蒸馏
请回答:
- SFT 在这条链路里做什么
- 蒸馏为什么常常紧跟在后面
7) 长 CoT 和长度偏差为什么要一起看
请用 2 句话回答:
8) 从 RLHF 到 RLVR,这条路的气质有什么变化
请用 2 到 3 句话回答:
- 它从“猜人类喜欢什么”变成了什么
- 为什么这会让训练更直接
9) 如果你要给同学解释这讲,你会怎么说
请尽量口语化:
10) 用一句话把这讲的核心直觉说出来
请尽量自然一点:
- 当奖励可验证,训练会发生什么变化
- 为什么这会让推理训练更像“做题”而不是“猜偏好”