下面是一套 Lecture 16 Exit Ticket,对应 lec16.md 的当前内容。把它当成一张“奖励可验证时,训练会发生什么”的观察单会更轻松。重点不是背 RL 算法名,而是看你有没有抓住:当答案能被检查时,推理训练的逻辑会变得完全不一样。

Exit Ticket(10 题,开卷)

1) 什么是 verifiable reward

请用 2 句话回答:

2) 为什么数学和代码特别适合 RLVR

请说明:

3) GRPO 为什么适合这类任务

请用 2 到 3 句话回答:

4) baseline / advantage 为什么重要

请分别用一句短语解释:

5) policy gradient 到底在优化什么

请回答:

6) 为什么 reasoning 模型常常要先 SFT 再蒸馏

请回答:

7) 长 CoT 和长度偏差为什么要一起看

请用 2 句话回答:

8) 从 RLHF 到 RLVR,这条路的气质有什么变化

请用 2 到 3 句话回答:

9) 如果你要给同学解释这讲,你会怎么说

请尽量口语化:

10) 用一句话把这讲的核心直觉说出来

请尽量自然一点: