下面是一套 第 8 课 Exit Ticket,对应 0-lecture.md 的当前内容。建议把它当成一份“对齐路线图”,10 分钟够用。重点不是背 RLHF / DPO / PPO / GRPO 的缩写,而是看你有没有把奖励、偏好、稳定性和推理训练串起来。

Exit Ticket(10 题,开卷)

1) 为什么只靠 pre-training 还不够

请用 2 句话回答:

2) RLHF 真正在修什么

请回答:

3) DPO 为什么这么受欢迎

请用 2 到 3 句话回答:

4) policy gradient、baseline、advantage 这一组词怎么连

请分别用一句短语解释:

5) PPO 为什么常被说“重”

请回答:

6) GRPO 为什么会在 reasoning 场景里冒出来

请用 2 句话回答:

7) synthetic data 为什么会让人心动

请说明:

8) Reward Hacking / Reward Over-Optimization / Length Bias 各在提醒什么

请分别用一句短语解释:

9) 如果你要给同学讲对齐,你会怎么说

请尽量口语化:

10) 用一句话把这章的核心直觉说出来

请尽量自然一点: