下面是一套 第 8 课 Exit Ticket,对应 0-lecture.md 的当前内容。建议把它当成一份“对齐路线图”,10 分钟够用。重点不是背 RLHF / DPO / PPO / GRPO 的缩写,而是看你有没有把奖励、偏好、稳定性和推理训练串起来。
Exit Ticket(10 题,开卷)
1) 为什么只靠 pre-training 还不够
请用 2 句话回答:
2) RLHF 真正在修什么
请回答:
3) DPO 为什么这么受欢迎
请用 2 到 3 句话回答:
- 它为什么看起来比 RLHF 简洁
- 它在直觉上避开了什么麻烦
4) policy gradient、baseline、advantage 这一组词怎么连
请分别用一句短语解释:
- policy gradient
- baseline
- advantage
5) PPO 为什么常被说“重”
请回答:
6) GRPO 为什么会在 reasoning 场景里冒出来
请用 2 句话回答:
- group relative 的直觉是什么
- 它为什么适合推理任务
7) synthetic data 为什么会让人心动
请说明:
8) Reward Hacking / Reward Over-Optimization / Length Bias 各在提醒什么
请分别用一句短语解释:
- Reward Hacking
- Reward Over-Optimization
- Length Bias
9) 如果你要给同学讲对齐,你会怎么说
请尽量口语化:
10) 用一句话把这章的核心直觉说出来
请尽量自然一点:
- 对齐为什么像一条训练链路
- 为什么它会同时牵动行为、质量和稳定性