4-exit

下面是一套 第 8 课 Exit Ticket，对应 0-lecture.md 的当前内容。建议把它当成一份“对齐路线图”，10 分钟够用。重点不是背 RLHF / DPO / PPO / GRPO 的缩写，而是看你有没有把奖励、偏好、稳定性和推理训练串起来。

Exit Ticket（10 题，开卷）

1) 为什么只靠 pre-training 还不够

请用 2 句话回答：

预训练擅长什么
它在“像助手”这件事上缺什么

2) RLHF 真正在修什么

请回答：

偏好数据在比较什么
奖励模型为什么会变得重要

3) DPO 为什么这么受欢迎

请用 2 到 3 句话回答：

它为什么看起来比 RLHF 简洁
它在直觉上避开了什么麻烦

4) policy gradient、baseline、advantage 这一组词怎么连

请分别用一句短语解释：

policy gradient
baseline
advantage

5) PPO 为什么常被说“重”

请回答：

它为什么需要护栏
它为什么在工程上更麻烦

6) GRPO 为什么会在 reasoning 场景里冒出来

请用 2 句话回答：

group relative 的直觉是什么
它为什么适合推理任务

7) synthetic data 为什么会让人心动

请说明：

它能帮我们解决什么
它的风险在哪里

8) Reward Hacking / Reward Over-Optimization / Length Bias 各在提醒什么

请分别用一句短语解释：

Reward Hacking
Reward Over-Optimization
Length Bias

9) 如果你要给同学讲对齐，你会怎么说

请尽量口语化：

对齐到底是在改什么
为什么它不是一个单点算法

10) 用一句话把这章的核心直觉说出来

请尽量自然一点：

对齐为什么像一条训练链路
为什么它会同时牵动行为、质量和稳定性