lec15-exit

下面是一套 Lecture 15 Exit Ticket，对应 lec15.md 的当前内容。把它当成一张“助手为什么会变得更像助手”的观察单会更顺手。重点不是背 RLHF 的缩写，而是看你有没有把 pre-training、SFT、preference data 和 alignment tradeoff 串起来。

Exit Ticket（10 题，开卷）

1) 纯 pre-training 为什么不够

请用 2 句话回答：

它擅长什么
它缺的是什么

2) instruction tuning 在补什么

请说明：

instruction tuning 想让模型学会什么
为什么它比“继续喂文本”更像转型

3) SFT 在 RLHF 里扮演什么角色

请用 2 到 3 句话回答：

为什么常常先做 SFT
SFT 和后面的 preference optimization 有什么关系

4) preference data 长什么样

请分别用一句短语解释：

chosen 是什么
rejected 是什么
为什么 pairwise preference 很常见

5) reward model 为什么重要

请回答：

reward model 在 RLHF 里扮演什么角色
为什么不能只靠人工“拍脑袋”优化

6) PPO 和 DPO 的差别你现在怎么理解

请用 2 句话回答：

PPO 为什么更“重”
DPO 为什么更受欢迎

7) alignment 可能带来什么 tradeoff

请说明：

为什么“更听话”不一定等于“更强”
什么叫 alignment tax 的直觉

8) 为什么偏好数据这件事没有看上去那么简单

请用 2 到 3 句话回答：

为什么 chosen / rejected 的 pair 不是随便标一下就行
数据质量会怎么影响后续训练

9) 如果你要给朋友解释 RLHF，你会怎么说

请尽量口语化：

它在修正模型的什么行为
为什么它和用户体验关系很大

10) 用一句话总结这讲的核心直觉

请尽量自然一点：

对齐不是单点技巧，而是一条训练链路
它做的是“把模型输出目标重新拧一遍”