下面是一套 Lecture 15 Exit Ticket,对应 lec15.md 的当前内容。把它当成一张“助手为什么会变得更像助手”的观察单会更顺手。重点不是背 RLHF 的缩写,而是看你有没有把 pre-training、SFT、preference data 和 alignment tradeoff 串起来。
Exit Ticket(10 题,开卷)
1) 纯 pre-training 为什么不够
请用 2 句话回答:
2) instruction tuning 在补什么
请说明:
- instruction tuning 想让模型学会什么
- 为什么它比“继续喂文本”更像转型
3) SFT 在 RLHF 里扮演什么角色
请用 2 到 3 句话回答:
- 为什么常常先做 SFT
- SFT 和后面的 preference optimization 有什么关系
4) preference data 长什么样
请分别用一句短语解释:
- chosen 是什么
- rejected 是什么
- 为什么 pairwise preference 很常见
5) reward model 为什么重要
请回答:
- reward model 在 RLHF 里扮演什么角色
- 为什么不能只靠人工“拍脑袋”优化
6) PPO 和 DPO 的差别你现在怎么理解
请用 2 句话回答:
7) alignment 可能带来什么 tradeoff
请说明:
- 为什么“更听话”不一定等于“更强”
- 什么叫 alignment tax 的直觉
8) 为什么偏好数据这件事没有看上去那么简单
请用 2 到 3 句话回答:
- 为什么 chosen / rejected 的 pair 不是随便标一下就行
- 数据质量会怎么影响后续训练
9) 如果你要给朋友解释 RLHF,你会怎么说
请尽量口语化:
- 它在修正模型的什么行为
- 为什么它和用户体验关系很大
10) 用一句话总结这讲的核心直觉
请尽量自然一点:
- 对齐不是单点技巧,而是一条训练链路
- 它做的是“把模型输出目标重新拧一遍”