下面是一套 Lecture 15 Exit Ticket,对应 lec15.md 的当前内容。把它当成一张“助手为什么会变得更像助手”的观察单会更顺手。重点不是背 RLHF 的缩写,而是看你有没有把 pre-training、SFT、preference data 和 alignment tradeoff 串起来。

Exit Ticket(10 题,开卷)

1) 纯 pre-training 为什么不够

请用 2 句话回答:

2) instruction tuning 在补什么

请说明:

3) SFT 在 RLHF 里扮演什么角色

请用 2 到 3 句话回答:

4) preference data 长什么样

请分别用一句短语解释:

5) reward model 为什么重要

请回答:

6) PPO 和 DPO 的差别你现在怎么理解

请用 2 句话回答:

7) alignment 可能带来什么 tradeoff

请说明:

8) 为什么偏好数据这件事没有看上去那么简单

请用 2 到 3 句话回答:

9) 如果你要给朋友解释 RLHF,你会怎么说

请尽量口语化:

10) 用一句话总结这讲的核心直觉

请尽量自然一点: