下面是一套 Lecture 9 Exit Ticket,对应 lec9.md 的当前内容。把它当成一张“训练预算导航图”会更合适。重点不是背曲线,而是看你有没有理解 scaling law 为什么能帮你提前猜到训练结果,以及为什么 Chinchilla 这类结论会真的改掉工程策略。
Exit Ticket(10 题,开卷)
1) scaling law 想解决什么实际麻烦
请用 2 句话回答:
- 为什么我们需要在训练前做外推
- scaling law 能帮助你预测什么
2) 为什么 loss 随规模变化能拟合出规律
请说明:
- 你应该从什么样的实验数据里拟合
- 拟合出来后能用来回答什么问题
3) 为什么 scaling law 常常看起来像一条直线
请用 2 句话回答:
- 幂律在 log-log 图上意味着什么
- 为什么这种形式对外推很有用
4) 数据 scaling 和模型 scaling 各自关注什么
请分别用一句短语说明:
- data scaling 想回答什么
- model scaling 想回答什么
5) compute budget 为什么会改变最优选择
请用 2 到 3 句话回答:
- 为什么不能只追参数量
- 为什么固定 FLOPs 时要做最优分配
6) Chinchilla / compute-optimal 的直觉是什么
请说明:
- 它在模型大小和 token 数上强调了什么
- 它为什么改变了“堆参数”的直觉
7) 为什么数据和模型必须一起看
请回答:
8) 训练策略怎么从 scaling law 来
请用 2 句话回答:
- 它为什么不是魔法,而是预算规划工具
- 你会如何把它用到训练 recipe 上
9) 这一讲里你最应该能回答的一个问题是什么
请任选一个回答:
- 为什么同样算力下,模型大小和数据量要一起考虑
- 为什么 scaling law 对工程决策很重要
10) 用一句话把这讲的核心提醒说出来
请尽量自然一点:
- 规模不是越大越好时,真正该看的是什么
- 为什么预算分配比单纯“加大模型”更关键