lec9-exit

下面是一套 Lecture 9 Exit Ticket，对应 lec9.md 的当前内容。把它当成一张“训练预算导航图”会更合适。重点不是背曲线，而是看你有没有理解 scaling law 为什么能帮你提前猜到训练结果，以及为什么 Chinchilla 这类结论会真的改掉工程策略。

Exit Ticket（10 题，开卷）

1) scaling law 想解决什么实际麻烦

请用 2 句话回答：

为什么我们需要在训练前做外推
scaling law 能帮助你预测什么

2) 为什么 loss 随规模变化能拟合出规律

请说明：

你应该从什么样的实验数据里拟合
拟合出来后能用来回答什么问题

3) 为什么 scaling law 常常看起来像一条直线

请用 2 句话回答：

幂律在 log-log 图上意味着什么
为什么这种形式对外推很有用

4) 数据 scaling 和模型 scaling 各自关注什么

请分别用一句短语说明：

data scaling 想回答什么
model scaling 想回答什么

5) compute budget 为什么会改变最优选择

请用 2 到 3 句话回答：

为什么不能只追参数量
为什么固定 FLOPs 时要做最优分配

6) Chinchilla / compute-optimal 的直觉是什么

请说明：

它在模型大小和 token 数上强调了什么
它为什么改变了“堆参数”的直觉

7) 为什么数据和模型必须一起看

请回答：

数据太少会怎样
模型太大但数据不够会怎样

8) 训练策略怎么从 scaling law 来

请用 2 句话回答：

它为什么不是魔法，而是预算规划工具
你会如何把它用到训练 recipe 上

9) 这一讲里你最应该能回答的一个问题是什么

请任选一个回答：

为什么同样算力下，模型大小和数据量要一起考虑
为什么 scaling law 对工程决策很重要

10) 用一句话把这讲的核心提醒说出来

请尽量自然一点：

规模不是越大越好时，真正该看的是什么
为什么预算分配比单纯“加大模型”更关键