下面是一套 Lecture 11 Exit Ticket,对应 lec11.md 的当前内容。把它当成“缩放规律落地时的配方卡”会更舒服。重点不是死背 μP,而是看你有没有明白:当规模变大后,超参不再只是细节,它们会直接改结果。
Exit Ticket(10 题,开卷)
1) scaling law 之后为什么还要讲 scaling details
请用 2 句话回答:
- 规律知道了以后,为什么还会有配方问题
- 大模型训练里最容易翻车的地方是什么
2) μP 想解决什么麻烦
请说明:
- 为什么超参不能简单从小模型搬到大模型
- μP 想把什么规律稳定下来
3) learning rate schedule 为什么不能忽略
请用 2 到 3 句话回答:
- 为什么 schedule 会影响训练结果
- WSD 的直觉是什么
4) 这讲里的几个 case study 各自给了什么经验
请任选 2 个回答:
- CerebrasGPT
- MiniCPM
- DeepSeek
5) 为什么 RMSNorm gain 会变成麻烦
请用 1 到 2 句话回答:
- 这个细节为什么会影响 scaling
- 它说明了什么工程事实
6) 为什么真实模型都要做 recipe
请回答:
- 真实训练和“理论最优”之间差在哪
- 为什么不能只盯一个超参
7) 一个实用的 scaling 流程应该长什么样
请用 2 句话回答:
- 你会先调什么,再调什么
- 为什么要先小规模验证,再放大
8) μP 和 scaling laws 的关系是什么
请分别用一句短语说明:
- scaling laws 更像什么
- μP 更像什么
9) 这一讲里最该记住的工程直觉是什么
请任选一个回答:
- 规律知道了,不代表配方就自动对了
- 真正的缩放,是把整个训练链路一起定下来
10) 用一句话把这讲讲给同事听
请尽量自然一点:
- 这一讲在教你什么
- 为什么它是把“规律”变成“可执行方案”的关键一步