lec11-exit

下面是一套 Lecture 11 Exit Ticket，对应 lec11.md 的当前内容。把它当成“缩放规律落地时的配方卡”会更舒服。重点不是死背 μP，而是看你有没有明白：当规模变大后，超参不再只是细节，它们会直接改结果。

Exit Ticket（10 题，开卷）

1) scaling law 之后为什么还要讲 scaling details

请用 2 句话回答：

规律知道了以后，为什么还会有配方问题
大模型训练里最容易翻车的地方是什么

2) μP 想解决什么麻烦

请说明：

为什么超参不能简单从小模型搬到大模型
μP 想把什么规律稳定下来

3) learning rate schedule 为什么不能忽略

请用 2 到 3 句话回答：

为什么 schedule 会影响训练结果
WSD 的直觉是什么

4) 这讲里的几个 case study 各自给了什么经验

请任选 2 个回答：

CerebrasGPT
MiniCPM
DeepSeek

5) 为什么 RMSNorm gain 会变成麻烦

请用 1 到 2 句话回答：

这个细节为什么会影响 scaling
它说明了什么工程事实

6) 为什么真实模型都要做 recipe

请回答：

真实训练和“理论最优”之间差在哪
为什么不能只盯一个超参

7) 一个实用的 scaling 流程应该长什么样

请用 2 句话回答：

你会先调什么，再调什么
为什么要先小规模验证，再放大

8) μP 和 scaling laws 的关系是什么

请分别用一句短语说明：

scaling laws 更像什么
μP 更像什么

9) 这一讲里最该记住的工程直觉是什么

请任选一个回答：

规律知道了，不代表配方就自动对了
真正的缩放，是把整个训练链路一起定下来

10) 用一句话把这讲讲给同事听

请尽量自然一点：

这一讲在教你什么
为什么它是把“规律”变成“可执行方案”的关键一步