下面是一套 Lecture 11 Exit Ticket,对应 lec11.md 的当前内容。把它当成“缩放规律落地时的配方卡”会更舒服。重点不是死背 μP,而是看你有没有明白:当规模变大后,超参不再只是细节,它们会直接改结果。

Exit Ticket(10 题,开卷)

1) scaling law 之后为什么还要讲 scaling details

请用 2 句话回答:

2) μP 想解决什么麻烦

请说明:

3) learning rate schedule 为什么不能忽略

请用 2 到 3 句话回答:

4) 这讲里的几个 case study 各自给了什么经验

请任选 2 个回答:

5) 为什么 RMSNorm gain 会变成麻烦

请用 1 到 2 句话回答:

6) 为什么真实模型都要做 recipe

请回答:

7) 一个实用的 scaling 流程应该长什么样

请用 2 句话回答:

8) μP 和 scaling laws 的关系是什么

请分别用一句短语说明:

9) 这一讲里最该记住的工程直觉是什么

请任选一个回答:

10) 用一句话把这讲讲给同事听

请尽量自然一点: