下面是一套 Lecture 2 Exit Ticket,对应 lec2.md 的当前内容。把它当成一张“资源预算小抄”更合适:边看边想,10 分钟左右就能做完。重点是看你有没有把 compute、memory、dtype 和 roofline 这几样东西连成一条线,而不是把它们当成零散名词。

Exit Ticket(10 题,开卷)

1) 为什么训练大模型第一步不是写代码,而是先算账

请用 2 句话回答:

2) tensor、dtype、shape、mixed precision 各自管什么

请分别用一句短语说明:

3) 为什么 memory 常常先把你拦住

请回答:

4) optimizer state、activation、gradient 这三兄弟为什么都要算进预算

请用 2 到 3 句话回答:

5) 为什么 checkpointing 和 gradient accumulation 会被反复提起

请分别用一句短语解释:

6) roofline 到底在帮你看什么

请用 2 句话回答:

7) FLOPs、MFU 和训练时间怎么连起来

请回答:

8) 为什么不同 dtype 会影响资源预算

请分别用一句短语说明:

9) 为什么 ReLU、GeLU 和矩阵乘法会被反复点名

请用 2 到 3 句话回答:

10) 这一讲最该留下的一个工程直觉是什么

请用 1 到 2 句话回答: