lec2-exit

下面是一套 Lecture 2 Exit Ticket，对应 lec2.md 的当前内容。把它当成一张“资源预算小抄”更合适：边看边想，10 分钟左右就能做完。重点是看你有没有把 compute、memory、dtype 和 roofline 这几样东西连成一条线，而不是把它们当成零散名词。

Exit Ticket（10 题，开卷）

1) 为什么训练大模型第一步不是写代码，而是先算账

请用 2 句话回答：

什么叫 resource accounting
为什么不先算账，后面很容易做错设计

2) tensor、dtype、shape、mixed precision 各自管什么

请分别用一句短语说明：

tensor 表示什么
dtype 表示什么
shape 表示什么
mixed precision 想解决什么问题

3) 为什么 memory 常常先把你拦住

请回答：

一个训练步骤里哪些东西都要占显存
为什么这不只是“参数大小”而已

4) optimizer state、activation、gradient 这三兄弟为什么都要算进预算

请用 2 到 3 句话回答：

它们分别在训练里扮演什么角色
为什么少算任何一个都会让显存估算失真

5) 为什么 checkpointing 和 gradient accumulation 会被反复提起

请分别用一句短语解释：

checkpointing 在省什么
gradient accumulation 在弥补什么

6) roofline 到底在帮你看什么

请用 2 句话回答：

roofline 想把什么关系画出来
arithmetic intensity 为什么是关键变量

7) FLOPs、MFU 和训练时间怎么连起来

请回答：

FLOPs 这里到底在数什么
为什么训练时间不能只看参数量

8) 为什么不同 dtype 会影响资源预算

请分别用一句短语说明：

fp32 和 fp16 的核心区别是什么
bf16 为什么在训练里很常见
fp8 / fp4 主要在追什么

9) 为什么 ReLU、GeLU 和矩阵乘法会被反复点名

请用 2 到 3 句话回答：

ReLU 为什么常常 memory-bound
GeLU 为什么更值得注意算子代价
点积和矩阵乘法为什么是训练里的主角

10) 这一讲最该留下的一个工程直觉是什么

请用 1 到 2 句话回答：

为什么训练系统的本质是算力、带宽和内存的平衡
为什么“看起来更快”不等于“真的更省”