下面是一套 Lecture 2 Exit Ticket,对应 lec2.md 的当前内容。把它当成一张“资源预算小抄”更合适:边看边想,10 分钟左右就能做完。重点是看你有没有把 compute、memory、dtype 和 roofline 这几样东西连成一条线,而不是把它们当成零散名词。
Exit Ticket(10 题,开卷)
1) 为什么训练大模型第一步不是写代码,而是先算账
请用 2 句话回答:
- 什么叫 resource accounting
- 为什么不先算账,后面很容易做错设计
2) tensor、dtype、shape、mixed precision 各自管什么
请分别用一句短语说明:
- tensor 表示什么
- dtype 表示什么
- shape 表示什么
- mixed precision 想解决什么问题
3) 为什么 memory 常常先把你拦住
请回答:
- 一个训练步骤里哪些东西都要占显存
- 为什么这不只是“参数大小”而已
4) optimizer state、activation、gradient 这三兄弟为什么都要算进预算
请用 2 到 3 句话回答:
- 它们分别在训练里扮演什么角色
- 为什么少算任何一个都会让显存估算失真
5) 为什么 checkpointing 和 gradient accumulation 会被反复提起
请分别用一句短语解释:
- checkpointing 在省什么
- gradient accumulation 在弥补什么
6) roofline 到底在帮你看什么
请用 2 句话回答:
- roofline 想把什么关系画出来
- arithmetic intensity 为什么是关键变量
7) FLOPs、MFU 和训练时间怎么连起来
请回答:
- FLOPs 这里到底在数什么
- 为什么训练时间不能只看参数量
8) 为什么不同 dtype 会影响资源预算
请分别用一句短语说明:
- fp32 和 fp16 的核心区别是什么
- bf16 为什么在训练里很常见
- fp8 / fp4 主要在追什么
9) 为什么 ReLU、GeLU 和矩阵乘法会被反复点名
请用 2 到 3 句话回答:
- ReLU 为什么常常 memory-bound
- GeLU 为什么更值得注意算子代价
- 点积和矩阵乘法为什么是训练里的主角
10) 这一讲最该留下的一个工程直觉是什么
请用 1 到 2 句话回答:
- 为什么训练系统的本质是算力、带宽和内存的平衡
- 为什么“看起来更快”不等于“真的更省”