下面是一套 Lecture 7 Exit Ticket,对应 lec7.md 的当前内容。把它当成一张“多卡训练拆分图”更合适。重点不是背并行术语,而是看你有没有把“切哪里、同步什么、瓶颈在哪”想清楚。
Exit Ticket(10 题,开卷)
1) 单卡已经不够的时候,系统先会卡在哪
请用 2 句话回答:
- 为什么大模型不会一直只用一张卡
- 最先冒出来的瓶颈通常是什么
2) collectives 为什么是并行训练的基本积木
请分别用一句短语解释:
- broadcast
- all-gather
- reduce-scatter
3) 数据并行为什么很自然,又为什么不够
请用 2 到 3 句话回答:
- data parallelism 的直觉是什么
- naive DDP 的问题在哪里
4) ZeRO / FSDP 在帮你省什么
请回答:
5) 流水线并行为什么会有 bubble
请说明:
- bubble 指的是什么
- 为什么 pipeline 并行不是免费午餐
6) 张量并行和序列并行的差别是什么
请分别用一句话回答:
- tensor parallel 切的是什么
- sequence parallel 想补什么
7) 为什么现实里常常要 3D parallelism
请用 2 句话回答:
- 为什么单一并行策略经常不够
- 通信和计算为什么必须一起看
8) collective 选错了会怎样
请用 1 到 2 句话回答:
- 一个错误的通信设计会把性能拖到哪里去
- 这类问题为什么常常不是“算力不够”
9) 你会怎么给一个新同学解释这讲的核心取舍
请尽量口语化:
- 并行训练到底是在平衡什么
- 为什么“拆得开”不代表“跑得快”
10) 用一句话总结并行训练的直觉
请尽量自然一点: