下面是一套 Lecture 8 Exit Ticket,对应 lec8.md 的当前内容。把它当成一份“分布式通信入门卡”会更轻松。重点不是死记 API,而是确认你是不是已经把 collective、NCCL、torch.distributed 和硬件拓扑连成了一条线。
Exit Ticket(10 题,开卷)
1) collective operation 为什么这么像“团队动作”
请用 2 句话回答:
- 为什么 collective 不是点对点通信
- 它和“一个人干活”最大的区别是什么
2) broadcast / scatter / gather / reduce / all-gather / reduce-scatter 这六个词怎么一眼看懂
请分别用一句短语说明这 6 个 collective 的直觉含义。
3) all-reduce、reduce-scatter、all-gather 的区别你能讲给同学听吗
请用 2 句话回答:
- 这三个名字分别强调什么动作
- 它们为什么经常一起出现
4) NCCL 在这出戏里扮演什么角色
请说明:
- 它为什么不是一个“模型层”功能
- 它在分布式训练里解决什么问题
5) torch.distributed 在做什么
请用 2 句话回答:
6) 为什么硬件拓扑会直接影响训练速度
请用 2 句话回答:
- 拓扑为什么不是“机房管理员才关心的事”
- 通信路径长短会怎么影响吞吐
7) data parallelism、tensor parallelism、pipeline parallelism 的口味有什么不同
请分别用一句话回答:
- data parallelism 在复制什么
- tensor parallelism 在切什么
- pipeline parallelism 在分什么阶段
8) 一个最小分布式例子里,你应该先看什么
请说明:
- 为什么先看 step by step 很重要
- 从单卡扩到多卡时最容易漏掉什么
9) 这讲里最容易被忽略、但最值钱的系统直觉是什么
请任选一个回答:
- 为什么“会通信”比“会跑代码”更重要
- 为什么分布式训练不是把代码扔到更多卡上这么简单
10) 用一句话把这讲说得像人话
请尽量自然一点: