下面是一套 Lecture 4 Exit Ticket,对应 lec4.md 的当前内容。你可以把它理解成“稀疏模型到底值不值得”的快速聊天版检查。重点不是记 MoE 的缩写,而是看你有没有把“容量、路由、通信、负载均衡”这条线串起来。
Exit Ticket(10 题,开卷)
1) MoE 想解决的,究竟是个什么烦恼
请用 2 句话回答:
- 为什么不是所有 token 都应该走同一组参数
- MoE 想同时实现什么目标
2) router 在做什么小决定
请说明:
- router 的输入通常是什么
- router 的输出意味着什么
3) top-k 路由为什么这么常见
请用 2 到 3 句话回答:
- soft mixture 为什么不一定是最优解
- top-k 路由想换来什么
4) 为什么 MoE 不只是“参数更多”
请回答:
- 它和 dense model 的差别是什么
- 为什么稀疏化会带来通信和负载均衡问题
5) load balancing 到底在防什么
请用 2 句话回答:
- 为什么 router 不能只顾着挑“最像的 expert”
- 负载不均衡会给训练带来什么烦恼
6) shared experts 为什么有用
请说明:
- shared expert 和专门 expert 的区别是什么
- 为什么共享一部分参数能帮助稳定性
7) token dropping / capacity / overflow 这一组词在说什么
请回答:
- token dropping 为什么会发生
- capacity 设得太小或太大分别会带来什么后果
8) 为什么 MoE 往往更像系统题
请用 2 到 3 句话回答:
- all-to-all communication 为什么棘手
- 为什么像 MegaBlocks 这样的库会重要
9) 如果你要上手实现一个 MoE,第一步该看什么
请用 1 到 2 句话回答:
- 你会先盯 router、expert 还是通信路径
- 为什么这一步最关键
10) 用一句你自己的话描述 MoE 的核心交易
请尽量说得自然一点: