下面是一套 Lecture 10 Exit Ticket,对应 lec10.md 的当前内容。把它当成一张“线上推理现场观察卡”会更顺手。重点不是背名词,而是看你有没有理解:推理为什么难、KV cache 为什么关键、以及为什么线上流量会让问题完全变样。
Exit Ticket(10 题,开卷)
1) 推理为什么不是“训练完以后顺手跑一下”
请用 2 句话回答:
2) prefill 和 decode 为什么像两种完全不同的工作
请回答:
3) KV cache 为什么是推理的核心小道具
请说明:
- KV cache 缓存的是什么
- 为什么它会让推理更快,但也更吃内存
4) 为什么推理常常更像 memory-bound 而不是 compute-bound
请用 2 到 3 句话回答:
- 这和一步一步生成 token 有什么关系
- 为什么 decode 阶段尤其明显
5) GQA / MQA / MLA / CLA 各自在优化什么
请分别用一句短语说明:
- GQA / MQA 的核心收益
- MLA / CLA 在思路上想补什么
6) 量化、剪枝和 speculative sampling 各自主要在省什么
请回答:
- 量化、剪枝、speculative sampling 各自解决哪类成本
- 它们为什么会影响线上体验
7) continuous batching 和 paged attention 为什么很有戏
请用 2 句话回答:
- 动态流量会让什么变难
- 这两种方法分别在管理什么资源
8) 为什么推理系统要把“服务”和“模型”一起看
请说明:
- 线上流量会给推理带来什么额外约束
- 为什么模型本身跑得快还不够
9) 如果你要给一个产品经理解释推理优化,你会怎么说
请尽量口语化:
10) 用一句话总结这讲的直觉
请尽量自然一点:
- 推理的真正难点是什么
- 为什么它比你想得更像一个系统问题