lec10-exit

下面是一套 Lecture 10 Exit Ticket，对应 lec10.md 的当前内容。把它当成一张“线上推理现场观察卡”会更顺手。重点不是背名词，而是看你有没有理解：推理为什么难、KV cache 为什么关键、以及为什么线上流量会让问题完全变样。

Exit Ticket（10 题，开卷）

1) 推理为什么不是“训练完以后顺手跑一下”

请用 2 句话回答：

推理在什么地方出现
为什么效率会变得特别重要

2) prefill 和 decode 为什么像两种完全不同的工作

请回答：

prefill 在做什么
decode 在做什么

3) KV cache 为什么是推理的核心小道具

请说明：

KV cache 缓存的是什么
为什么它会让推理更快，但也更吃内存

4) 为什么推理常常更像 memory-bound 而不是 compute-bound

请用 2 到 3 句话回答：

这和一步一步生成 token 有什么关系
为什么 decode 阶段尤其明显

5) GQA / MQA / MLA / CLA 各自在优化什么

请分别用一句短语说明：

GQA / MQA 的核心收益
MLA / CLA 在思路上想补什么

6) 量化、剪枝和 speculative sampling 各自主要在省什么

请回答：

量化、剪枝、speculative sampling 各自解决哪类成本
它们为什么会影响线上体验

7) continuous batching 和 paged attention 为什么很有戏

请用 2 句话回答：

动态流量会让什么变难
这两种方法分别在管理什么资源

8) 为什么推理系统要把“服务”和“模型”一起看

请说明：

线上流量会给推理带来什么额外约束
为什么模型本身跑得快还不够

9) 如果你要给一个产品经理解释推理优化，你会怎么说

请尽量口语化：

哪些方法是在省钱
哪些方法是在省延迟

10) 用一句话总结这讲的直觉

请尽量自然一点：

推理的真正难点是什么
为什么它比你想得更像一个系统问题