下面是一套 Lecture 10 Exit Ticket,对应 lec10.md 的当前内容。把它当成一张“线上推理现场观察卡”会更顺手。重点不是背名词,而是看你有没有理解:推理为什么难、KV cache 为什么关键、以及为什么线上流量会让问题完全变样。

Exit Ticket(10 题,开卷)

1) 推理为什么不是“训练完以后顺手跑一下”

请用 2 句话回答:

2) prefill 和 decode 为什么像两种完全不同的工作

请回答:

3) KV cache 为什么是推理的核心小道具

请说明:

4) 为什么推理常常更像 memory-bound 而不是 compute-bound

请用 2 到 3 句话回答:

5) GQA / MQA / MLA / CLA 各自在优化什么

请分别用一句短语说明:

6) 量化、剪枝和 speculative sampling 各自主要在省什么

请回答:

7) continuous batching 和 paged attention 为什么很有戏

请用 2 句话回答:

8) 为什么推理系统要把“服务”和“模型”一起看

请说明:

9) 如果你要给一个产品经理解释推理优化,你会怎么说

请尽量口语化:

10) 用一句话总结这讲的直觉

请尽量自然一点: