3-exit

下面是一套 第 2 课 Exit Ticket，对应 0-lecture.md 的当前内容。建议把它当成一张“Transformer 入门导航卡”，10 分钟足够。重点不是背模块名，而是看你有没有把 attention、位置编码、mask 和 KV cache 连起来。

Exit Ticket（10 题，开卷）

1) Transformer 为什么会把旧的序列模型挤下去

请用 2 到 3 句话回答：

RNN / LSTM 卡住了什么
Transformer 想用什么新思路把它绕开

2) self-attention 到底在回答什么问题

请用你自己的话解释：

attention 的核心直觉是什么
为什么 self-attention 让每个 token 都能“看见”整句

3) Q、K、V 三个角色各自像谁

请分别用一句短语解释：

Query 在干什么
Key 在干什么
Value 在干什么

4) 为什么现代 Transformer 还要改很多细节

请说明下面几项各自大概在补什么：

pre-norm
RoPE
SwiGLU
去掉 bias

5) 为什么 Transformer 又强又贵

请分别回答：

它最强的两个优点是什么
它最贵的一个代价是什么

6) pre-norm 和 post-norm 的区别，真的有那么大吗

请用 2 到 3 句话回答：

pre-norm 为什么更稳
post-norm 为什么更容易训练不稳定

7) LayerNorm、RMSNorm、bias-free 这组搭配在忙什么

请分别用一句短语说明：

LayerNorm 在控制什么
RMSNorm 为什么更省事
为什么很多现代模型把 bias 去掉

8) 位置编码为什么不能随便拍脑袋

请回答：

如果没有位置编码，模型会缺什么信息
RoPE 为什么比纯绝对位置编码更适合现代 LLM

9) 计算复杂度和 KV cache 为什么老是绑在一起出现

请用 2 到 3 句话回答：

训练和推理的瓶颈为什么不一样
KV cache 到底在省什么

10) 用一句话把这课讲给同学听

请尽量自然一点：

Transformer 的核心直觉是什么
为什么它更像一种结构范式，而不只是一个模块