下面是一套 第 2 课 Exit Ticket,对应 0-lecture.md 的当前内容。建议把它当成一张“Transformer 入门导航卡”,10 分钟足够。重点不是背模块名,而是看你有没有把 attention、位置编码、mask 和 KV cache 连起来。
Exit Ticket(10 题,开卷)
请用 2 到 3 句话回答:
- RNN / LSTM 卡住了什么
- Transformer 想用什么新思路把它绕开
2) self-attention 到底在回答什么问题
请用你自己的话解释:
- attention 的核心直觉是什么
- 为什么 self-attention 让每个 token 都能“看见”整句
3) Q、K、V 三个角色各自像谁
请分别用一句短语解释:
- Query 在干什么
- Key 在干什么
- Value 在干什么
请说明下面几项各自大概在补什么:
- pre-norm
- RoPE
- SwiGLU
- 去掉 bias
请分别回答:
6) pre-norm 和 post-norm 的区别,真的有那么大吗
请用 2 到 3 句话回答:
- pre-norm 为什么更稳
- post-norm 为什么更容易训练不稳定
7) LayerNorm、RMSNorm、bias-free 这组搭配在忙什么
请分别用一句短语说明:
- LayerNorm 在控制什么
- RMSNorm 为什么更省事
- 为什么很多现代模型把 bias 去掉
8) 位置编码为什么不能随便拍脑袋
请回答:
- 如果没有位置编码,模型会缺什么信息
- RoPE 为什么比纯绝对位置编码更适合现代 LLM
9) 计算复杂度和 KV cache 为什么老是绑在一起出现
请用 2 到 3 句话回答:
- 训练和推理的瓶颈为什么不一样
- KV cache 到底在省什么
10) 用一句话把这课讲给同学听
请尽量自然一点:
- Transformer 的核心直觉是什么
- 为什么它更像一种结构范式,而不只是一个模块