下面是一套 Lecture 3 Exit Ticket,对应 lec3.md 的当前内容。建议把它当成一份“现代 Transformer 拆解卡片”,10 分钟足够。重点不是背每个变体名字,而是看你有没有把结构、稳定性和工程代价连起来。

Exit Ticket(10 题,开卷)

1) 为什么 Transformer 会把旧的序列模型挤下去

请用 2 到 3 句话回答:

2) self-attention 到底在回答什么问题

请用你自己的话解释:

3) Q、K、V 三个角色各自像谁

请分别用一句短语解释:

4) 为什么现代 Transformer 还要改很多细节

请说明下面几项各自大概在补什么:

5) 为什么 Transformer 又强又贵

请分别回答:

6) pre-norm 和 post-norm 的区别,真的有那么大吗

请用 2 到 3 句话回答:

7) LayerNorm、RMSNorm、bias-free 这组搭配在忙什么

请分别用一句短语说明:

8) 位置编码为什么不能随便拍脑袋

请回答:

9) z-loss 和 QK norm 这类“小修小补”为什么值钱

请用 2 到 3 句话回答:

10) GQA / MQA / sparse attention / sliding window 这一串你怎么记

请用 1 到 2 句话回答: