5-exit

下面是一套 第 3 章 Exit Ticket，对应 0-lecture.md 的当前内容。建议把它当成一张“预训练主线地图”，10 分钟够用。重点不是记一堆模型名，而是看你有没有把语言模型、prompt、scaling 和 pretraining 的关系串起来。

Exit Ticket（10 题，开卷）

1) 为什么语言模型会变成 foundation model 的入口

请用 2 句话回答：

语言模型为什么不像一个普通任务
它为什么能变成“总任务”

2) n-gram、word vector、神经 LM 各自在补什么

请分别用一句短语解释：

n-gram 解决了什么
Word2Vec / GloVe 带来了什么
神经语言模型又推进了什么

3) 为什么 RNN / LSTM 没能成为终点

请用 2 到 3 句话回答：

它们在长上下文上卡在哪里
Transformer 为什么把路改了

4) pretraining 到底在学什么

请回答：

预训练在最基础层面教会模型什么
为什么它不是“只会补词”这么简单

5) decoder-only、encoder-only、encoder-decoder 各像什么任务口味

请分别用一句短语说明：

GPT 路线在干什么
BERT 路线在干什么
T5 路线在干什么

6) scaling laws 为什么会把大家的注意力拉过去

请用 2 句话回答：

规模变大时，为什么规律开始变得重要
scaling law 能帮你提前看见什么

7) prompt 为什么会突然变重要

请说明：

zero-shot / few-shot / CoT 分别在做什么
为什么 prompt 让同一个模型突然变得“像换了个脑子”

8) In-Context Learning 真正在说什么

请用 2 到 3 句话回答：

为什么模型能从上下文里“学会做题”
这件事为什么不像传统训练

9) 为什么这一章最后会走向微调

请回答：

预训练已经有能力了，为什么还不够
微调在补什么接口

10) 用一句话把这章的底色说出来

请尽量自然一点：

预训练为什么是能力底座
为什么后面的章节都在给它加任务接口和行为约束