下面是一套 第 3 章 Exit Ticket,对应 0-lecture.md 的当前内容。建议把它当成一张“预训练主线地图”,10 分钟够用。重点不是记一堆模型名,而是看你有没有把语言模型、prompt、scaling 和 pretraining 的关系串起来。
Exit Ticket(10 题,开卷)
1) 为什么语言模型会变成 foundation model 的入口
请用 2 句话回答:
- 语言模型为什么不像一个普通任务
- 它为什么能变成“总任务”
2) n-gram、word vector、神经 LM 各自在补什么
请分别用一句短语解释:
- n-gram 解决了什么
- Word2Vec / GloVe 带来了什么
- 神经语言模型又推进了什么
3) 为什么 RNN / LSTM 没能成为终点
请用 2 到 3 句话回答:
- 它们在长上下文上卡在哪里
- Transformer 为什么把路改了
4) pretraining 到底在学什么
请回答:
- 预训练在最基础层面教会模型什么
- 为什么它不是“只会补词”这么简单
5) decoder-only、encoder-only、encoder-decoder 各像什么任务口味
请分别用一句短语说明:
- GPT 路线在干什么
- BERT 路线在干什么
- T5 路线在干什么
6) scaling laws 为什么会把大家的注意力拉过去
请用 2 句话回答:
- 规模变大时,为什么规律开始变得重要
- scaling law 能帮你提前看见什么
7) prompt 为什么会突然变重要
请说明:
- zero-shot / few-shot / CoT 分别在做什么
- 为什么 prompt 让同一个模型突然变得“像换了个脑子”
8) In-Context Learning 真正在说什么
请用 2 到 3 句话回答:
- 为什么模型能从上下文里“学会做题”
- 这件事为什么不像传统训练
9) 为什么这一章最后会走向微调
请回答:
- 预训练已经有能力了,为什么还不够
- 微调在补什么接口
10) 用一句话把这章的底色说出来
请尽量自然一点:
- 预训练为什么是能力底座
- 为什么后面的章节都在给它加任务接口和行为约束