下面是一套 Lecture 13 Exit Ticket,对应 lec13.md 的当前内容。把它当成一张“数据从哪儿来”的旅行地图会更有意思。重点不是记住每个数据集名字,而是看你有没有把训练数据的演化、来源和限制连起来。
Exit Ticket(10 题,开卷)
1) 训练数据这趟旅程,大概分成哪三站
请用 2 到 3 句话回答:
- 早期、中期、后期数据各有什么变化
- 为什么数据会越来越“任务化”
2) Common Crawl 为什么会反复出现
请说明:
- 它提供了什么规模的数据来源
- 为什么原始网页不能直接拿来训练
3) BERT / C4 / CCNet / GPT-3 这些名字在告诉你什么
请分别用一句短语说明:
- 它们各自更像在解决什么阶段的问题
- 它们为什么代表数据工程的不同口味
4) The Pile、RefinedWeb、FineWeb 这类数据集到底在忙什么
请回答:
- 这些数据集想解决什么问题
- 它们和原始网页数据的差别是什么
5) long context 为什么会成为一个独立的数据方向
请用 2 句话回答:
- 长上下文数据在补什么能力
- 为什么它不是简单“把文本拉长”而已
6) instruction / chat 数据为什么越来越重要
请说明:
7) GitHub、StackExchange、Books3 这些来源为什么会被提起
请分别用一句短语回答:
8) 版权、许可和 ToS 为什么必须放进数据讨论里
请用 2 到 3 句话回答:
- 为什么数据不只是“能不能抓到”
- fair use / license / terms of service 各自影响什么
9) 这一讲里最容易被忽略、但最值得记住的一点是什么
请任选一个回答:
- 数据不是越多越好,而是越“合适”越好
- 数据工程本身就是模型能力的一部分
10) 用一句话把这讲讲给朋友听
请尽量自然一点:
- 训练数据是怎么从网页变成语料的
- 为什么这件事比看起来难得多