lec13-exit

下面是一套 Lecture 13 Exit Ticket，对应 lec13.md 的当前内容。把它当成一张“数据从哪儿来”的旅行地图会更有意思。重点不是记住每个数据集名字，而是看你有没有把训练数据的演化、来源和限制连起来。

Exit Ticket（10 题，开卷）

1) 训练数据这趟旅程，大概分成哪三站

请用 2 到 3 句话回答：

早期、中期、后期数据各有什么变化
为什么数据会越来越“任务化”

2) Common Crawl 为什么会反复出现

请说明：

它提供了什么规模的数据来源
为什么原始网页不能直接拿来训练

3) BERT / C4 / CCNet / GPT-3 这些名字在告诉你什么

请分别用一句短语说明：

它们各自更像在解决什么阶段的问题
它们为什么代表数据工程的不同口味

4) The Pile、RefinedWeb、FineWeb 这类数据集到底在忙什么

请回答：

这些数据集想解决什么问题
它们和原始网页数据的差别是什么

5) long context 为什么会成为一个独立的数据方向

请用 2 句话回答：

长上下文数据在补什么能力
为什么它不是简单“把文本拉长”而已

6) instruction / chat 数据为什么越来越重要

请说明：

这类数据在补什么能力
为什么它和后训练关系很紧

7) GitHub、StackExchange、Books3 这些来源为什么会被提起

请分别用一句短语回答：

它们各自代表哪类语料
为什么混合来源很重要

8) 版权、许可和 ToS 为什么必须放进数据讨论里

请用 2 到 3 句话回答：

为什么数据不只是“能不能抓到”
fair use / license / terms of service 各自影响什么

9) 这一讲里最容易被忽略、但最值得记住的一点是什么

请任选一个回答：

数据不是越多越好，而是越“合适”越好
数据工程本身就是模型能力的一部分

10) 用一句话把这讲讲给朋友听

请尽量自然一点：

训练数据是怎么从网页变成语料的
为什么这件事比看起来难得多