下面是一套 Lecture 13 Exit Ticket,对应 lec13.md 的当前内容。把它当成一张“数据从哪儿来”的旅行地图会更有意思。重点不是记住每个数据集名字,而是看你有没有把训练数据的演化、来源和限制连起来。

Exit Ticket(10 题,开卷)

1) 训练数据这趟旅程,大概分成哪三站

请用 2 到 3 句话回答:

2) Common Crawl 为什么会反复出现

请说明:

3) BERT / C4 / CCNet / GPT-3 这些名字在告诉你什么

请分别用一句短语说明:

4) The Pile、RefinedWeb、FineWeb 这类数据集到底在忙什么

请回答:

5) long context 为什么会成为一个独立的数据方向

请用 2 句话回答:

6) instruction / chat 数据为什么越来越重要

请说明:

7) GitHub、StackExchange、Books3 这些来源为什么会被提起

请分别用一句短语回答:

8) 版权、许可和 ToS 为什么必须放进数据讨论里

请用 2 到 3 句话回答:

9) 这一讲里最容易被忽略、但最值得记住的一点是什么

请任选一个回答:

10) 用一句话把这讲讲给朋友听

请尽量自然一点: