下面是一套 Lecture 14 Exit Ticket,对应 lec14.md 的当前内容。把它当成一份“数据清洗流水线观察单”会更轻松。重点不是背算法名字,而是看你是否能直觉理解:哪些东西该删、怎么删、删到什么程度才算合适。
Exit Ticket(10 题,开卷)
1) 数据过滤问题到底在做什么
请用 2 句话回答:
- 为什么原始数据不能直接进训练
- 过滤想解决什么核心麻烦
2) KenLM / fastText / DSIR 各自像哪种过滤器
请分别用一句短语说明:
- KenLM 用来干什么
- fastText 用来干什么
- DSIR 想解决什么问题
3) language ID 为什么重要
请用 2 句话回答:
- language ID 在筛什么
- 为什么这一步不是可有可无
4) quality filtering 在筛什么
请说明:
- 质量过滤和语言识别的区别是什么
- 为什么“看起来像文本”不等于“适合训练”
5) toxicity filtering 为什么常常和数据质量一起提
请回答:
- 毒性过滤想避免什么
- 为什么它会影响训练集的总体行为
6) 为什么要做 deduplication
请用 2 到 3 句话回答:
- exact duplicate 和 approximate duplicate 分别是什么
- 为什么重复数据会悄悄浪费你的预算
7) Bloom filter、MinHash、LSH 各自大概在忙什么
请分别用一句短语解释:
8) 为什么 dedup 不只是“删重复行”这么简单
请用 2 句话回答:
- approximate duplicate 为什么更难处理
- 为什么数据规模越大,这个问题越烦
9) 如果你要设计一个过滤流程,先后顺序会怎么排
请尽量自然一点:
10) 用一句话把这讲的核心直觉说出来
请尽量自然一点:
- 数据清洗的本质是什么
- 为什么它是“省算力”的第一步