lec14-exit

下面是一套 Lecture 14 Exit Ticket，对应 lec14.md 的当前内容。把它当成一份“数据清洗流水线观察单”会更轻松。重点不是背算法名字，而是看你是否能直觉理解：哪些东西该删、怎么删、删到什么程度才算合适。

Exit Ticket（10 题，开卷）

1) 数据过滤问题到底在做什么

请用 2 句话回答：

为什么原始数据不能直接进训练
过滤想解决什么核心麻烦

2) KenLM / fastText / DSIR 各自像哪种过滤器

请分别用一句短语说明：

KenLM 用来干什么
fastText 用来干什么
DSIR 想解决什么问题

3) language ID 为什么重要

请用 2 句话回答：

language ID 在筛什么
为什么这一步不是可有可无

4) quality filtering 在筛什么

请说明：

质量过滤和语言识别的区别是什么
为什么“看起来像文本”不等于“适合训练”

5) toxicity filtering 为什么常常和数据质量一起提

请回答：

毒性过滤想避免什么
为什么它会影响训练集的总体行为

6) 为什么要做 deduplication

请用 2 到 3 句话回答：

exact duplicate 和 approximate duplicate 分别是什么
为什么重复数据会悄悄浪费你的预算

7) Bloom filter、MinHash、LSH 各自大概在忙什么

请分别用一句短语解释：

Bloom filter
MinHash
LSH

8) 为什么 dedup 不只是“删重复行”这么简单

请用 2 句话回答：

approximate duplicate 为什么更难处理
为什么数据规模越大，这个问题越烦

9) 如果你要设计一个过滤流程，先后顺序会怎么排

请尽量自然一点：

你会先做什么，再做什么
为什么顺序本身很重要

10) 用一句话把这讲的核心直觉说出来

请尽量自然一点：

数据清洗的本质是什么
为什么它是“省算力”的第一步