下面是一套 Lecture 14 Exit Ticket,对应 lec14.md 的当前内容。把它当成一份“数据清洗流水线观察单”会更轻松。重点不是背算法名字,而是看你是否能直觉理解:哪些东西该删、怎么删、删到什么程度才算合适。

Exit Ticket(10 题,开卷)

1) 数据过滤问题到底在做什么

请用 2 句话回答:

2) KenLM / fastText / DSIR 各自像哪种过滤器

请分别用一句短语说明:

3) language ID 为什么重要

请用 2 句话回答:

4) quality filtering 在筛什么

请说明:

5) toxicity filtering 为什么常常和数据质量一起提

请回答:

6) 为什么要做 deduplication

请用 2 到 3 句话回答:

7) Bloom filter、MinHash、LSH 各自大概在忙什么

请分别用一句短语解释:

8) 为什么 dedup 不只是“删重复行”这么简单

请用 2 句话回答:

9) 如果你要设计一个过滤流程,先后顺序会怎么排

请尽量自然一点:

10) 用一句话把这讲的核心直觉说出来

请尽量自然一点: