下面是一套 Lecture 13 Exit Ticket,对应 37.md 的当前内容。建议把它当成一份“边翻边聊”的小练习,10 分钟足够。重点不是背系统名,而是看看你有没有抓住这条前沿线背后的共同问题:为什么数据一大,机器学习就开始变成系统工程。
Exit Ticket(10 题,开卷)
1) 为什么说“大数据机器学习”不是“原方法做大一点”,而是“系统、算法和目标函数一起变”?
2) Map-Reduce 和 Spark 各自解决了大规模 ML 的什么问题?
3) 你会怎么用一句话解释:为什么大规模数据处理本身就是机器学习的一部分?
4) 为什么 optimization 在大数据场景里会变得更难?
5) Bloom Filter、Count-Min Sketch 和 LSH 的共同思路是什么?
6) 为什么大数据场景下,近似往往比精确更重要?
7) AutoDiff 为什么会成为大规模训练的基础设施,而不只是一个编程便利?
8) 为什么 GPU、并行训练和模型压缩会被放在同一张地图里?
9) Hyperparameter Search 在大规模训练里为什么本质上是预算问题?
10) 这份讲稿里,哪一个主题最让你感觉它和今天的大模型系统“接上了”?