下面是一套 Lecture 6 Exit Ticket,对应 lec6.md 的当前内容。把它当成一份“动手写 kernel 前的热身题”就好。重点不是记 API 名字,而是看你有没有真正理解:怎么测、怎么找瓶颈、怎么把一个慢算子拆成更顺手的版本。

Exit Ticket(10 题,开卷)

1) 为什么要先 benchmark 再 profile

请用 2 句话回答:

2) kernel fusion 为什么值得做

请说明:

3) CUDA、Triton 和 torch.compile 各自大致在做什么

请分别用一句短语说明:

4) 为什么 GeLU 和 softmax 适合拿来讲 kernel

请用 2 到 3 句话回答:

5) tiling 和 L2 cache 为什么会成为关键字

请回答:

6) softmax 为什么经常是“看起来简单,做起来很烦”

请用 2 句话回答:

7) 什么时候你会想自己写 kernel

请说明:

8) 为什么这讲老是把“少搬数据”挂在嘴边

请用 2 句话回答:

9) 如果一个算子慢,你会怎么排查

请用 1 到 2 句话回答:

10) 用一句话把这一讲的直觉说清楚

请尽量自然一点: