下面是一套 Lecture 11 Exit Ticket,对应 35.md 的当前内容。建议把它当成一份“边翻边聊”的小练习,10 分钟足够。重点不是背论文名,而是看看你有没有抓住这条前沿线背后的共同问题:推理能力从哪里来、长上下文为什么总不够长、缓存和表示还能怎么重做。

Exit Ticket(10 题,开卷)

1) 如果有人问你“RL 到底是在造新能力还是激活旧能力”,你会怎么用一句人话回答?

2) 为什么说 DAPO 这类工作不只是“把分数做高”,而是在把推理 RL 工程化?

3) 你怎么理解 “alignment 可能 shrink the generative horizon” 这句话?

4) 为什么长上下文问题既是建模问题,也是评测问题?

5) 你会怎么向同学解释:为什么“标称 128k”不等于“真的能用好 128k”?

6) STRING / 位置重映射类方法,和直接把上下文越训越长,有什么不同?

7) 为什么 OCR 路线会被拿来做超长上下文压缩?它到底在改什么?

8) 如果你要比较 YaRN、sparse / eviction 和 OCR 路线,你会怎么分三类讲清楚?

9) 为什么 KV cache 会从“中间产物”变成“记忆与通信对象”?

10) 看完这份讲稿后,你觉得今天最值得记住的一句话是什么?