35-exit

下面是一套 Lecture 11 Exit Ticket，对应 35.md 的当前内容。建议把它当成一份“边翻边聊”的小练习，10 分钟足够。重点不是背论文名，而是看看你有没有抓住这条前沿线背后的共同问题：推理能力从哪里来、长上下文为什么总不够长、缓存和表示还能怎么重做。

Exit Ticket（10 题，开卷）

1) 如果有人问你“RL 到底是在造新能力还是激活旧能力”，你会怎么用一句人话回答？

2) 为什么说 DAPO 这类工作不只是“把分数做高”，而是在把推理 RL 工程化？

3) 你怎么理解 “alignment 可能 shrink the generative horizon” 这句话？

4) 为什么长上下文问题既是建模问题，也是评测问题？

5) 你会怎么向同学解释：为什么“标称 128k”不等于“真的能用好 128k”？

6) STRING / 位置重映射类方法，和直接把上下文越训越长，有什么不同？

7) 为什么 OCR 路线会被拿来做超长上下文压缩？它到底在改什么？

8) 如果你要比较 YaRN、sparse / eviction 和 OCR 路线，你会怎么分三类讲清楚？

9) 为什么 KV cache 会从“中间产物”变成“记忆与通信对象”？

10) 看完这份讲稿后，你觉得今天最值得记住的一句话是什么？