下面是一套 Lecture 17 Exit Ticket,对应 lec17.md 的当前内容。把它当成一张“RL 训练循环拆解图”会更顺手。重点不是记公式,而是看你有没有把 policy gradient、baseline、advantage 和 GRPO 串成一个能跑的更新故事。

Exit Ticket(10 题,开卷)

1) policy gradient 想干的到底是什么

请用 2 句话回答:

2) baseline 和 advantage 为什么是好搭档

请分别用一句短语解释:

3) GRPO 为什么会受欢迎

请用 2 到 3 句话回答:

4) freeze old policy 和 KL penalty 在防什么

请回答:

5) 为什么 loss 里会出现这么多“稳定器”

请用 2 句话回答:

6) 一个简单任务里,reward、loss、update 三者各自是什么角色

请分别用一句短语说明:

7) 为什么这讲强调训练循环本身

请用 2 句话回答:

8) 在语言模型里做 RL,为什么方差控制这么重要

请回答:

9) 如果你要给朋友讲 GRPO,你会怎么说

请尽量自然一点:

10) 用一句话把这讲的核心直觉说出来

请尽量自然一点: