GRPO notebook 学生说明目录

这一页是第 3-2 章真正进入代码之前的总导航。
建议不要直接点原 notebook,而是按这里给出的顺序往下读。

推荐使用路径

第 1 步:先回到章节入口

先看:

这一页的作用是先把整章角色分清楚。
如果你还没完全想明白:

那就先不要急着读 notebook。

第 2 步:先读基础版 GRPO 说明

先看:

再对照原 notebook:

这一组最适合先建立整体直觉。
它在这一章里的位置,相当于:

也就是先把“最小可运行版本”看明白。

第 3 步:再读多奖励版 GRPO 说明

再看:

再对照原 notebook:

这一组是在基础版上升级。
它在这一章里的位置,相当于:

也就是把问题做得更真实、更复杂,也更接近真正的系统设计。

第 4 步:最后回去做章节检查

最后再回:

检查自己是否真的能区分:

这两份 notebook 各自适合解决什么问题

基础版 GRPO

建议带着下面几个问题去读:

  1. RL 后训练为什么不是从零开始,而是接在 instruct 模型后面?
  2. 为什么这套流程里仍然继续使用 LoRA?
  3. reward function 究竟是在训练循环的哪里起作用?
  4. GRPOTrainer 和前面的 SFTTrainer 最相像、最不一样的地方各是什么?

多奖励版 GRPO

建议带着下面几个问题去读:

  1. 为什么“答案对”还不够?
  2. 为什么还要继续检查格式、结构和数值抽取?
  3. 多个 reward 一起出现时,模型到底在被引导成什么样?
  4. 为什么 reasoning model 的训练越来越像“奖励系统设计”?

和前面材料怎样互相印证

把这一章和前面的实验放在一起看,学生最容易真正看懂。

最值得一直对照的 5 个问题是:

  1. 哪些工程结构和 3-1 是共通的?
  2. 哪些地方开始从“标签监督”切到“奖励驱动”?
  3. 为什么 RL 后训练里依然会继续使用量化和 LoRA?
  4. 为什么输出格式会在 reasoning 训练里变得异常重要?
  5. 为什么 reward 越丰富,系统越强,但也越容易出现副作用?