GRPO notebook 学生说明目录

这一页是第 3-2 章真正进入代码之前的总导航。
建议不要直接点原 notebook，而是按这里给出的顺序往下读。

推荐使用路径

第 1 步：先回到章节入口

先看：

../1-class-prog.html

这一页的作用是先把整章角色分清楚。
如果你还没完全想明白：

为什么 3-2 要单独成章
它和 3-1 的 SFT / LoRA 是什么关系
为什么这里会突然出现 reward、GRPOTrainer

那就先不要急着读 notebook。

第 2 步：先读基础版 GRPO 说明

先看：

fine_tuning_llm_grpo_trl_intro.html

再对照原 notebook：

fine_tuning_llm_grpo_trl.html

这一组最适合先建立整体直觉。
它在这一章里的位置，相当于：

course_lora-tinygpt2 在 3-1 里的位置

也就是先把“最小可运行版本”看明白。

第 3 步：再读多奖励版 GRPO 说明

再看：

trl_grpo_reasoning_advanced_reward_intro.html

再对照原 notebook：

trl_grpo_reasoning_advanced_reward.html

这一组是在基础版上升级。
它在这一章里的位置，相当于：

course_lora_qwen_src 相对于 course_lora-tinygpt2

也就是把问题做得更真实、更复杂，也更接近真正的系统设计。

第 4 步：最后回去做章节检查

最后再回：

../4-exit.html

检查自己是否真的能区分：

SFT
DPO
GRPO
单奖励与多奖励
对齐目标与 failure cases

这两份 notebook 各自适合解决什么问题

基础版 GRPO

fine_tuning_llm_grpo_trl_intro.html | 原 notebook: fine_tuning_llm_grpo_trl.html

建议带着下面几个问题去读：

RL 后训练为什么不是从零开始，而是接在 instruct 模型后面？
为什么这套流程里仍然继续使用 LoRA？
reward function 究竟是在训练循环的哪里起作用？
GRPOTrainer 和前面的 SFTTrainer 最相像、最不一样的地方各是什么？

多奖励版 GRPO

trl_grpo_reasoning_advanced_reward_intro.html | 原 notebook: trl_grpo_reasoning_advanced_reward.html

建议带着下面几个问题去读：

为什么“答案对”还不够？
为什么还要继续检查格式、结构和数值抽取？
多个 reward 一起出现时，模型到底在被引导成什么样？
为什么 reasoning model 的训练越来越像“奖励系统设计”？

和前面材料怎样互相印证

把这一章和前面的实验放在一起看，学生最容易真正看懂。

course_lora-tinygpt2 先学会最小 LoRA 微调闭环。
course_lora_qwen_src 再学会把最小闭环迁移到真实 chat 模型。
11/notebook 再理解标准 Hugging Face / TRL 微调工具链。
13/2-prog 最后进入奖励驱动后训练，理解为什么 SFT 之后还会继续有一层训练。

最值得一直对照的 5 个问题是：

哪些工程结构和 3-1 是共通的？
哪些地方开始从“标签监督”切到“奖励驱动”？
为什么 RL 后训练里依然会继续使用量化和 LoRA？
为什么输出格式会在 reasoning 训练里变得异常重要？
为什么 reward 越丰富，系统越强，但也越容易出现副作用？