对齐与 RL 后训练：学生使用路径

先说这组材料的角色

这一章不是在重复前面的 LoRA 微调，而是在回答一个新问题：

如果模型已经会回答问题，怎样继续把它训练得更符合人类偏好、更会推理、更会按要求输出？

所以，3-2 这一章最适合放在 3-1 之后学习。
你可以把它理解成一条更完整的学生路径：

在 3-1 里先学会 SFT / LoRA 的最小闭环。
到这一章再理解“为什么只做监督微调还不够”。
最后通过 GRPO 这类方法，看到奖励驱动后训练是怎样接到已有模型上的。

这组材料包含什么

0-lecture.md 作用：先讲清楚 RLHF、DPO、GRPO、奖励设计和 failure cases 的整条主线。
1-class-prog.html 作用：告诉你这一章材料该按什么顺序看，不要一上来就钻进 notebook 代码。
2-prog/0-docs-index.html 作用：进入两份 GRPO notebook 的逐格说明目录。
4-exit.html 作用：课后检查你是否真的分清了 SFT、偏好学习和 RL 后训练。

这两份核心 notebook 都来自 Hugging Face Open-Source AI Cookbook 官方教程，在此致谢。

建议阅读顺序

第 0 步：先回想 `3-1` 学了什么

如果你刚学完 course_lora-tinygpt2、course_lora_qwen_src 或 Chapter0-6，请先回忆三件事：

我们前面优化的是“给定输入，尽量学会输出标准答案”。
我们前面主要依赖的是监督信号，也就是已有标签。
我们前面已经学会了：量化、LoRA、chat template、trainer、推理。

这一章会在这些基础上继续往前走，而不是重新起一套系统。

第 1 步：先看 `0-lecture.md`

先把概念地图建立起来，再碰代码。
你要先弄清楚：

为什么 SFT 之后还会继续做对齐和 RL 后训练
RLHF、DPO、GRPO 分别试图解决什么问题
为什么 reasoning model 会特别依赖 reward design

如果这一步没看懂，后面 notebook 里的 reward_fn、GRPOTrainer、格式约束都会显得很突然。

第 2 步：再看这份“学生使用路径”

这一步的目标不是学新知识，而是分清楚：

哪一份 notebook 是入门版
哪一份 notebook 是进阶版
读 notebook 时应该重点观察什么

第 3 步：看 `2-prog/0-docs-index.html`

这一页相当于真正进入 notebook 之前的总导航。
里面已经把两份 notebook 的说明文档、原 notebook HTML 和建议顺序都整理好了。

第 4 步：先读基础版 GRPO

先看：

2-prog/fine_tuning_llm_grpo_trl_intro.html

这一份最重要的作用是建立最小地图：

什么是 GRPO
它和前面的 SFTTrainer 有什么相同点
它又多了哪些新东西，比如 reward function、group sampling、advantage 的近似处理

你应该重点比较：

前面 3-1 的训练是“对标签做监督学习”
这里的训练是“根据 reward 调整生成行为”

第 5 步：再读多奖励版 GRPO

再看：

2-prog/trl_grpo_reasoning_advanced_reward_intro.html

这一步是在基础版上升级，不建议跳着看。
它的重点是：

多个 reward 怎样组合
为什么 reasoning 训练会特别强调 structured output
为什么训练目标不只是“答对”，还包括“按我们希望的方式答对”

如果基础版解决的是“RL 后训练大概长什么样”，这一份解决的是“真实系统怎样把 reward design 做得更完整”。

第 6 步：最后做 `Exit Ticket`

最后去看：

4-exit.html

如果你能顺利回答 exit ticket，说明你已经能把下面这几件事区分开：

SFT 在优化什么
DPO 在简化什么
GRPO 为什么适合 reasoning task
多奖励为什么会出现

两份 notebook 分别在解决什么问题

`fine_tuning_llm_grpo_trl.ipynb`

这一份是基础版。
它最适合回答：

RL 后训练最小可运行例子长什么样？
为什么已经有 instruct 模型了，还要再做一轮训练？
reward function 是怎样进入训练循环的？

它更像 course_lora-tinygpt2 在 RL 场景里的对应物：先把最小闭环看懂。

`trl_grpo_reasoning_advanced_reward.ipynb`

这一份是进阶版。
它最适合回答：

如果只用一个 reward 不够，系统要怎样升级？
为什么会同时检查格式、答案正确性、数值抽取和过程约束？
为什么越往 reasoning model 走，训练越像“系统设计”而不是单一 loss 优化？

它更像 course_lora_qwen_src 的下一步：不只是把模型换真实，而是把训练目标也做得更复杂。

读这组材料时最该盯住的 6 个问题

为什么 RL 后训练不是从零训练模型，而是接在已有 instruct 模型之后？
为什么这里还在继续使用 LoRA，而不是一下切到全参数训练？
reward 相比前面的标签监督，究竟多提供了什么训练信号？
为什么 reasoning task 会特别强调输出格式和中间过程？
单奖励和多奖励各有什么优点，也各会带来什么风险？
为什么这一章会不断提到 reward hacking、length bias、over-optimization 这类 failure cases？

这组材料真正想让你带走什么

大模型训练不会停在 SFT；后面还会继续走向偏好学习和奖励驱动优化。
GRPO 不是凭空出现的新技巧，而是从 policy gradient、PPO 这些 RL 思路一路发展过来的。
当你把 3-1 和 3-2 连起来看时，看到的是一条完整路径：先让模型学会回答，再让模型更像我们希望的样子。