对齐与 RL 后训练:学生使用路径

先说这组材料的角色

这一章不是在重复前面的 LoRA 微调,而是在回答一个新问题:

所以,3-2 这一章最适合放在 3-1 之后学习。
你可以把它理解成一条更完整的学生路径:

  1. 3-1 里先学会 SFT / LoRA 的最小闭环。
  2. 到这一章再理解“为什么只做监督微调还不够”。
  3. 最后通过 GRPO 这类方法,看到奖励驱动后训练是怎样接到已有模型上的。

这组材料包含什么

这两份核心 notebook 都来自 Hugging Face Open-Source AI Cookbook 官方教程,在此致谢。

建议阅读顺序

第 0 步:先回想 3-1 学了什么

如果你刚学完 course_lora-tinygpt2course_lora_qwen_srcChapter0-6,请先回忆三件事:

  1. 我们前面优化的是“给定输入,尽量学会输出标准答案”。
  2. 我们前面主要依赖的是监督信号,也就是已有标签。
  3. 我们前面已经学会了:量化、LoRA、chat template、trainer、推理。

这一章会在这些基础上继续往前走,而不是重新起一套系统。

第 1 步:先看 0-lecture.md

先把概念地图建立起来,再碰代码。
你要先弄清楚:

如果这一步没看懂,后面 notebook 里的 reward_fnGRPOTrainer、格式约束都会显得很突然。

第 2 步:再看这份“学生使用路径”

这一步的目标不是学新知识,而是分清楚:

第 3 步:看 2-prog/0-docs-index.html

这一页相当于真正进入 notebook 之前的总导航。
里面已经把两份 notebook 的说明文档、原 notebook HTML 和建议顺序都整理好了。

第 4 步:先读基础版 GRPO

先看:

这一份最重要的作用是建立最小地图:

你应该重点比较:

第 5 步:再读多奖励版 GRPO

再看:

这一步是在基础版上升级,不建议跳着看。
它的重点是:

如果基础版解决的是“RL 后训练大概长什么样”,这一份解决的是“真实系统怎样把 reward design 做得更完整”。

第 6 步:最后做 Exit Ticket

最后去看:

如果你能顺利回答 exit ticket,说明你已经能把下面这几件事区分开:

两份 notebook 分别在解决什么问题

fine_tuning_llm_grpo_trl.ipynb

这一份是基础版。
它最适合回答:

它更像 course_lora-tinygpt2 在 RL 场景里的对应物:先把最小闭环看懂。

trl_grpo_reasoning_advanced_reward.ipynb

这一份是进阶版。
它最适合回答:

它更像 course_lora_qwen_src 的下一步:不只是把模型换真实,而是把训练目标也做得更复杂。

读这组材料时最该盯住的 6 个问题

  1. 为什么 RL 后训练不是从零训练模型,而是接在已有 instruct 模型之后?
  2. 为什么这里还在继续使用 LoRA,而不是一下切到全参数训练?
  3. reward 相比前面的标签监督,究竟多提供了什么训练信号?
  4. 为什么 reasoning task 会特别强调输出格式和中间过程?
  5. 单奖励和多奖励各有什么优点,也各会带来什么风险?
  6. 为什么这一章会不断提到 reward hacking、length bias、over-optimization 这类 failure cases?

这组材料真正想让你带走什么

  1. 大模型训练不会停在 SFT;后面还会继续走向偏好学习和奖励驱动优化。
  2. GRPO 不是凭空出现的新技巧,而是从 policy gradient、PPO 这些 RL 思路一路发展过来的。
  3. 当你把 3-13-2 连起来看时,看到的是一条完整路径:先让模型学会回答,再让模型更像我们希望的样子。