这一章不是在重复前面的 LoRA 微调,而是在回答一个新问题:
所以,3-2 这一章最适合放在 3-1 之后学习。
你可以把它理解成一条更完整的学生路径:
3-1 里先学会 SFT / LoRA 的最小闭环。GRPO 这类方法,看到奖励驱动后训练是怎样接到已有模型上的。0-lecture.md 作用:先讲清楚 RLHF、DPO、GRPO、奖励设计和 failure cases 的整条主线。1-class-prog.html 作用:告诉你这一章材料该按什么顺序看,不要一上来就钻进 notebook 代码。2-prog/0-docs-index.html 作用:进入两份 GRPO notebook 的逐格说明目录。4-exit.html 作用:课后检查你是否真的分清了 SFT、偏好学习和 RL 后训练。这两份核心 notebook 都来自 Hugging Face Open-Source AI Cookbook 官方教程,在此致谢。
3-1 学了什么如果你刚学完 course_lora-tinygpt2、course_lora_qwen_src 或 Chapter0-6,请先回忆三件事:
这一章会在这些基础上继续往前走,而不是重新起一套系统。
0-lecture.md先把概念地图建立起来,再碰代码。
你要先弄清楚:
如果这一步没看懂,后面 notebook 里的 reward_fn、GRPOTrainer、格式约束都会显得很突然。
这一步的目标不是学新知识,而是分清楚:
2-prog/0-docs-index.html这一页相当于真正进入 notebook 之前的总导航。
里面已经把两份 notebook 的说明文档、原 notebook HTML 和建议顺序都整理好了。
先看:
2-prog/fine_tuning_llm_grpo_trl_intro.html这一份最重要的作用是建立最小地图:
SFTTrainer 有什么相同点你应该重点比较:
3-1 的训练是“对标签做监督学习”再看:
2-prog/trl_grpo_reasoning_advanced_reward_intro.html这一步是在基础版上升级,不建议跳着看。
它的重点是:
如果基础版解决的是“RL 后训练大概长什么样”,这一份解决的是“真实系统怎样把 reward design 做得更完整”。
Exit Ticket最后去看:
4-exit.html如果你能顺利回答 exit ticket,说明你已经能把下面这几件事区分开:
SFT 在优化什么DPO 在简化什么GRPO 为什么适合 reasoning taskfine_tuning_llm_grpo_trl.ipynb这一份是基础版。
它最适合回答:
它更像 course_lora-tinygpt2 在 RL 场景里的对应物:先把最小闭环看懂。
trl_grpo_reasoning_advanced_reward.ipynb这一份是进阶版。
它最适合回答:
它更像 course_lora_qwen_src 的下一步:不只是把模型换真实,而是把训练目标也做得更复杂。
reward 相比前面的标签监督,究竟多提供了什么训练信号?3-1 和 3-2 连起来看时,看到的是一条完整路径:先让模型学会回答,再让模型更像我们希望的样子。