这一页是第 3-2 章真正进入代码之前的总导航。
建议不要直接点原 notebook,而是按这里给出的顺序往下读。
先看:
这一页的作用是先把整章角色分清楚。
如果你还没完全想明白:
3-2 要单独成章3-1 的 SFT / LoRA 是什么关系reward、GRPOTrainer那就先不要急着读 notebook。
先看:
再对照原 notebook:
这一组最适合先建立整体直觉。
它在这一章里的位置,相当于:
course_lora-tinygpt2 在 3-1 里的位置也就是先把“最小可运行版本”看明白。
再看:
再对照原 notebook:
这一组是在基础版上升级。
它在这一章里的位置,相当于:
course_lora_qwen_src 相对于 course_lora-tinygpt2也就是把问题做得更真实、更复杂,也更接近真正的系统设计。
最后再回:
检查自己是否真的能区分:
SFTDPOGRPO建议带着下面几个问题去读:
reward function 究竟是在训练循环的哪里起作用?GRPOTrainer 和前面的 SFTTrainer 最相像、最不一样的地方各是什么?建议带着下面几个问题去读:
把这一章和前面的实验放在一起看,学生最容易真正看懂。
course_lora-tinygpt2 先学会最小 LoRA 微调闭环。course_lora_qwen_src 再学会把最小闭环迁移到真实 chat 模型。11/notebook 再理解标准 Hugging Face / TRL 微调工具链。13/2-prog 最后进入奖励驱动后训练,理解为什么 SFT 之后还会继续有一层训练。最值得一直对照的 5 个问题是:
3-1 是共通的?