`fine_tuning_llm_grpo_trl.ipynb` 逐格说明

这份 notebook 是你们进入 RL 后训练的第一站。
它和前面已经做过的 course_lora_qwen_src 最大的关系是：

course_lora_qwen_src：你们做的是 SFT / LoRA 监督微调
这份 notebook：你们开始做 GRPO 奖励驱动后训练

所以读它时，最应该一直问的问题是：

这一步和前面监督微调相比，究竟多了什么？

Cells 1-3：标题和背景

开头几格在说明：

这不是从零训练模型
而是在已有模型上做 post-training
目标是让模型更会“按要求推理”

编程小白先抓一句话

前面 SFT 是“给模型看标准答案”。
这里 GRPO 更像是“让模型多试几次，再按奖励告诉它哪种输出更好”。

Cell 4：安装依赖

!pip install  -U -q trl peft math_verify

每个包大概在做什么

trl
- Hugging Face 的 reinforcement / post-training 工具包
peft
- 还是用 LoRA 这类轻量微调
math_verify
- 帮你检查数学答案是否正确

和前面最小实验的对应

在 course_lora_qwen_src 里你们已经装过：

transformers
peft

这里多出来的核心是：

trl
math_verify

也就是说，从这一步开始，你已经不是单纯在做 SFT 了。

Cell 6：`notebook_login()`

from huggingface_hub import notebook_login
notebook_login()

它在做什么

为什么这里要登录

因为后面这份 notebook 可能会：

拉模型
推送训练结果到 Hub

Cell 8：加载数据集

dataset_id = 'AI-MO/NuminaMath-TIR'
train_dataset, test_dataset = load_dataset(dataset_id, split=['train[:5%]', 'test[:5%]'])

这里最值得初学者看什么

load_dataset(...) 还是那套 Hugging Face datasets 流程
只取 5%，说明这是一份演示 / 教学版配置，不是正式长时间训练

和前面课程对照

这和你们在 course_lora_qwen_src 里自己写：

train_file = ...
val_file = ...

不一样。
前面是自己准备本地 JSON，这里是直接从 Hub 拉现成数学推理数据集。

Cells 10-12：检查数据结构

这两格的意义非常重要：

先看 dataset 长什么样
再看一条具体样本

为什么这一步不能省

无论是 SFT 还是 RL，第一步永远不是“先调模型”，而是“先看数据到底长什么样”。

这和你们前面做：

print(train_dataset[0])
print(len(train_ds), len(val_ds))

是完全同一条调试思路。

Cell 14：`SYSTEM_PROMPT` 和 `make_conversation(...)`

这是整份 notebook 的第一个核心代码格。

`SYSTEM_PROMPT`

它定义了模型输出的目标格式：

先在 <think> ... </think> 里写推理过程
再在 <answer> ... </answer> 里写答案

为什么要这么做

因为后面的奖励函数需要有一个明确可检查的输出格式。

如果模型乱写一通、没有边界标记，就很难自动给 reward。

`make_conversation(example)`

这个函数把原始数学题转换成：

{
  "prompt": [
    {"role": "system", "content": SYSTEM_PROMPT},
    {"role": "user", "content": example["problem"]},
  ]
}

和前面 Qwen 最小实验的对应

你们在 course_lora_qwen_src 里也写过：

messages = [
  {"role":"system", ...},
  {"role":"user", ...},
]

这说明：

即使从 SFT 走到 RL
输入格式依然是 chat 风格

Cell 16：打印一个 prompt

print(train_dataset[0]['prompt'])

这一格的作用是确认：

刚才 map(make_conversation) 之后，数据真的变成了 prompt 列

Cell 18：删掉多余列

train_dataset = train_dataset.remove_columns(['messages', 'problem'])

为什么删列

因为后面训练时，数据集里只需要：

prompt
以及 reward 要用到的答案信息

保留太多无关列，容易让数据流更混乱。

Cells 22-24：加载模型和 LoRA

Cell 22：加载 baseline model

model_id = "Qwen/Qwen2-0.5B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

和前面最小实验的对照

这里和 course_lora_qwen_src 很像：

还是 AutoModelForCausalLM
还是 Qwen instruct 模型

但少了你们前面手动写的：

dtype = ...
trust_remote_code=True

它更像教程里的“默认可运行版本”。

Cell 24：`LoraConfig(...)`

lora_config = LoraConfig(
    task_type="CAUSAL_LM",
    r=8,
    lora_alpha=32,
    lora_dropout=0.1,
    target_modules=["q_proj", "v_proj"],
)

这里最值得对照的点

和你们前面 course_lora_qwen_src 比：

前面 target modules 更全：q_proj k_proj v_proj o_proj gate_proj up_proj down_proj
这里更简化，只改 q_proj 和 v_proj

为什么教程会这样简化

因为它想先把 RL 主线跑通，不想在 LoRA 配置上把学生绕晕。

`model.print_trainable_parameters()`

这一步和前面一样，仍然是要确认：

训练的只是少量 LoRA 参数

Cells 26-28：奖励函数

这是整份 notebook 最关键的“RL 和 SFT 的分界线”。

Cell 26：`format_reward(...)`

pattern = r"^<think>.*?</think>\s*<answer>.*?</answer>$"

它在做什么

检查输出有没有遵守指定格式。

为什么这就是 reward

因为在 RL 里，你不再只是用“标准答案 token”监督模型。
你可以直接按输出行为打分。

这里的打分逻辑是：

格式对：1.0
格式不对：0.0

这就是最简单的 reward function。

Cell 28：`accuracy_reward(...)`

这一格比前一个更“内容导向”。

它在做什么

不是只看格式，而是看答案对不对。

关键函数

parse(...)
- 把答案解析出来
verify(...)
- 比较模型答案和标准答案是否一致

为什么这一格很重要

它说明：

reward 不一定来自人工标注，也可以来自“程序可验证的规则”。

这就是第 13 章里经常提到的：

rule-based reward
verifiable reward

Cell 30：`GRPOConfig(...)`

这是这份 notebook 的训练配置核心。

重点参数

output_dir
learning_rate=1e-5
remove_unused_columns=False
gradient_accumulation_steps=16
num_train_epochs=1
bf16=True
max_completion_length=64
num_generations=4

这些参数和前面 SFT 的差别

`num_generations=4`

这在 SFT 里没有。
因为 RL 这里通常会：

同一个 prompt 生成多个候选回答
再比较这些回答的 reward

`remove_unused_columns=False`

这一行特别关键。

为什么？

因为 reward function 里还要访问例如 solution 这种字段。
如果把“训练器没直接用到的列”都删掉，reward function 就拿不到标准答案了。

`max_completion_length`

这里比 SFT 更强调“生成长度”，因为 RL 训练时真的会先生成回答，再打分。

Cell 33：`GRPOTrainer(...)`

trainer = GRPOTrainer(
    model=model,
    reward_funcs=[format_reward, accuracy_reward],
    args=training_args,
    train_dataset=train_dataset
)

这一格可以和 Chapter5 的 `SFTTrainer(...)` 直接对照

SFTTrainer：吃标准答案，做监督学习
GRPOTrainer：先生成多个回答，再按 reward 优化

所以这是整份 notebook 最核心的角色切换。

Cell 35：`trainer.train()`

这一行还是训练入口，但你现在应该意识到：

它内部发生的事情，和前面的 trainer.train() 已经不一样了。

前面 SFT 训练时

loss 来自标准标签

这里 GRPO 训练时

loss 来自奖励驱动优化

Cell 37：保存和 push

trainer.save_model(training_args.output_dir)
trainer.push_to_hub(dataset_name=dataset_id)

这和前面 LoRA 最小实验、Chapter5 保存 adapter 的逻辑是同源的。

Cells 41-51：加载训练后模型并推理

Cell 41

重新加载已经训练好的模型和 tokenizer。

Cell 45：`generate_with_reasoning(prompt)`

这是推理辅助函数。

它做了这些事：

把 prompt 里的消息拼成字符串
tokenizer 编码
调 model.generate(...)
统计推理时间
统计生成 token 数

为什么这一步重要

因为 RL 训练不是只看训练指标，还要看：

格式是否真的学会了
推理速度怎样
输出 token 数怎样

Cells 47-51：查看推理效果

这里是在检查：

生成文本本身
推理耗时
输出 token 数
只保留回答部分后的文本

对零基础学生的意义

这一步非常像你们前面在 Qwen 最小实验里做的“训练完就立即试一题”，只是现在多看了：

时间
token 数
格式标签

给零基础学生的最短总结

这份 notebook 仍然以 chat prompt + LoRA 为基础
和 SFT 真正不同的地方，是多了 reward function 和 GRPOTrainer
reward 可以同时看“格式对不对”和“答案对不对”
RL 后训练的目标，是让模型输出更符合我们定义的好行为

fine_tuning_llm_grpo_trl.ipynb 逐格说明

Cells 1-3：标题和背景

编程小白先抓一句话

Cell 4：安装依赖

每个包大概在做什么

和前面最小实验的对应

Cell 6：notebook_login()

它在做什么

为什么这里要登录

Cell 8：加载数据集

这里最值得初学者看什么

和前面课程对照

Cells 10-12：检查数据结构

为什么这一步不能省

Cell 14：SYSTEM_PROMPT 和 make_conversation(...)

SYSTEM_PROMPT

为什么要这么做

make_conversation(example)

和前面 Qwen 最小实验的对应

Cell 16：打印一个 prompt

Cell 18：删掉多余列

为什么删列

Cells 22-24：加载模型和 LoRA

Cell 22：加载 baseline model

和前面最小实验的对照

Cell 24：LoraConfig(...)

这里最值得对照的点

为什么教程会这样简化

model.print_trainable_parameters()

Cells 26-28：奖励函数

Cell 26：format_reward(...)

它在做什么

为什么这就是 reward

Cell 28：accuracy_reward(...)

它在做什么

关键函数

为什么这一格很重要

Cell 30：GRPOConfig(...)

重点参数

这些参数和前面 SFT 的差别

num_generations=4

remove_unused_columns=False

max_completion_length

Cell 33：GRPOTrainer(...)

这一格可以和 Chapter5 的 SFTTrainer(...) 直接对照

Cell 35：trainer.train()

前面 SFT 训练时

这里 GRPO 训练时

Cell 37：保存和 push

Cells 41-51：加载训练后模型并推理

Cell 41

Cell 45：generate_with_reasoning(prompt)

为什么这一步重要

Cells 47-51：查看推理效果

对零基础学生的意义

给零基础学生的最短总结

`fine_tuning_llm_grpo_trl.ipynb` 逐格说明

Cell 6：`notebook_login()`

Cell 14：`SYSTEM_PROMPT` 和 `make_conversation(...)`

`SYSTEM_PROMPT`

`make_conversation(example)`

Cell 24：`LoraConfig(...)`

`model.print_trainable_parameters()`

Cell 26：`format_reward(...)`

Cell 28：`accuracy_reward(...)`

Cell 30：`GRPOConfig(...)`

`num_generations=4`

`remove_unused_columns=False`

`max_completion_length`

Cell 33：`GRPOTrainer(...)`

这一格可以和 Chapter5 的 `SFTTrainer(...)` 直接对照

Cell 35：`trainer.train()`

Cell 45：`generate_with_reasoning(prompt)`