`trl_grpo_reasoning_advanced_reward.ipynb` 逐格说明

这份 notebook 是上一份基础 GRPO notebook 的升级版。
如果前一份在回答：

GRPO 训练最小闭环长什么样？

那么这一份在回答：

如果只靠一个 reward 不够，怎样把 RL 后训练做成一个更完整的系统？

和前面课程的对应关系

和 course_lora_qwen_src 对照：输入格式、LoRA、tokenizer 这些基础骨架还在
和 Chapter5 对照：训练器从 SFTTrainer 变成 GRPOTrainer
和上一份 GRPO notebook 对照：奖励系统从“两个简单 reward”升级到“多奖励组合”

Cells 1-3：安装依赖

!pip install transformers datasets trl bitsandbytes peft trackio

新增的关键包

bitsandbytes
- 做 4-bit 量化
trackio
- 跟踪实验过程

这说明这份 notebook 比上一份更工程化：

不只训练
还要节省显存
还要记录实验

Cell 5：GPU 环境检测

这一格的作用和前面 00_check_env.ipynb 很像：

检查有没有 CUDA
看 GPU 数量
看显存

为什么这一步在高级版里更重要

因为这份 notebook 用的是：

3B 模型
4-bit 量化
多奖励 GRPO

如果 GPU 条件不够，很容易直接 OOM。

Cell 7：导入核心库

这格把整个系统用到的组件一次性摆出来。

初学者可以分组记

模型相关

AutoModelForCausalLM
AutoTokenizer
BitsAndBytesConfig

RL 训练相关

GRPOConfig
GRPOTrainer

LoRA 相关

LoraConfig
get_peft_model

数据相关

load_dataset

跟踪相关

trackio

为什么这格看起来比前面的 notebook 更复杂

因为你现在已经进入：

大一点的模型
更复杂的奖励系统
更完整的实验追踪

Cells 9-11：模型选择与量化加载

Cell 9：模型名和最大序列长度

model_name = "Qwen/Qwen2.5-3B-Instruct"
max_seq_length = 2048

和前面最小实验的对照

前面最小实验：Qwen2.5-0.5B-Instruct
这里：Qwen2.5-3B-Instruct

模型明显更大，所以后面必须引入量化。

Cell 10：`BitsAndBytesConfig(...)`

这格和 Chapter2 可以直接对照。

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)

你应该重点记住什么

load_in_4bit=True
- 说明要用 4-bit 量化加载模型
nf4
- 是比较适合神经网络权重的一种 4-bit 量化方式
compute_dtype=torch.float16
- 真正计算时仍然用半精度浮点

为什么这很关键

3B 模型如果完全按普通方式加载，很多普通教学 GPU 很难稳跑。
量化是让它“装得下”的第一步。

Cell 11：加载量化模型和 tokenizer

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.float16,
)

这一格和前面 Qwen 最小实验怎样对照

你们前面写的是：

不量化
手动选 bf16 / fp16

这里是：

先量化成 4-bit
再为非量化部分指定 torch.float16

`device_map="auto"`

表示让 Hugging Face 自动决定模型放到哪里：

GPU
CPU
多卡分布

`pad_token`

这一格仍然保留了和前面一致的修补逻辑：

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

说明到了 RL 阶段，这些 tokenizer 基本功仍然没有消失。

Cell 13：LoRA 配置

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.1,
    bias="none",
    task_type=TaskType.CAUSAL_LM,
)

和前面基础 GRPO notebook 对照

配置很接近，但这里把参数说明写得更清楚了。

为什么还是 LoRA

因为即使进入 RL 后训练：

全参数训练仍然太贵
LoRA 仍然是最实用的轻量方案

这正是第 13 章最想让学生建立的感觉：

SFT 和 RL 后训练并不是两条完全无关的路，它们共享同一套“量化 + LoRA + tokenizer + 生成”的骨架。

Cells 15-17：数据格式和 GSM8K

Cell 15：定义结构化输出格式

这里定义了一组标记：

<start_working_out>
<end_working_out>
<SOLUTION>
</SOLUTION>

为什么这和上一份 notebook 不同

上一份用的是：

<think>
<answer>

这一份改成了另一套标签，但本质没变：

奖励系统需要可解析的结构

Cell 16：数据处理函数

`extract_hash_answer(text)`

GSM8K 的标准答案里常常带 #### 42 这种结构。
这个函数的作用就是把最终数值提出来。

`process_dataset_example(example)`

把原始 GSM8K 样本转成：

prompt
answer

其中 prompt 仍然是标准 chat 结构：

[
  {"role": "system", "content": system_prompt},
  {"role": "user", "content": question},
]

这和前面课程如何互相印证

说明即使到了 RL 后训练：

chat prompt 仍然是输入骨架
reward 只是加在输出评价层

Cell 17：加载并处理 GSM8K

dataset = load_dataset("openai/gsm8k", "main", split="train")
dataset = dataset.map(process_dataset_example)

这里初学者最值得看什么

先看一条样本结构
看 prompt 里到底有几条消息
看 answer 是什么格式

这一步和前面所有“先 print 一条样本再训练”的习惯完全一致。

Cells 19-23：多奖励系统

这是整份 notebook 最核心的部分。

Cell 19：预编译 regex

这里先把格式匹配规则编好：

一个 regex 用来检查整体格式
一个 regex 用来抽取答案里的数字

为什么先预编译

因为 reward function 会被反复调用。
先编译好 regex，后面计算更快、更清楚。

Cell 20：`match_format_exactly`

这个 reward 最严格。

逻辑

输出完全符合指定格式：给高分
否则不给分

它的作用是：

强力推动模型学会“输出框架”

Cell 21：`match_format_approximately`

这是一个更温和的 reward。

逻辑

不是“全对才给分”，而是：

每个标签都单独计分
对一个给一点正分
少一个或多一个就扣一点

为什么要这样设计

因为如果只有严格格式 reward，模型在早期很可能几乎一直拿不到分。
而这种“部分奖励”能给它更平滑的学习信号。

Cell 22：`check_answer_correctness`

这是内容正确性的主 reward。

分级打分

完全对：3.0
接近：1.5 或 0.5
错得比较多：-0.5

为什么不是只有对 / 错

因为推理任务里，“接近正确”有时也值得给一点正反馈。
这比单纯的 0/1 reward 更柔和。

Cell 23：`check_numbers_extraction`

这个 reward 不直接看答案全不全对，而是看：

模型有没有把最终数值正确抽出来

它为什么有价值

因为推理输出里经常会出现这种情况：

推理过程写得很多
最终答案部分格式不稳定

这个 reward 就是在单独奖励“把最终数值说清楚”这件事。

Cells 25-28：训练配置和跟踪

Cell 25：`GRPOConfig(...)`

这格是高级版训练的总配置中心。

重点参数

learning_rate=5e-6
per_device_train_batch_size=2
gradient_accumulation_steps=8
max_prompt_length=1024
max_completion_length=1024
max_steps=10
max_grad_norm=0.1
report_to="trackio"

初学者最该看懂的几项

`gradient_accumulation_steps=8`

和前面 Qwen 最小实验完全同类：

单步 batch 不大
但通过梯度累积形成更大的有效 batch

`max_prompt_length` / `max_completion_length`

这两项在 RL 后训练里特别重要，因为：

prompt 太长会吃显存
completion 太长会让生成成本飙升

`max_grad_norm=0.1`

这是梯度裁剪。
RL 训练比普通 SFT 更容易不稳定，所以这里更强调控制梯度爆炸。

Cell 26：`trackio.init(...)`

这一格是在做实验追踪初始化。

它记录什么

模型名
数据集
LoRA 配置
学习率
batch size
reward 系统数量

为什么这一步值得学生形成感觉

因为从这一格开始，RL 后训练明显更像“实验系统工程”了，而不只是一个 notebook。

Cell 28：`GRPOTrainer(...)`

trainer = GRPOTrainer(
    model=model,
    reward_funcs=[
        match_format_exactly,
        match_format_approximately,
        check_answer_correctness,
        check_numbers_extraction,
    ],
    args=training_args,
    train_dataset=dataset,
)

这一格最值得看什么

你现在可以明显看到：

模型还是 LoRA-adapted Qwen
数据还是 chat prompt
但训练信号已经从“标签”变成了“4 个 reward function 的组合”

这就是这份 notebook 的真正升级点。

Cell 30：开始训练

这里打印了很多提示：

监控 reward
监控 KL divergence
监控 policy gradient

初学者最该知道什么

到了 RL 阶段，训练监控比 SFT 更重要。
因为：

loss 不再像监督学习那样直观
reward 曲线、KL 曲线、生成行为都要一起看

Cells 32-35：可视化和测试

Cell 32：`trackio.show(...)`

启动可视化仪表盘。

它的作用

帮助你看：

reward 有没有升
loss 怎么变
学习率和梯度状态怎样

Cell 34：`test_model(...)`

这个函数和前面 Qwen 最小实验的推理函数非常像，只是多了更细的生成参数。

关键参数

temperature=0.7
do_sample=True
top_p=0.9
repetition_penalty=1.1

为什么 RL 推理更强调这些参数

因为 reasoning 输出往往不是一个固定短答案，而是：

一段推理过程
再接最终结果

生成参数会明显影响输出质量和稳定性。

Cell 35：测试一个 GSM8K 题目

这一格在做最终人工检查：

格式有没有对
reasoning section 有没有出现
solution section 有没有出现
提取出的答案对不对

这一步为什么非常重要

因为多奖励训练的目标，最终必须回到“输出行为是否变好了”。

Cells 37-39：清理资源

`remove_trackio_project(...)`

删掉本地 trackio 数据库，避免缓存占太多空间。

`torch.cuda.empty_cache()` 和 `gc.collect()`

这是训练后清理 GPU 和 Python 内存的标准习惯。

这也说明：

RL notebook 更像真实长期实验
资源管理要更加认真

给零基础学生的最短总结

这份 notebook 仍然沿用“量化 + LoRA + chat prompt”这条主线
真正升级的地方在于：reward 不再只有一个，而是形成了多奖励系统
多奖励系统的目标，是把“格式正确”“答案正确”“可抽取答案”等行为一起塑造出来
从这一步开始，RL 后训练更像一个完整实验系统，而不只是一个最小可运行示例

trl_grpo_reasoning_advanced_reward.ipynb 逐格说明