A5 (Alignment and Reasoning RL)

A5(Alignment and Reasoning RL)

围绕 “让小模型学会做数学推理”,从 零样本提示 → SFT(用强模型推理轨迹) → Expert Iteration(自生成+验证筛选) → GRPO(带verified reward的策略梯度) 一步步搭起完整的 reasoning post-training 流水线。

下面按“它到底做哪些任务”拆解。

0) 总目标与学生要交付什么

总体目标:在 MATH 数据集上提升 Qwen2.5-Math-1.5B Base 的解题正确率(用“答案解析器/验证奖励”判对错),并理解不同对齐/推理训练方法的差别。

必须实现的四件事(A5 Overview)

  1. Zero-shot prompting baseline(在 MATH 上测零样本)
  2. SFT:用更强 reasoning 模型(DeepSeek R1)的推理轨迹做监督微调
  3. Expert Iteration(EI / STaR风格):模型自己生成 CoT → 用 verified reward 筛出对的 → 再 SFT,迭代提升
  4. GRPO:Group-Relative Policy Optimization(带 verified rewards 的 policy gradient)进一步提升

1) Baseline:零样本 MATH 测评流水线(math_baseline,4分)

这一块要求你搭建评测框架:prompt → 批量生成 → 答案解析 → 统计并落盘。

核心任务

能力点:工程化评测(可复用评测函数 evaluate_vllm)、可审计日志、错误归因。

2) SFT:推理轨迹监督微调(SFT primitives + sft_experiment)

不让用 HF Trainer,要自己写训练循环;但允许用 Transformers 载入模型、做 forward。

2.1 SFT 训练所需的“基础组件实现”(多道小题)

这一段要求你写一系列训练与统计的基础函数(并配测试):

2.2 sft_experiment(2分,算力昂贵)

能力点:mask 训练、梯度累积、训练中可视化与样例日志;理解“坏轨迹会害人”,过滤能显著改善。

3) Expert Iteration(2分):自生成 → 验证筛选 → SFT 迭代

这部分实现并运行 Expert Iteration (EI)(类似 STaR):

运行要求(写在 experiment 题里):

能力点:把“验证奖励”当作自动标签器,实现自举;理解 rollout 多样性与筛选率的 trade-off。

4) GRPO:实现策略梯度训练 + 大量消融实验(核心)

A5 最重的部分是 GRPO:既要实现关键函数,又要跑一系列实验对比。

4.1 GRPO 关键实现题(从 advantage 到 loss 到 train loop)

4.2 GRPO 实验题(大量消融 + 目标更高)

能力点:完整 RLHF/RLAIF(verified reward 版)训练闭环、稳定性机制(baseline、clip、长度归一化)、on-policy vs off-policy 的系统/样本效率 trade-off、prompt 与训练分布匹配。

5) Leaderboard(16分):4小时内最大化验证准确率(强工程赛)

最后是一个“在固定时间预算内做最强”的挑战:

能力点:LLMOps + RL 系统工程:吞吐、并行、缓存、日志、早停与调参策略。

一句话总结:A5 的任务谱系