AutoDL LoRA 最小实验手册

这份手册对应目录：

11/2-prog/autodl/course_lora-autodl

它不是“大模型正式训练方案”，而是第 11 章的最小 LoRA 微调闭环。目标只有一个：

在 AutoDL 上把“环境检查 -> 数据读取 -> LoRA 训练 -> 保存 adapter -> 加载推理”完整跑通。

如果你已经跑通一次，说明你已经掌握了后续课程实验最重要的第一步：先验证流程，再升级模型与数据。

一、这份实验和课程内容怎么对应

它对应第 11 章里讲的四件事：

用已有因果语言模型做微调，而不是从零训练模型
用 LoRA 只训练少量新增参数，而不是全参数更新
用 instruction / input / output 三段式样例构造最小监督数据
训练后保存 adapter，并重新加载做推理验证

这正是课上“预训练模型 + PEFT + 最小数据闭环”的落地版本。

二、目录里每个文件在做什么

00_check_env.ipynb
- 检查 Python、torch、CUDA、GPU、依赖包是否可用
- 还给出 Hugging Face 访问、证书和镜像的最小设置方法
01_lora_demo.ipynb
- 用一个极小数据集跑通 LoRA 微调
- 核心是把 instruction / input / output 拼成文本，再交给 Trainer
02_eval_and_infer.ipynb
- 读取训练后的 adapter
- 在 base model 上挂载 LoRA 权重，做简单生成测试
train_lora.py
- notebook 版流程的命令行脚本化版本
- 适合从“课堂演示”过渡到“工程化运行”
run_train.sh
- 一个最小启动脚本
- 本质上只是把 train_lora.py 的关键参数写成固定命令

三、真实训练链路是什么

这套代码的真实流程很清楚：

读取 data/sample_train.json 和 data/sample_val.json
用 build_text() 把每条样例拼成：

Instruction: ...
Input: ...
Response: ...

用 tokenizer 做 truncation + padding="max_length"，默认 max_length=128
加载 AutoModelForCausalLM
用 LoraConfig(r=8, lora_alpha=16, lora_dropout=0.05) 包装模型
用 DataCollatorForLanguageModeling(mlm=False) 做因果语言模型训练
用 Trainer 跑 1 epoch 的最小训练
把 adapter 和 tokenizer 保存到 outputs/...
在 02_eval_and_infer.ipynb 中重新加载并生成文本

从教学上看，这个链路很合理，因为它把第 11 章最重要的“最小可运行闭环”完整保留下来了。

四、这份实验的优点

模型很小：默认是 tiny-gpt2
数据很小：只有几条改写类样例
参数很少：LoRA 只训练少量新增参数
跑得快：适合第一次课先验证平台和代码流程
结构清楚：notebook 版和脚本版一一对应

所以它很适合作为：

第一次上机
AutoDL 平台入门
LoRA 概念的最小验证

五、这份实验没有做什么

这点要和学生讲清楚。

它没有做下面这些更真实的大模型工程步骤：

没有使用真正的课程大模型，只用了 tiny-gpt2
没有用 4-bit / 8-bit 量化
没有显式设置 target_modules
没有用 SFTTrainer
没有用 chat template
没有做 instruction masking
没有做严格评测，只做了最小推理验证

因此它的定位不是：

“做出高质量模型”

而是：

“把 LoRA 微调的工程闭环先跑通”

六、建议学生怎么用

建议顺序：

先跑 00_check_env.ipynb
再跑 01_lora_demo.ipynb
然后跑 02_eval_and_infer.ipynb
最后再看 train_lora.py 和 run_train.sh

这样学生会形成一条很清楚的迁移路径：

先在 notebook 里看懂
再在脚本里看懂
最后再替换模型、数据和参数

七、学生在这次实验里应该重点观察什么

1. 数据格式

这套代码不是直接喂 instruction / input / output 三个字段，而是先拼成一段文本。
这能帮助学生理解：

大模型微调最终仍然是在学 token 序列预测

2. LoRA 的位置

get_peft_model(model, lora_config) 是整个实验的核心。
学生要知道：

我们没有改训练目标
只是把“哪些参数可训练”这件事改了

3. 输出目录

训练结束后保存的不是一整个新模型，而是：

adapter 权重
adapter 配置
tokenizer

这正是第 11 章里“LoRA 保存的是增量参数”的最好例子。

4. 推理验证

02_eval_and_infer.ipynb 的作用不是追求好结果，而是确认：

adapter 能被正确加载
base model + adapter 的组合能完成生成

八、建议课堂上强调的结论

第一次 LoRA 实验，不要先追求大模型，要先追求“全流程跑通”。
跑通最小例子之后，才有资格讨论更大的模型、更长的上下文和更复杂的数据。
这份实验最重要的成果不是生成质量，而是你真正理解了：
- 数据怎么进来
- 参数怎么被改
- adapter 怎么保存
- 推理怎么重新接起来

九、下一步怎么升级

在这份最小实验跑通之后，后续升级可以按这个顺序做：

把 tiny-gpt2 换成课程指定的小型 instruction model
把样例数据换成更像真实任务的数据
显式加入量化
显式指定 target_modules
从 Trainer 升级到 SFTTrainer
增加更可靠的验证与评测

这条升级路线，正好对应第 11 章从“概念验证”走向“真实大模型微调”的课程主线。