这份手册讲的是 平台怎么用,不是 LoRA 代码本身怎么训练。
如果你要看课程代码实验,请另外看:
本手册的目标只有一个:
第 11 章后续要做 LoRA 微调实验。
如果每个人都在自己电脑上单独配环境,最常见的问题是:
torch 和驱动不匹配因此课程实验统一放在 AutoDL 上做。
这样做的目的不是“所有人都上云”,而是:
如果这 5 件事不会,后面微调本身很难做顺。
RTX 4090 24GRTX 3090 24GRTX 3080 12GRTX 306024G 显存更稳如果老师已经共享了课程镜像,优先使用课程镜像。
如果你没有加载镜像,也至少要把课程目录准备好。
本仓库里的对应目录是:
ai-model/11/2-prog/autodl/course_lora-autodl在 AutoDL 实例里,它可能被放在类似下面的位置:
/root/course_lora或
/root/course_lora-autodl不要死记路径,先在 Terminal 里确认:
pwd
ls
find /root -maxdepth 2 -type d | grep course_lora课程里真正重要的是:
00_check_env.ipynb01_lora_demo.ipynbtrain_lora.py建议按这个顺序:
进入实例页面,打开 JupyterLab。
通常默认工作目录在 /root。
先不要急着点 notebook,先在 Terminal 里运行:
pwd
ls
python --version
pip --version
nvidia-smipython -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'CPU only')"确认下列文件存在:
ls /root/course_lora或你自己找到的课程目录:
ls <你的课程目录>至少应看到:
00_check_env.ipynb01_lora_demo.ipynb02_eval_and_infer.ipynbtrain_lora.pyrun_train.sh先跑:
00_check_env.ipynb它的作用不是训练,而是确认:
torch 能不能识别 CUDAtransformers / datasets / peft / accelerate 能不能导入适合:
适合:
适合:
.py 文件建议的课程顺序是:
课程最小实验目录里已经给了:
requirements.txt如果镜像中还没装好,可以在课程目录里执行:
pip install -r requirements.txt这套最小实验主要依赖:
torchtransformersdatasetspeftacceleratetrljupyterlab如果其中某个包导入失败,先不要盲目重装整个环境,先确认:
AutoDL 上至少要区分三类位置:
适合放:
适合放:
适合放:
但不建议训练时直接依赖网盘读取大文件。
对这门课,建议:
/root/autodl-tmp/ 这类数据盘位置torch.cuda.is_available() 是 False先查:
nvidia-smi 是否正常torch 是否是 CUDA 版本优先做这几件事:
batch sizemax_length常见报错:
Network is unreachable课程最小实验里已经给出了几种思路:
/etc/network_turboHF_ENDPOINT=https://hf-mirror.com但原则是:
如果训练时间长,不要只靠网页前台运行。
更稳的方式是用:
screentmux最少也要学会在 Terminal 里看日志,而不是只盯着 notebook 页面。
课前至少完成下面这些事:
nvidia-smipython --versiontorch00_check_env.ipynb如果这些都没完成,就不要直接跳到 LoRA 训练。
至少保存:
建议每次实验至少记 3 件事:
AutoDL 按实例开机时间计费。
如果实验结束不关机,就会继续计费。
如果你要在课程群里求助,请尽量一次性给全这些信息:
nvidia-smi 输出python -c "import torch; print(torch.__version__)" 输出这样助教和老师才能快速判断问题是在:
推荐阅读顺序:
0-autodl-use.md
0-autodl-manual.md
分清这两份文档,实验会顺很多:
0-autodl-use 负责“平台怎么用”0-autodl-manual 负责“课程代码怎么跑”