AutoDL 使用手册

这份手册讲的是 平台怎么用,不是 LoRA 代码本身怎么训练。
如果你要看课程代码实验,请另外看:

本手册的目标只有一个:


一、这门课为什么统一使用 AutoDL

第 11 章后续要做 LoRA 微调实验。
如果每个人都在自己电脑上单独配环境,最常见的问题是:

因此课程实验统一放在 AutoDL 上做。
这样做的目的不是“所有人都上云”,而是:


二、你真正需要会的 5 件事

  1. 创建 GPU 实例
  2. 正确加载课程镜像或课程目录
  3. 用 JupyterLab 和 Terminal 进入实验环境
  4. 检查 GPU、Python、Torch 和依赖包是否可用
  5. 训练结束后保存结果并关机

如果这 5 件事不会,后面微调本身很难做顺。


三、推荐 GPU 怎么选

推荐

预算有限可选

选择原则


四、课程镜像和课程目录怎么理解

如果老师已经共享了课程镜像,优先使用课程镜像。
如果你没有加载镜像,也至少要把课程目录准备好。

本仓库里的对应目录是:

ai-model/11/2-prog/autodl/course_lora-autodl

在 AutoDL 实例里,它可能被放在类似下面的位置:

/root/course_lora

/root/course_lora-autodl

不要死记路径,先在 Terminal 里确认:

pwd
ls
find /root -maxdepth 2 -type d | grep course_lora

课程里真正重要的是:


五、第一次进入实例后,先做什么

建议按这个顺序:

第 1 步:打开 JupyterLab

进入实例页面,打开 JupyterLab
通常默认工作目录在 /root

第 2 步:打开 Terminal

先不要急着点 notebook,先在 Terminal 里运行:

pwd
ls
python --version
pip --version
nvidia-smi

第 3 步:检查 Torch 和 CUDA

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'CPU only')"

第 4 步:找到课程目录

确认下列文件存在:

ls /root/course_lora

或你自己找到的课程目录:

ls <你的课程目录>

至少应看到:

第 5 步:运行环境检查 notebook

先跑:

00_check_env.ipynb

它的作用不是训练,而是确认:


六、JupyterLab、Terminal、VS Code 各自负责什么

JupyterLab

适合:

Terminal

适合:

VS Code Remote-SSH

适合:

建议的课程顺序是:

  1. 先用 JupyterLab 跑通
  2. 再用 Terminal 跑脚本
  3. 最后需要时再接 VS Code

七、依赖怎么装

课程最小实验目录里已经给了:

requirements.txt

如果镜像中还没装好,可以在课程目录里执行:

pip install -r requirements.txt

这套最小实验主要依赖:

如果其中某个包导入失败,先不要盲目重装整个环境,先确认:


八、文件放哪里更合理

AutoDL 上至少要区分三类位置:

1. 系统盘

适合放:

2. 数据盘

适合放:

3. 网盘

适合放:

但不建议训练时直接依赖网盘读取大文件。

对这门课,建议:


九、训练时最常见的 4 类问题

1. torch.cuda.is_available()False

先查:

2. 显存不足(OOM)

优先做这几件事:

3. Hugging Face 下载失败

常见报错:

课程最小实验里已经给出了几种思路:

但原则是:

4. 关掉网页后任务没了

如果训练时间长,不要只靠网页前台运行。
更稳的方式是用:

最少也要学会在 Terminal 里看日志,而不是只盯着 notebook 页面。


十、上课前的最小检查清单

课前至少完成下面这些事:

如果这些都没完成,就不要直接跳到 LoRA 训练。


十一、结束后别忘了做什么

1. 保存结果

至少保存:

2. 记录问题

建议每次实验至少记 3 件事:

3. 关机

AutoDL 按实例开机时间计费。
如果实验结束不关机,就会继续计费。


十二、求助时怎么描述问题

如果你要在课程群里求助,请尽量一次性给全这些信息:

  1. 你用的 GPU 型号
  2. 你是否加载了课程镜像
  3. 当前工作目录是什么
  4. 报错截图
  5. 你执行的命令
  6. nvidia-smi 输出
  7. python -c "import torch; print(torch.__version__)" 输出

这样助教和老师才能快速判断问题是在:


十三、这份手册和实验手册怎么配合使用

推荐阅读顺序:

  1. 先看这份 0-autodl-use.md
  2. 再看 0-autodl-manual.md

分清这两份文档,实验会顺很多: