AutoDL 使用手册

这份手册讲的是 平台怎么用，不是 LoRA 代码本身怎么训练。
如果你要看课程代码实验，请另外看：

0-autodl-manual.md

本手册的目标只有一个：

让你能在 AutoDL 上稳定地创建实例、进入 JupyterLab、检查 GPU、找到课程目录、运行 notebook，并在训练后正确保存和关机。

一、这门课为什么统一使用 AutoDL

第 11 章后续要做 LoRA 微调实验。
如果每个人都在自己电脑上单独配环境，最常见的问题是：

CUDA 版本不一致
torch 和驱动不匹配
显存不足
Hugging Face 下载失败
VS Code / Jupyter 内核和 Python 环境不一致

因此课程实验统一放在 AutoDL 上做。
这样做的目的不是“所有人都上云”，而是：

先把实验流程稳定下来
再讨论模型、数据和训练策略

二、你真正需要会的 5 件事

创建 GPU 实例
正确加载课程镜像或课程目录
用 JupyterLab 和 Terminal 进入实验环境
检查 GPU、Python、Torch 和依赖包是否可用
训练结束后保存结果并关机

如果这 5 件事不会，后面微调本身很难做顺。

三、推荐 GPU 怎么选

预算有限可选

RTX 3080 12G
RTX 3060

选择原则

这门课的最小实验可以用较小 GPU 跑通
但如果后面要换更像真实课程模型的权重，24G 显存更稳
第一次实验优先目标不是“选最强 GPU”，而是“先把流程跑通”

四、课程镜像和课程目录怎么理解

如果老师已经共享了课程镜像，优先使用课程镜像。
如果你没有加载镜像，也至少要把课程目录准备好。

本仓库里的对应目录是：

ai-model/11/2-prog/autodl/course_lora-autodl

在 AutoDL 实例里，它可能被放在类似下面的位置：

/root/course_lora

或

/root/course_lora-autodl

不要死记路径，先在 Terminal 里确认：

pwd
ls
find /root -maxdepth 2 -type d | grep course_lora

课程里真正重要的是：

你要能找到 00_check_env.ipynb
你要能找到 01_lora_demo.ipynb
你要能找到 train_lora.py

五、第一次进入实例后，先做什么

建议按这个顺序：

第 1 步：打开 JupyterLab

进入实例页面，打开 JupyterLab。
通常默认工作目录在 /root。

第 2 步：打开 Terminal

先不要急着点 notebook，先在 Terminal 里运行：

pwd
ls
python --version
pip --version
nvidia-smi

第 3 步：检查 Torch 和 CUDA

python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'CPU only')"

第 4 步：找到课程目录

确认下列文件存在：

ls /root/course_lora

或你自己找到的课程目录：

ls <你的课程目录>

至少应看到：

00_check_env.ipynb
01_lora_demo.ipynb
02_eval_and_infer.ipynb
train_lora.py
run_train.sh

第 5 步：运行环境检查 notebook

先跑：

00_check_env.ipynb

它的作用不是训练，而是确认：

GPU 在不在
torch 能不能识别 CUDA
transformers / datasets / peft / accelerate 能不能导入

六、JupyterLab、Terminal、VS Code 各自负责什么

JupyterLab

适合：

第一次看 notebook
跑环境检查
跑最小示例
观察中间变量和输出

Terminal

适合：

看路径
安装依赖
执行脚本
看日志
后台运行训练任务

VS Code Remote-SSH

适合：

修改 .py 文件
批量改参数
写更长的代码

建议的课程顺序是：

先用 JupyterLab 跑通
再用 Terminal 跑脚本
最后需要时再接 VS Code

七、依赖怎么装

课程最小实验目录里已经给了：

requirements.txt

如果镜像中还没装好，可以在课程目录里执行：

pip install -r requirements.txt

这套最小实验主要依赖：

torch
transformers
datasets
peft
accelerate
trl
jupyterlab

如果其中某个包导入失败，先不要盲目重装整个环境，先确认：

你是不是在正确的 Python 环境里
你当前 notebook kernel 和 Terminal 的 Python 是否一致

八、文件放哪里更合理

AutoDL 上至少要区分三类位置：

1. 系统盘

适合放：

notebook
训练脚本
小样例
环境依赖

2. 数据盘

适合放：

大模型权重
大数据集
长时间保留的训练输出

3. 网盘

适合放：

长期归档文件

但不建议训练时直接依赖网盘读取大文件。

对这门课，建议：

代码和 notebook 放在课程目录
大模型与大输出尽量放在 /root/autodl-tmp/ 这类数据盘位置

九、训练时最常见的 4 类问题

1. `torch.cuda.is_available()` 是 `False`

先查：

你是不是租了 GPU 实例
nvidia-smi 是否正常
安装的 torch 是否是 CUDA 版本

2. 显存不足（OOM）

优先做这几件事：

减小 batch size
缩短 max_length
先换更小模型
先跑课程最小示例，不要直接上大模型

3. Hugging Face 下载失败

常见报错：

Network is unreachable
SSL 错误
连接超时

课程最小实验里已经给出了几种思路：

设置证书路径
使用 /etc/network_turbo
设置 HF_ENDPOINT=https://hf-mirror.com

但原则是：

先用老师已放好的本地模型
实在要下载，再按课程给的方法处理

4. 关掉网页后任务没了

如果训练时间长，不要只靠网页前台运行。
更稳的方式是用：

screen
tmux

最少也要学会在 Terminal 里看日志，而不是只盯着 notebook 页面。

十、上课前的最小检查清单

课前至少完成下面这些事：

成功创建实例
成功进入 JupyterLab
成功打开 Terminal
成功运行 nvidia-smi
成功运行 python --version
成功导入 torch
成功找到课程目录
成功打开 00_check_env.ipynb

如果这些都没完成，就不要直接跳到 LoRA 训练。

十一、结束后别忘了做什么

1. 保存结果

至少保存：

输出目录
训练日志
截图
你改过的脚本或 notebook

2. 记录问题

建议每次实验至少记 3 件事：

你改了什么参数
遇到了什么报错
你最后是怎么解决的

3. 关机

AutoDL 按实例开机时间计费。
如果实验结束不关机，就会继续计费。

十二、求助时怎么描述问题

如果你要在课程群里求助，请尽量一次性给全这些信息：

你用的 GPU 型号
你是否加载了课程镜像
当前工作目录是什么
报错截图
你执行的命令
nvidia-smi 输出
python -c "import torch; print(torch.__version__)" 输出

这样助教和老师才能快速判断问题是在：

平台层
环境层
代码层
模型下载层

十三、这份手册和实验手册怎么配合使用

推荐阅读顺序：

先看这份 0-autodl-use.md
- 解决平台、实例、目录、JupyterLab、Terminal 的问题
再看 0-autodl-manual.md
- 解决课程 LoRA 最小实验到底在做什么的问题

分清这两份文档，实验会顺很多：

0-autodl-use 负责“平台怎么用”
0-autodl-manual 负责“课程代码怎么跑”

AutoDL 使用手册

一、这门课为什么统一使用 AutoDL

二、你真正需要会的 5 件事

三、推荐 GPU 怎么选

推荐

预算有限可选

选择原则

四、课程镜像和课程目录怎么理解

五、第一次进入实例后，先做什么

第 1 步：打开 JupyterLab

第 2 步：打开 Terminal

第 3 步：检查 Torch 和 CUDA

第 4 步：找到课程目录

第 5 步：运行环境检查 notebook

六、JupyterLab、Terminal、VS Code 各自负责什么

JupyterLab

Terminal

VS Code Remote-SSH

七、依赖怎么装

八、文件放哪里更合理

1. 系统盘

2. 数据盘

3. 网盘

九、训练时最常见的 4 类问题

1. torch.cuda.is_available() 是 False

2. 显存不足（OOM）

3. Hugging Face 下载失败

4. 关掉网页后任务没了

十、上课前的最小检查清单

十一、结束后别忘了做什么

1. 保存结果

2. 记录问题

3. 关机

十二、求助时怎么描述问题

十三、这份手册和实验手册怎么配合使用

1. `torch.cuda.is_available()` 是 `False`