`download-model.ipynb` 说明文档

这份 notebook 的任务非常单纯：

把课程实验要用的 tiny-gpt2 下载到本地目录

它和 00_check_env.ipynb 的后半部分其实是同一类工作，只是这里把“下载模型”单独拿出来了。

如果你已经在课程镜像里看到了：

/root/course_lora/models/tiny-gpt2

那通常就不用再重复运行这份 notebook。

所以它更像：

备用下载脚本
模型缺失时的恢复方案

一、这份 notebook 在整个实验里的位置

你可以这样理解：

00_check_env.ipynb
- 检查环境是否正常
download-model.ipynb
- 如果本地没有模型，就把模型补齐
01_lora_demo.ipynb
- 正式开始 LoRA 微调

也就是说，这份 notebook 并不直接训练模型，它只是准备训练所需的本地权重。

二、Cell 0：开场说明

# 下载模型

### tiny-gpt2 模型已经下载到了 /root/course_lora/models/tiny-gpt2 下面，不需要再下载了哈。

这一格其实已经把最重要的信息告诉你了：

默认情况下，模型已经在本地
所以这份 notebook 不是每次都要跑

如果你本地已经有：

config.json
model.safetensors
tokenizer.json

那你通常可以跳过这份 notebook。

三、Cell 1：设置证书路径

代码：

# 设置证书，访问 HuggingFace
# 命令行：ind /etc/ssl /usr/local/share/ca-certificates /etc/ca-certificates -type f \( -name "*.crt" -o -name "*.pem" \) 2>/dev/null | head -50

import os

ca_path = "/etc/ssl/certs/ca-certificates.crt"   # 改成你实际找到的路径
os.environ["REQUESTS_CA_BUNDLE"] = ca_path
os.environ["CURL_CA_BUNDLE"] = ca_path
os.environ["SSL_CERT_FILE"] = ca_path

print("CA bundle set to:", ca_path)

这一格在做什么

它在解决：

下载 Hugging Face 模型时可能出现的 SSL 证书错误

逐行解释

`import os`

导入 os 模块，用来设置环境变量。

`ca_path = "/etc/ssl/certs/ca-certificates.crt"`

指定系统证书文件的位置。

如果你的系统不是这个路径，就需要改成真正存在的证书路径。

`os.environ["REQUESTS_CA_BUNDLE"] = ca_path`

告诉 requests 去哪里找证书。

`os.environ["CURL_CA_BUNDLE"] = ca_path`

告诉 curl 去哪里找证书。

`os.environ["SSL_CERT_FILE"] = ca_path`

告诉更底层的 SSL 组件去哪里找证书。

`print("CA bundle set to:", ca_path)`

打印当前设置，方便检查。

这一格什么时候重要

如果你看到这类报错，它就非常重要：

certificate verify failed
SSL error

如果下载本来就正常，这一格通常不会带来额外问题。

四、Cell 2：加载代理环境变量

代码：

# 设置科学上网，访问 Github 和 HuggingFace
# 命令行：/etc/network_turbo

import subprocess
import os

result = subprocess.run(
    'bash -c "source /etc/network_turbo && env | grep proxy"',
    shell=True,
    capture_output=True,
    text=True
)

for line in result.stdout.splitlines():
    if '=' in line:
        var, value = line.split('=', 1)
        os.environ[var] = value

print("Proxy variables loaded:")
for k in ["http_proxy", "https_proxy", "HTTP_PROXY", "HTTPS_PROXY"]:
    print(k, os.environ.get(k))

这一格在做什么

它在尝试把系统里已有的代理配置读进当前 notebook。

目的就是：

让 GitHub / Hugging Face 的访问更顺畅

逐行解释

`import subprocess`

导入 Python 的系统命令执行模块。

`result = subprocess.run(...)`

运行下面这段 shell 命令：

bash -c "source /etc/network_turbo && env | grep proxy"

它的意思是：

读取 /etc/network_turbo
把里面可能设置的代理环境变量激活
筛出和 proxy 有关的项

`shell=True`

说明传入的是整段 shell 命令。

`capture_output=True`

抓取命令输出，方便后面在 Python 里处理。

`text=True`

把输出按字符串处理，而不是字节流。

`for line in result.stdout.splitlines():`

按行遍历命令输出。

`if '=' in line:`

只有包含 = 的行，才像环境变量赋值。

`var, value = line.split('=', 1)`

把一行拆成：

变量名
变量值

`os.environ[var] = value`

把这些代理变量写进当前 Python 进程。

`print(k, os.environ.get(k))`

把几个常见代理变量打印出来，方便确认是否真的加载到了。

这一格什么时候有用

如果模型下载经常超时、连接失败、访问不到 Hugging Face，它就很有帮助。

五、Cell 3：设置 Hugging Face 镜像站

代码：

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

这一格在做什么

它告诉 Hugging Face 相关下载逻辑：

优先走镜像站

为什么重要

在国内网络环境下，直接访问 Hugging Face 官方站点有时不稳定。
这一步是在做最简单的“下载入口替换”。

逐行解释

`os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"`

设置环境变量 HF_ENDPOINT，让后续 from_pretrained(...) 优先用镜像地址。

六、Cell 4：真正下载模型并保存到本地

代码：

# 下载模型，存到本地。

from transformers import AutoTokenizer

model_name = "sshleifer/tiny-gpt2"
save_dir = "/root/course_lora/models/tiny-gpt2"

tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.save_pretrained(save_dir)

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(model_name)
model.save_pretrained(save_dir)

这一格在做什么

这格开始真正下载模型资源，并把它们保存到本地。

它做了两件事：

下载 tokenizer 并保存
下载模型权重并保存

逐行解释

`from transformers import AutoTokenizer`

导入自动 tokenizer 加载器。

`model_name = "sshleifer/tiny-gpt2"`

指定模型名字。

这里选的是非常小的 tiny-gpt2，目的不是训练强模型，而是：

快速验证下载与后续训练链路

`save_dir = "/root/course_lora/models/tiny-gpt2"`

定义本地保存目录。

后面课程 notebook 都默认从这个目录读模型。

`tokenizer = AutoTokenizer.from_pretrained(model_name)`

从 Hugging Face 加载 tokenizer。

`tokenizer.save_pretrained(save_dir)`

把 tokenizer 保存到本地目录。

`from transformers import AutoModelForCausalLM`

导入因果语言模型类。

`model = AutoModelForCausalLM.from_pretrained(model_name)`

从 Hugging Face 加载模型权重。

`model.save_pretrained(save_dir)`

把模型权重保存到本地。

跑完这格后，你应该看到什么

在 save_dir 里，通常会看到类似文件：

config.json
generation_config.json
model.safetensors
tokenizer.json
tokenizer_config.json

这说明：

模型和 tokenizer 已经完整落到本地

七、Cell 5 和 Cell 6：空白格

这两格是空的，没有实际作用，可以忽略。

八、这份 notebook 真正想让你理解什么

大模型实验里，“下载模型”本身就是一个独立步骤
模型下载失败，很多时候不是模型问题，而是：
- 证书
- 代理
- 镜像
tokenizer 和 model 都要保存到本地，后续实验才能更稳

九、什么时候需要运行这份 notebook

只有在下面这些情况，你才需要主动跑它：

本地 tiny-gpt2 目录不存在
模型文件被删了
你换了新实例，没有课程镜像
你想重新下载一份干净的最小模型

如果本地模型已经在，而且后面 notebook 能正常加载，那就可以跳过这份 notebook。

download-model.ipynb 说明文档

一、这份 notebook 在整个实验里的位置

二、Cell 0：开场说明

三、Cell 1：设置证书路径

这一格在做什么

逐行解释

import os

ca_path = "/etc/ssl/certs/ca-certificates.crt"

os.environ["REQUESTS_CA_BUNDLE"] = ca_path

os.environ["CURL_CA_BUNDLE"] = ca_path

os.environ["SSL_CERT_FILE"] = ca_path

print("CA bundle set to:", ca_path)

这一格什么时候重要

四、Cell 2：加载代理环境变量

这一格在做什么

逐行解释

import subprocess

result = subprocess.run(...)

shell=True

capture_output=True

text=True

for line in result.stdout.splitlines():

if '=' in line:

var, value = line.split('=', 1)

os.environ[var] = value

print(k, os.environ.get(k))

这一格什么时候有用

五、Cell 3：设置 Hugging Face 镜像站

这一格在做什么

为什么重要

逐行解释

os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

六、Cell 4：真正下载模型并保存到本地

这一格在做什么

逐行解释

from transformers import AutoTokenizer

model_name = "sshleifer/tiny-gpt2"

save_dir = "/root/course_lora/models/tiny-gpt2"

tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer.save_pretrained(save_dir)

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(model_name)

model.save_pretrained(save_dir)

跑完这格后，你应该看到什么

七、Cell 5 和 Cell 6：空白格

八、这份 notebook 真正想让你理解什么

九、什么时候需要运行这份 notebook

`download-model.ipynb` 说明文档

`import os`

`ca_path = "/etc/ssl/certs/ca-certificates.crt"`

`os.environ["REQUESTS_CA_BUNDLE"] = ca_path`

`os.environ["CURL_CA_BUNDLE"] = ca_path`

`os.environ["SSL_CERT_FILE"] = ca_path`

`print("CA bundle set to:", ca_path)`

`import subprocess`

`result = subprocess.run(...)`

`shell=True`

`capture_output=True`

`text=True`

`for line in result.stdout.splitlines():`

`if '=' in line:`

`var, value = line.split('=', 1)`

`os.environ[var] = value`

`print(k, os.environ.get(k))`

`os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"`

`from transformers import AutoTokenizer`

`model_name = "sshleifer/tiny-gpt2"`

`save_dir = "/root/course_lora/models/tiny-gpt2"`

`tokenizer = AutoTokenizer.from_pretrained(model_name)`

`tokenizer.save_pretrained(save_dir)`

`from transformers import AutoModelForCausalLM`

`model = AutoModelForCausalLM.from_pretrained(model_name)`

`model.save_pretrained(save_dir)`