Qwen3-VL 视觉能力课堂演示说明

这组材料适合做什么

这是一套非常适合在课堂上做的“5 分钟可见效果”演示。
目标不是训练模型，而是让同学立刻看到：

预训练好的多模态模型已经具备视觉理解能力
本地模型不仅能聊天，也能看图
图片、文本和推理可以进入同一个接口

最推荐的课堂演示顺序

第 1 步：先展示图片

先把下面这张图展示出来：

examples/example.png

先不要讲模型，先问同学：

“你觉得模型能从这张图里看出什么？”

这样学生会先有一个心理预期。

第 2 步：再运行最小脚本

python3 0-qwen3-vl-demo.py examples/example.png

这一步的作用是告诉学生：

视觉模型的调用接口和文本模型非常像
只是多传了一张图片

第 3 步：再换 prompt 做第二轮提问

例如：

python3 0-qwen3-vl-demo.py examples/example.png \
  --prompt "请描述这张图里的幽默点，并说明你的判断依据。"

这一步让学生看到：

模型不是只会“识别物体”
还会尝试理解更高层的语义

第 4 步：最后用 notebook 展示代码细节

打开：

0-qwen3-vl-demo.ipynb

在 notebook 里，最适合做的不是重复跑同样例子，而是：

展示图片是怎样变成 base64 的
展示请求体里 messages + images 的结构
修改 prompt，看输出如何变化

课堂上最适合问的 4 类问题

1. 物体识别类

“图里有什么物体？”
“这更像室内还是室外？”

2. 场景理解类

“这张图大概是什么场景？”
“图片里的人或物可能在做什么？”

3. 细节观察类

“请给出三个你最有把握的视觉细节。”
“图里最显眼的元素是什么？”

4. 高层语义类

“这张图的幽默点在哪里？”
“这张图想表达什么信息？”

这组演示真正想让学生带走什么

多模态模型和纯文本模型的调用接口非常接近。
模型的“看图能力”本质上也是预训练能力的一部分。
图片进入模型后，并不是神秘黑盒；在工程上，它仍然表现为一个统一的输入接口。
只要本地模型能跑起来，课堂上就能做很多低成本、多反馈的视觉实验。