Qwen3-VL 视觉能力课堂演示说明

这组材料适合做什么

这是一套非常适合在课堂上做的“5 分钟可见效果”演示。
目标不是训练模型,而是让同学立刻看到:

最推荐的课堂演示顺序

第 1 步:先展示图片

先把下面这张图展示出来:

先不要讲模型,先问同学:

这样学生会先有一个心理预期。

第 2 步:再运行最小脚本

python3 0-qwen3-vl-demo.py examples/example.png

这一步的作用是告诉学生:

第 3 步:再换 prompt 做第二轮提问

例如:

python3 0-qwen3-vl-demo.py examples/example.png \
  --prompt "请描述这张图里的幽默点,并说明你的判断依据。"

这一步让学生看到:

第 4 步:最后用 notebook 展示代码细节

打开:

在 notebook 里,最适合做的不是重复跑同样例子,而是:

课堂上最适合问的 4 类问题

1. 物体识别类

2. 场景理解类

3. 细节观察类

4. 高层语义类

这组演示真正想让学生带走什么

  1. 多模态模型和纯文本模型的调用接口非常接近。
  2. 模型的“看图能力”本质上也是预训练能力的一部分。
  3. 图片进入模型后,并不是神秘黑盒;在工程上,它仍然表现为一个统一的输入接口。
  4. 只要本地模型能跑起来,课堂上就能做很多低成本、多反馈的视觉实验。