多模态大模型：视觉理解与提示设计课堂作业

作业定位

这份作业直接接在 21/2-prog 的课堂练习之后完成。
你不需要训练模型，而是要基于现成的本地多模态模型，亲手观察：

模型能看出什么
模型看不准什么
Prompt 怎样影响它调出来的能力层次

建议使用：

21/2-prog/0-qwen3-vl-demo.ipynb
21/2-prog/0-qwen3-vl-demo.sh

作业目标

围绕 同一组图片，设计一套从浅到深的视觉提问，并分析模型在不同问题类型下的表现差异。

这份作业最重要的不是“让模型答对”，而是让你看清：

多模态模型的强项
多模态模型的边界
多模态 Prompt 的作用

作业任务

请至少准备 3 张图片，其中 至少 1 张必须和你的专业 / 课题方向直接相关。

推荐组合是：

一张自然场景图
一张带文字的图片
例如海报、截图、菜单、PPT 页面、路牌
一张本专业相关图片
例如信号波形图、频谱图、时频图、通信设备照片、实验平台截图、仪器面板、系统结构图、项目界面、论文中的图表

你可以使用：

examples/example.png

也可以自己补充图片。
如果你来自通信、电子信息、人工智能、自动化等方向，强烈建议把第三张图选成和自己研究场景最接近的材料，而不是随便找一张网络图片。

对每张图都要完成的 4 轮提问

第 1 轮：基础描述

示例 prompt：

请描述这张图的主要内容。
请列出这张图里最显眼的三个元素。

观察什么：

模型能否抓住主体
是否先说显著对象
是否忽略背景信息

第 2 轮：证据式提问

示例 prompt：

请说明你为什么这么判断，并指出图中的具体证据。
请给出三个支持你结论的视觉细节。

观察什么：

模型是否真的回到图像证据
回答是否开始“有理有据”
会不会编造并不存在的细节

第 3 轮：任务化提问

针对不同图片类型，尝试更具体任务：

OCR：请读出图中最重要的文字。
场景理解：这更像什么场景？请说明理由。
图表理解：这张图想表达的核心趋势是什么？
梗图理解：这张图的幽默点在哪里？
专业图像理解：这更像什么信号 / 设备 / 实验场景？请说明你的判断依据。
专业图表解释：这张频谱图 / 波形图 / 实验曲线最想表达什么现象？

观察什么：

模型在哪些任务上明显更稳
哪些任务一细化就开始变差

第 4 轮：边界测试

请故意问一个更难的问题，例如：

细致计数
空间关系判断
小字 OCR
很复杂的视觉推理

示例 prompt：

请数清楚图中一共有多少个……
请判断左上角和右下角的两个物体是什么关系。
请逐字抄写这张图最小的一行文字。

观察什么：

模型哪里开始出错
错误是“看错了”，还是“编过头了”

必做对比

请至少完成下面两组对比。

对比 A：同一张图，不同 prompt

目标：

看 Prompt 怎样把同一张图调成不同任务

至少比较：

直接描述
要求给证据
要求结构化输出

对比 B：不同图片，不同难度

目标：

看模型在哪类图片上更稳

建议比较：

自然场景图
带文字图片
本专业图片

建议提交内容

请提交一个压缩包，包含：

你使用的图片
至少 6 组代表性 prompt 与输出
一页到两页短报告
其中至少 2 组结果必须来自那张“本专业相关图片”

短报告建议结构

1. 图片与任务说明

你选了哪三张图
每张图主要测试什么能力
其中哪一张和你的专业 / 课题最相关，为什么选它

2. Prompt 设计

你怎样从“简单描述”逐步走向“高层任务”
哪个 prompt 最能调出模型能力

3. 结果分析

请明确回答：

模型最擅长什么
模型最不稳什么
要求“给依据”时，回答有没有变得更可信
面对专业图片时，模型是更像“看懂了”，还是更像“说得像”

4. failure case

请至少给出 2 个失败案例，并说明：

它错在哪里
你认为是视觉能力不够，还是 prompt 不够好

评分重点

这份作业不按“图片找得多花哨”评分，更看重：

任务设计是否有层次
Prompt 是否有比较价值
结果分析是否具体
是否真的把多模态模型放进了本专业场景里观察
是否看到了模型在专业图片上的真实边界

你真正要带走什么

如果做完这份作业后，只记住一句话，那应该是：

多模态模型不是“会看图就结束了”，而是要在图像、语言和任务之间建立稳定对应关系。

所以这份作业的真正目标是让你学会：

如何问
如何看证据
如何识别模型什么时候是真的看懂了，什么时候只是说得像