这份作业直接接在 21/2-prog 的课堂练习之后完成。
你不需要训练模型,而是要基于现成的本地多模态模型,亲手观察:
建议使用:
21/2-prog/0-qwen3-vl-demo.ipynb21/2-prog/0-qwen3-vl-demo.sh围绕 同一组图片,设计一套从浅到深的视觉提问,并分析模型在不同问题类型下的表现差异。
这份作业最重要的不是“让模型答对”,而是让你看清:
请至少准备 3 张图片,其中 至少 1 张必须和你的专业 / 课题方向直接相关。
推荐组合是:
你可以使用:
examples/example.png也可以自己补充图片。
如果你来自通信、电子信息、人工智能、自动化等方向,强烈建议把第三张图选成和自己研究场景最接近的材料,而不是随便找一张网络图片。
示例 prompt:
请描述这张图的主要内容。请列出这张图里最显眼的三个元素。观察什么:
示例 prompt:
请说明你为什么这么判断,并指出图中的具体证据。请给出三个支持你结论的视觉细节。观察什么:
针对不同图片类型,尝试更具体任务:
请读出图中最重要的文字。这更像什么场景?请说明理由。这张图想表达的核心趋势是什么?这张图的幽默点在哪里?这更像什么信号 / 设备 / 实验场景?请说明你的判断依据。这张频谱图 / 波形图 / 实验曲线最想表达什么现象?观察什么:
请故意问一个更难的问题,例如:
示例 prompt:
请数清楚图中一共有多少个……请判断左上角和右下角的两个物体是什么关系。请逐字抄写这张图最小的一行文字。观察什么:
请至少完成下面两组对比。
目标:
至少比较:
目标:
建议比较:
请提交一个压缩包,包含:
6 组代表性 prompt 与输出2 组结果必须来自那张“本专业相关图片”请明确回答:
请至少给出 2 个失败案例,并说明:
这份作业不按“图片找得多花哨”评分,更看重:
如果做完这份作业后,只记住一句话,那应该是:
多模态模型不是“会看图就结束了”,而是要在图像、语言和任务之间建立稳定对应关系。
所以这份作业的真正目标是让你学会: