多模态大模型:视觉理解与提示设计课堂作业

作业定位

这份作业直接接在 21/2-prog 的课堂练习之后完成。
你不需要训练模型,而是要基于现成的本地多模态模型,亲手观察:

  1. 模型能看出什么
  2. 模型看不准什么
  3. Prompt 怎样影响它调出来的能力层次

建议使用:

作业目标

围绕 同一组图片,设计一套从浅到深的视觉提问,并分析模型在不同问题类型下的表现差异。

这份作业最重要的不是“让模型答对”,而是让你看清:

作业任务

请至少准备 3 张图片,其中 至少 1 张必须和你的专业 / 课题方向直接相关

推荐组合是:

  1. 一张自然场景图
  2. 一张带文字的图片
    例如海报、截图、菜单、PPT 页面、路牌
  3. 一张本专业相关图片
    例如信号波形图、频谱图、时频图、通信设备照片、实验平台截图、仪器面板、系统结构图、项目界面、论文中的图表

你可以使用:

也可以自己补充图片。
如果你来自通信、电子信息、人工智能、自动化等方向,强烈建议把第三张图选成和自己研究场景最接近的材料,而不是随便找一张网络图片。

对每张图都要完成的 4 轮提问

第 1 轮:基础描述

示例 prompt:

观察什么:

第 2 轮:证据式提问

示例 prompt:

观察什么:

第 3 轮:任务化提问

针对不同图片类型,尝试更具体任务:

观察什么:

第 4 轮:边界测试

请故意问一个更难的问题,例如:

示例 prompt:

观察什么:

必做对比

请至少完成下面两组对比。

对比 A:同一张图,不同 prompt

目标:

至少比较:

  1. 直接描述
  2. 要求给证据
  3. 要求结构化输出

对比 B:不同图片,不同难度

目标:

建议比较:

建议提交内容

请提交一个压缩包,包含:

  1. 你使用的图片
  2. 至少 6 组代表性 prompt 与输出
  3. 一页到两页短报告
  4. 其中至少 2 组结果必须来自那张“本专业相关图片”

短报告建议结构

1. 图片与任务说明

2. Prompt 设计

3. 结果分析

请明确回答:

4. failure case

请至少给出 2 个失败案例,并说明:

评分重点

这份作业不按“图片找得多花哨”评分,更看重:

  1. 任务设计是否有层次
  2. Prompt 是否有比较价值
  3. 结果分析是否具体
  4. 是否真的把多模态模型放进了本专业场景里观察
  5. 是否看到了模型在专业图片上的真实边界

你真正要带走什么

如果做完这份作业后,只记住一句话,那应该是:

多模态模型不是“会看图就结束了”,而是要在图像、语言和任务之间建立稳定对应关系。

所以这份作业的真正目标是让你学会: