下面是一套 第 9 课 Exit Ticket,对应 0-lecture.md 的当前内容。建议把它当成一张“图文世界怎么接到一起”的速记卡,10 分钟够用。重点不是记模型名字,而是看你有没有把视觉、对齐、生成和多模态聊天串起来。
Exit Ticket(10 题,开卷)
1) 多模态到底在解决什么
请用 2 句话回答:
2) ViT 为什么会成为视觉侧的起点
请回答:
- 它把图像怎么喂给 Transformer
- 为什么这条路重要
3) CLIP 为什么这么关键
请分别用一句短语解释:
4) 视觉问答和视觉聊天有什么不同味道
请用 2 到 3 句话回答:
- VQA 和聊天式多模态各在回答什么
- 为什么后者更接近真实使用
5) 为什么 visual instruction tuning 很重要
请回答:
- 它在补什么行为
- 为什么它会让多模态模型突然更“像助手”
6) 多模态 Prompt 为什么不只是“发张图”
请说明:
- prompt 在多模态里为什么更复杂
- 为什么上下文组织方式很重要
7) 数据怎么来,为什么是多模态的核心问题之一
请用 2 句话回答:
- 图文数据从哪里来
- 为什么高质量数据比单纯堆量更关键
8) 生成式多模态模型在干什么
请分别用一句短语解释:
- unCLIP / DALL-E 2 路线大概在做什么
- 它们为什么比“看图回答”更难
9) 多模态系统最常见的边界在哪里
请尽量口语化:
- 模型容易在哪些地方失败
- 为什么“看懂图”比“看见图”难很多
10) 用一句话把这课讲给朋友听
请尽量自然一点:
- 多模态为什么是语义空间的扩张
- 它为什么让模型开始接触语言之外的世界