4-exit

下面是一套 第 9 课 Exit Ticket，对应 0-lecture.md 的当前内容。建议把它当成一张“图文世界怎么接到一起”的速记卡，10 分钟够用。重点不是记模型名字，而是看你有没有把视觉、对齐、生成和多模态聊天串起来。

Exit Ticket（10 题，开卷）

1) 多模态到底在解决什么

请用 2 句话回答：

为什么只会看文字还不够
多模态模型想补什么能力

2) ViT 为什么会成为视觉侧的起点

请回答：

它把图像怎么喂给 Transformer
为什么这条路重要

3) CLIP 为什么这么关键

请分别用一句短语解释：

图文对齐在做什么
为什么它成了后面很多模型的基础

4) 视觉问答和视觉聊天有什么不同味道

请用 2 到 3 句话回答：

VQA 和聊天式多模态各在回答什么
为什么后者更接近真实使用

5) 为什么 visual instruction tuning 很重要

请回答：

它在补什么行为
为什么它会让多模态模型突然更“像助手”

6) 多模态 Prompt 为什么不只是“发张图”

请说明：

prompt 在多模态里为什么更复杂
为什么上下文组织方式很重要

7) 数据怎么来，为什么是多模态的核心问题之一

请用 2 句话回答：

图文数据从哪里来
为什么高质量数据比单纯堆量更关键

8) 生成式多模态模型在干什么

请分别用一句短语解释：

unCLIP / DALL-E 2 路线大概在做什么
它们为什么比“看图回答”更难

9) 多模态系统最常见的边界在哪里

请尽量口语化：

模型容易在哪些地方失败
为什么“看懂图”比“看见图”难很多

10) 用一句话把这课讲给朋友听

请尽量自然一点：

多模态为什么是语义空间的扩张
它为什么让模型开始接触语言之外的世界