下面是一套 第 9 课 Exit Ticket,对应 0-lecture.md 的当前内容。建议把它当成一张“图文世界怎么接到一起”的速记卡,10 分钟够用。重点不是记模型名字,而是看你有没有把视觉、对齐、生成和多模态聊天串起来。

Exit Ticket(10 题,开卷)

1) 多模态到底在解决什么

请用 2 句话回答:

2) ViT 为什么会成为视觉侧的起点

请回答:

3) CLIP 为什么这么关键

请分别用一句短语解释:

4) 视觉问答和视觉聊天有什么不同味道

请用 2 到 3 句话回答:

5) 为什么 visual instruction tuning 很重要

请回答:

6) 多模态 Prompt 为什么不只是“发张图”

请说明:

7) 数据怎么来,为什么是多模态的核心问题之一

请用 2 句话回答:

8) 生成式多模态模型在干什么

请分别用一句短语解释:

9) 多模态系统最常见的边界在哪里

请尽量口语化:

10) 用一句话把这课讲给朋友听

请尽量自然一点: