多模 LLM

多模 LLM 模型以语言模型为核心,融合多模数据(比如图像、视频、语音、音乐)。

我们首先看视觉 LLM。Flamingo 是这方面的开创性工作。它在 LLM 中加入了视觉。

课程材料

论文

空间位置

普林斯顿大学课程论文

Refer:

Andrej Karpathy 推荐论文

JHU 课程推荐论文

Pretraining Vision-Language Models

Additional Reading:

Pretraining Vision-Language Models

Additional Reading(s):

Pretraining Speech/Audio Models

Additional Reading(s):

LLM Agent 相关多模论文

复旦大学的 LLM Agent 综述论文中提到的LLM 视觉和音频感知能力的相关论文

Visual

Audio

Demo

练习

软件


Index Previous Next