生成式大语言模型

我们下面介绍生成式的大语言模型。生成式大语言模型的工作方式和预训练大语言模型不一样:它总是根据前面的 Token 预测后面的 Token。这种工作方式有点像“前因后果”的意思,所以也常被称为“因果”模型。但这个“因果”并不是指的“因果关系”,而是指的“先后关系”,需要我们留意。

在大语言模型发展的第一阶段,大家比较热衷的是预训练大语言模型,不是生成式大语言模型。这是因为预训练大语言模型不把自己限制在“因果”上,也就是说:它也捕捉“后面的” Token 对“前面的” Token 的影响。因此,这样训练出来的模型,在各种下游任务上,性能就会比“局限在因果关系捕捉”上的生成式大语言模型要好。因此,这就比较出成果。

那时候,似乎只有 OpenAI 的科学家致力于生成式大语言模型,是因为他们的目标是 AGI:“通用人工智能”。具体来说,他们的目标是训练出一个模型,能够像人类那样根据前面的 Token 生成后面的 Token。这只有生成式大语言模型能够做到。

所以,OpenAI 对生成式大语言模型一直情有独钟。他们早期迷恋于用基于 RNN 的 Seq2seq 进行文本生成,为发现了控制文本生成的”情感“隐变量而欣喜。但是,大规模 RNN 的训练难度很大,导致其可扩展能力很弱,因此,他们很难对大规模的数据进行训练。

Google 发明的 Transformer 技术对 OpenAI 帮助极大。当 OpenAI 的科学家看到 Transformer 模型被用于 BERT,显示了极强的能力后,他们的眼睛一下子亮了,知道 Transformer 就是他们在寻找的东西。于是,他们立刻把 Transformer 用来做他们想做的生成式的语言模型。

这就出现了 GPT-1,GPT-2,直到 GPT-3(2020)。GPT-3 包括 175B 参数,在 45TB data 上进行了训练。当时,因为发现生成的文本几可乱真,所以 OpenAI 很担心这个模型会被人们用于生成各种假新闻等等的不合适的用途,因此对它的使用进行了控制,需要进行申请,获得授权后才能使用。

基于 GPT,OpenAI 进行了所谓的“对齐”工作,将 GPT 的生成结果和人类的需求进行“对齐”,就得到了 ChatGPT,开启了目前所有人都拭目以待的 AI 新时代。

课程材料

代码

参考论文

普林斯顿推荐论文

GPT-3 (decoder-only models)

斯坦福 CS 224n NLG 推荐论文

Andrej Karpathy 推荐论文

Demo

Index Previous Next