预训练大语言模型

我们首先学习预训练大语言语言模型。所谓“预训练”,它指的是:利用语言模型,在海量的语料上训练 Token 的表征和模型,然后基于这些表征和模型,接着训练阅读理解、完形填空、写作等自然语言处理任务。一般来说,这样会获得很好的效果。

预训练模大语言模型有很多,比如括 BERT、RoBERTa、Electra、BART、T5、DeBERTa。我们下面介绍它们

BERT

BERT 把 Transformer 用于 NLP 深度模型的预训练,开启了一个全新的时代。它展示了 Transformer 的强大能力能够支持更大的模型和更多的数据。从此,大语言模型开始蓬勃发展。

BERT 是在 Books 和 Wikipedia 数据上训练出来的。它的数据是 13GB。两种模型,Small 模型是 14M 参数,用 1 张 V100,训练 4 day 完成;Base 模型是 110M 参数,用 16 张 TPUv3,训练 4 day 完成。

BERT 的 11 个朋友

BERT 之后,人们不断改进模型结构,用更多、更好的数据对模型进行训练,由此产生了一系列的大语言模型,即所谓的 BERT 的 11 个朋友。

首先,RoBERTa(2019)对 BERT 的训练方法进行了细致的梳理,提出了新的动态 Masking、调参、Loss。数据库扩大到 160GB。

此后,人们沿着两个方向进行工作:

第一个方向是 Electra(2020)和 DeBERTa v3(2021)的方向:引入“敌对”的方法。

Electra 引入了敌对的方法。它的方法是:用 BERT 对 Mask 后的单词进行补全之后,用 Electra 识别单词是不是“被模型补上的”。Electra 的训练速度比 BERT 快。它的 Small 模型也是 14M 参数,用 1 张 V100,6 hour 训练完成,比 BERT 的 4 天要短。Base 模型还是 110M 参数,16 TPUv3,4 day,这和 BERT 模型的一样。

而DeBERTa v3(2021)是 Electra 的升级版。

有意思的是,在 GPT-3 被发现有 Zero-Shot 能力之后,Electra 也被发现有这个能力。

第二个方向是 BART(2019)和 T5(2019)的方向:采用 Seq2Seq 的结构,通过生成进行训练。T5 是 BART 的升级版。

预训练大语言模型在实际中应用很广,十分值得学习。详见约翰霍普金斯 GA 课程的 PPT。

课程材料

论文

BERT (encoder-only models)

T5 (encoder-decoder models)


Index Previous Next