Skip to content

第二十二章:其他预训练模型

除了 GPT 和 BERT,还有许多重要的预训练模型。本章介绍几个代表性的工作。


T5(2019)

核心思想

T5(Text-to-Text Transfer Transformer)由 Google 提出,将所有 NLP 任务统一为文本到文本的格式

统一框架

分类任务:
  输入:"sentiment: 这个电影很好看"
  输出:"正面"

翻译任务:
  输入:"translate English to French: cheese"
  输出:"fromage"

摘要任务:
  输入:"summarize: 一篇很长的文章..."
  输出:"文章的摘要..."

问答任务:
  输入:"question: 谁是法国总统? context: 法国总统是马克龙..."
  输出:"马克龙"

模型架构

T5 使用 Transformer 的编码器-解码器架构(与原始 Transformer 相同):

输入文本 → 编码器 → 解码器 → 输出文本

预训练任务

T5 使用跨度损坏(Span Corruption)作为预训练任务:

输入:"我 喜欢 <X> 处理 <Y> 是 人工智能"
输出:"自然 语言 <X> 技术 <Y> 的 分支 <Z>"

随机遮盖连续的文本片段,让模型预测被遮盖的内容。

模型规模

版本参数量
T5-Small60M
T5-Base220M
T5-Large770M
T5-3B3B
T5-11B11B

XLNet(2019)

核心创新

XLNet 结合了自回归(GPT)和自编码(BERT)的优点,提出了排列语言模型

排列语言模型

传统语言模型按固定顺序预测:

P(x1,x2,x3)=P(x1)P(x2|x1)P(x3|x1,x2)

排列语言模型随机打乱顺序:

P(x1,x2,x3)=P(x3)P(x1|x3)P(x2|x1,x3)

通过遍历所有可能的排列,XLNet 可以捕捉双向的上下文信息。

与 BERT 的区别

特性BERTXLNet
预训练任务掩码语言模型排列语言模型
独立性假设假设被遮盖的词相互独立无独立性假设
输入噪声[MASK] token(微调时不存在)无噪声

ELECTRA(2020)

核心思想

ELECTRA 提出了一种更高效的预训练任务:替换 token 检测(Replaced Token Detection)。

工作流程

1. 生成器(小型 MLM)生成替换 token
   输入:我 爱 [MASK] 语言 处理
   输出:我 爱 计算 语言 处理("自然"被替换为"计算")

2. 判别器判断每个 token 是否被替换
   输入:我 爱 计算 语言 处理
   标签:真 真 假 真 真

优势

优势说明
更高效所有 token 都参与训练(不只是 15% 的 [MASK])
更快收敛二分类任务比生成任务更容易学习
效果好在相同计算预算下性能优于 BERT

多语言模型

mBERT(多语言 BERT)

  • 在 104 种语言的维基百科上训练
  • 所有语言共享同一个词表和模型参数
  • 可以进行零样本跨语言迁移:在英文上微调,直接用于中文

XLM-RoBERTa

  • 在 2.5TB 的 CommonCrawl 数据上训练(100 种语言)
  • 性能显著优于 mBERT
  • 是多语言 NLP 任务的首选模型

长文本模型

Longformer

解决 Transformer 的 O(n2) 复杂度问题:

注意力类型复杂度适用位置
全局注意力O(n2)特殊 token([CLS])
滑动窗口注意力O(n)普通 token

BigBird

使用随机注意力 + 窗口注意力 + 全局注意力的组合,支持最长 4096 token 的输入。


中文预训练模型

模型机构特点
ERNIE百度融合知识图谱
MacBERT哈工大同义词替换掩码
RoBERTa-wwm哈工大全词掩码
ChatGLM清华对话模型
Qwen阿里大语言模型
DeepSeekDeepSeek开源大模型

模型选择指南

任务类型推荐模型
英文分类RoBERTa, DeBERTa
中文分类RoBERTa-wwm-ext, MacBERT
多语言任务XLM-RoBERTa
文本生成GPT 系列, T5
资源受限DistilBERT, ALBERT
长文本Longformer, BigBird
问答BERT, RoBERTa

小结

模型核心创新
T5统一的文本到文本框架
XLNet排列语言模型
ELECTRA替换 token 检测
mBERT/XLM-R多语言预训练
Longformer高效长文本处理

这些模型从不同角度推动了预训练模型的发展,为后续的大语言模型奠定了基础。

AI 知识体系 — 从机器学习到大语言模型