第二十二章：其他预训练模型

除了 GPT 和 BERT，还有许多重要的预训练模型。本章介绍几个代表性的工作。

T5（2019）

核心思想

T5（Text-to-Text Transfer Transformer）由 Google 提出，将所有 NLP 任务统一为文本到文本的格式。

统一框架

分类任务：
  输入："sentiment: 这个电影很好看"
  输出："正面"

翻译任务：
  输入："translate English to French: cheese"
  输出："fromage"

摘要任务：
  输入："summarize: 一篇很长的文章..."
  输出："文章的摘要..."

问答任务：
  输入："question: 谁是法国总统? context: 法国总统是马克龙..."
  输出："马克龙"

模型架构

T5 使用 Transformer 的编码器-解码器架构（与原始 Transformer 相同）：

输入文本 → 编码器 → 解码器 → 输出文本

预训练任务

T5 使用跨度损坏（Span Corruption）作为预训练任务：

输入："我 喜欢 <X> 处理 <Y> 是 人工智能"
输出："自然 语言 <X> 技术 <Y> 的 分支 <Z>"

随机遮盖连续的文本片段，让模型预测被遮盖的内容。

模型规模

版本	参数量
T5-Small	60M
T5-Base	220M
T5-Large	770M
T5-3B	3B
T5-11B	11B

XLNet（2019）

核心创新

XLNet 结合了自回归（GPT）和自编码（BERT）的优点，提出了排列语言模型。

排列语言模型

传统语言模型按固定顺序预测：

P (x_{1}, x_{2}, x_{3}) = P (x_{1}) P (x_{2} | x_{1}) P (x_{3} | x_{1}, x_{2})

排列语言模型随机打乱顺序：

P (x_{1}, x_{2}, x_{3}) = P (x_{3}) P (x_{1} | x_{3}) P (x_{2} | x_{1}, x_{3})

通过遍历所有可能的排列，XLNet 可以捕捉双向的上下文信息。

与 BERT 的区别

特性	BERT	XLNet
预训练任务	掩码语言模型	排列语言模型
独立性假设	假设被遮盖的词相互独立	无独立性假设
输入噪声	[MASK] token（微调时不存在）	无噪声

ELECTRA（2020）

核心思想

ELECTRA 提出了一种更高效的预训练任务：替换 token 检测（Replaced Token Detection）。

工作流程

1. 生成器（小型 MLM）生成替换 token
   输入：我 爱 [MASK] 语言 处理
   输出：我 爱 计算 语言 处理（"自然"被替换为"计算"）

2. 判别器判断每个 token 是否被替换
   输入：我 爱 计算 语言 处理
   标签：真 真 假 真 真

优势

优势	说明
更高效	所有 token 都参与训练（不只是 15% 的 [MASK]）
更快收敛	二分类任务比生成任务更容易学习
效果好	在相同计算预算下性能优于 BERT

多语言模型

mBERT（多语言 BERT）

在 104 种语言的维基百科上训练
所有语言共享同一个词表和模型参数
可以进行零样本跨语言迁移：在英文上微调，直接用于中文

XLM-RoBERTa

在 2.5TB 的 CommonCrawl 数据上训练（100 种语言）
性能显著优于 mBERT
是多语言 NLP 任务的首选模型

长文本模型

Longformer

解决 Transformer 的 $O (n^{2})$ 复杂度问题：

注意力类型	复杂度	适用位置
全局注意力	$O (n^{2})$	特殊 token（[CLS]）
滑动窗口注意力	$O (n)$	普通 token

BigBird

使用随机注意力 + 窗口注意力 + 全局注意力的组合，支持最长 4096 token 的输入。

中文预训练模型

模型	机构	特点
ERNIE	百度	融合知识图谱
MacBERT	哈工大	同义词替换掩码
RoBERTa-wwm	哈工大	全词掩码
ChatGLM	清华	对话模型
Qwen	阿里	大语言模型
DeepSeek	DeepSeek	开源大模型

模型选择指南

任务类型	推荐模型
英文分类	RoBERTa, DeBERTa
中文分类	RoBERTa-wwm-ext, MacBERT
多语言任务	XLM-RoBERTa
文本生成	GPT 系列, T5
资源受限	DistilBERT, ALBERT
长文本	Longformer, BigBird
问答	BERT, RoBERTa

小结

模型	核心创新
T5	统一的文本到文本框架
XLNet	排列语言模型
ELECTRA	替换 token 检测
mBERT/XLM-R	多语言预训练
Longformer	高效长文本处理

这些模型从不同角度推动了预训练模型的发展，为后续的大语言模型奠定了基础。

第二十二章：其他预训练模型 ​

T5（2019） ​

核心思想 ​

统一框架 ​

模型架构 ​

预训练任务 ​

模型规模 ​

XLNet（2019） ​

核心创新 ​

排列语言模型 ​

与 BERT 的区别 ​

ELECTRA（2020） ​

核心思想 ​

工作流程 ​

优势 ​

多语言模型 ​

mBERT（多语言 BERT） ​

XLM-RoBERTa ​

长文本模型 ​

Longformer ​

BigBird ​

中文预训练模型 ​

模型选择指南 ​

小结 ​

第二十二章：其他预训练模型

T5（2019）

核心思想

统一框架

模型架构

预训练任务

模型规模

XLNet（2019）

核心创新

排列语言模型

与 BERT 的区别

ELECTRA（2020）

核心思想

工作流程

优势

多语言模型

mBERT（多语言 BERT）

XLM-RoBERTa

长文本模型

Longformer

BigBird

中文预训练模型

模型选择指南

小结