第二十二章:其他预训练模型
除了 GPT 和 BERT,还有许多重要的预训练模型。本章介绍几个代表性的工作。
T5(2019)
核心思想
T5(Text-to-Text Transfer Transformer)由 Google 提出,将所有 NLP 任务统一为文本到文本的格式。
统一框架
分类任务:
输入:"sentiment: 这个电影很好看"
输出:"正面"
翻译任务:
输入:"translate English to French: cheese"
输出:"fromage"
摘要任务:
输入:"summarize: 一篇很长的文章..."
输出:"文章的摘要..."
问答任务:
输入:"question: 谁是法国总统? context: 法国总统是马克龙..."
输出:"马克龙"模型架构
T5 使用 Transformer 的编码器-解码器架构(与原始 Transformer 相同):
输入文本 → 编码器 → 解码器 → 输出文本预训练任务
T5 使用跨度损坏(Span Corruption)作为预训练任务:
输入:"我 喜欢 <X> 处理 <Y> 是 人工智能"
输出:"自然 语言 <X> 技术 <Y> 的 分支 <Z>"随机遮盖连续的文本片段,让模型预测被遮盖的内容。
模型规模
| 版本 | 参数量 |
|---|---|
| T5-Small | 60M |
| T5-Base | 220M |
| T5-Large | 770M |
| T5-3B | 3B |
| T5-11B | 11B |
XLNet(2019)
核心创新
XLNet 结合了自回归(GPT)和自编码(BERT)的优点,提出了排列语言模型。
排列语言模型
传统语言模型按固定顺序预测:
排列语言模型随机打乱顺序:
通过遍历所有可能的排列,XLNet 可以捕捉双向的上下文信息。
与 BERT 的区别
| 特性 | BERT | XLNet |
|---|---|---|
| 预训练任务 | 掩码语言模型 | 排列语言模型 |
| 独立性假设 | 假设被遮盖的词相互独立 | 无独立性假设 |
| 输入噪声 | [MASK] token(微调时不存在) | 无噪声 |
ELECTRA(2020)
核心思想
ELECTRA 提出了一种更高效的预训练任务:替换 token 检测(Replaced Token Detection)。
工作流程
1. 生成器(小型 MLM)生成替换 token
输入:我 爱 [MASK] 语言 处理
输出:我 爱 计算 语言 处理("自然"被替换为"计算")
2. 判别器判断每个 token 是否被替换
输入:我 爱 计算 语言 处理
标签:真 真 假 真 真优势
| 优势 | 说明 |
|---|---|
| 更高效 | 所有 token 都参与训练(不只是 15% 的 [MASK]) |
| 更快收敛 | 二分类任务比生成任务更容易学习 |
| 效果好 | 在相同计算预算下性能优于 BERT |
多语言模型
mBERT(多语言 BERT)
- 在 104 种语言的维基百科上训练
- 所有语言共享同一个词表和模型参数
- 可以进行零样本跨语言迁移:在英文上微调,直接用于中文
XLM-RoBERTa
- 在 2.5TB 的 CommonCrawl 数据上训练(100 种语言)
- 性能显著优于 mBERT
- 是多语言 NLP 任务的首选模型
长文本模型
Longformer
解决 Transformer 的
| 注意力类型 | 复杂度 | 适用位置 |
|---|---|---|
| 全局注意力 | 特殊 token([CLS]) | |
| 滑动窗口注意力 | 普通 token |
BigBird
使用随机注意力 + 窗口注意力 + 全局注意力的组合,支持最长 4096 token 的输入。
中文预训练模型
| 模型 | 机构 | 特点 |
|---|---|---|
| ERNIE | 百度 | 融合知识图谱 |
| MacBERT | 哈工大 | 同义词替换掩码 |
| RoBERTa-wwm | 哈工大 | 全词掩码 |
| ChatGLM | 清华 | 对话模型 |
| Qwen | 阿里 | 大语言模型 |
| DeepSeek | DeepSeek | 开源大模型 |
模型选择指南
| 任务类型 | 推荐模型 |
|---|---|
| 英文分类 | RoBERTa, DeBERTa |
| 中文分类 | RoBERTa-wwm-ext, MacBERT |
| 多语言任务 | XLM-RoBERTa |
| 文本生成 | GPT 系列, T5 |
| 资源受限 | DistilBERT, ALBERT |
| 长文本 | Longformer, BigBird |
| 问答 | BERT, RoBERTa |
小结
| 模型 | 核心创新 |
|---|---|
| T5 | 统一的文本到文本框架 |
| XLNet | 排列语言模型 |
| ELECTRA | 替换 token 检测 |
| mBERT/XLM-R | 多语言预训练 |
| Longformer | 高效长文本处理 |
这些模型从不同角度推动了预训练模型的发展,为后续的大语言模型奠定了基础。