第十九章:GPT 系列
GPT(Generative Pre-trained Transformer)是 OpenAI 提出的一系列基于 Transformer 解码器的预训练语言模型,开创了"大规模预训练 + 微调"的范式。
GPT-1(2018)
核心思想
GPT-1 的核心思想是:
- 使用 Transformer 的解码器(单向)进行预训练
- 使用自回归语言模型作为预训练任务
- 在下游任务上进行微调
模型架构
输入:The cat sat on the
↓
Token 嵌入 + 位置嵌入
↓
┌─────────────────────┐
│ 掩码多头自注意力 │ ← 不能看到未来的词
│ 前馈网络 │
│ 残差连接 + LayerNorm │
│ × 12 层 │
└─────────────────────┘
↓
预测下一个词:mat预训练目标
GPT 使用自回归语言模型进行预训练:
模型需要根据前面的所有词预测下一个词。
微调
预训练完成后,GPT 在下游任务上进行微调。对于分类任务:
输入:[CLS] 这个电影很好看 [SEP]
↓
GPT 编码器
↓
取 [CLS] 位置的输出
↓
线性分类器 → 正面(0.92) / 负面(0.08)模型规模
| 参数 | 值 |
|---|---|
| 层数 | 12 |
| 隐藏维度 | 768 |
| 注意力头数 | 12 |
| 参数量 | 117M |
| 训练数据 | BooksCorpus(约 5GB) |
GPT-2(2019)
核心创新
GPT-2 的核心创新是:不需要微调,仅通过预训练就能完成下游任务(零样本学习)。
模型规模
| 版本 | 参数量 | 层数 | 隐藏维度 |
|---|---|---|---|
| Small | 117M | 12 | 768 |
| Medium | 345M | 24 | 1024 |
| Large | 762M | 36 | 1280 |
| XL | 1542M | 48 | 1600 |
零样本学习
GPT-2 可以通过提示(Prompt)来完成各种任务:
翻译任务:
输入:"Translate English to French: cheese =>"
输出:"fromage"
摘要任务:
输入:"TL;DR:"
输出:(生成摘要)
问答任务:
输入:"Q: Who is the president of France? A:"
输出:(生成答案)GPT-3(2020)
核心创新
GPT-3 的核心创新是:少样本学习(Few-shot Learning),通过在提示中给出几个示例,模型就能完成新任务。
模型规模
| 参数 | 值 |
|---|---|
| 参数量 | 175B(1750 亿) |
| 层数 | 96 |
| 隐藏维度 | 12288 |
| 注意力头数 | 96 |
| 训练数据 | ~300B tokens |
少样本学习示例
翻译任务(Few-shot):
输入:
"Translate English to French:
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese =>"
输出:"fromage"GPT-3 不需要梯度更新,仅通过上下文中的示例就能"学会"新任务。
In-Context Learning 的类型
| 类型 | 说明 | 示例数量 |
|---|---|---|
| Zero-shot | 不给示例,直接提问 | 0 |
| One-shot | 给一个示例 | 1 |
| Few-shot | 给多个示例 | 2+ |
GPT-3.5 与 ChatGPT(2022)
关键改进
| 改进 | 说明 |
|---|---|
| 代码训练 | 在代码数据上进行了额外训练 |
| RLHF | 使用人类反馈强化学习进行对齐 |
| 指令微调 | 学习遵循人类指令 |
ChatGPT 的成功因素
- 大规模预训练:在海量文本和代码上训练
- RLHF 对齐:让模型的输出符合人类偏好
- 对话格式:专门为多轮对话优化
GPT-4(2023)
关键特性
| 特性 | 说明 |
|---|---|
| 多模态 | 支持图像和文本输入 |
| 更强推理 | 在复杂推理任务上表现更好 |
| 更长上下文 | 支持更长的输入序列 |
| 更安全 | 更好的安全性和对齐 |
GPT 系列对比
| 模型 | 年份 | 参数量 | 关键创新 |
|---|---|---|---|
| GPT-1 | 2018 | 117M | Transformer 解码器预训练 |
| GPT-2 | 2019 | 1.5B | 零样本学习 |
| GPT-3 | 2020 | 175B | 少样本学习、In-Context Learning |
| GPT-3.5 | 2022 | ~175B | 代码训练、RLHF |
| GPT-4 | 2023 | 未公开 | 多模态、更强推理 |
GPT 的核心思想
自回归生成
GPT 使用自回归方式生成文本:
每次只生成一个 token,然后将其加入输入继续生成。
生成过程
输入:The weather today is
Step 1: P(下一个词) → "beautiful" (概率最高)
Step 2: The weather today is beautiful
Step 3: P(下一个词) → "." (概率最高)
Step 4: The weather today is beautiful. → 结束小结
| 概念 | 说明 |
|---|---|
| 自回归语言模型 | 根据前文预测下一个词 |
| 少样本学习 | 通过提示中的示例完成新任务 |
| In-Context Learning | 无需梯度更新,从上下文中学习 |
| RLHF | 使用人类反馈强化学习对齐模型 |
| 规模定律 | 模型性能随参数量增加而提升 |
GPT 系列展示了规模的力量——通过增大模型和数据量,涌现出许多意想不到的能力。