第十九章：GPT 系列

GPT（Generative Pre-trained Transformer）是 OpenAI 提出的一系列基于 Transformer 解码器的预训练语言模型，开创了"大规模预训练 + 微调"的范式。

GPT-1（2018）

核心思想

GPT-1 的核心思想是：

使用 Transformer 的解码器（单向）进行预训练
使用自回归语言模型作为预训练任务
在下游任务上进行微调

模型架构

输入：The cat sat on the
      ↓
Token 嵌入 + 位置嵌入
      ↓
┌─────────────────────┐
│  掩码多头自注意力     │  ← 不能看到未来的词
│  前馈网络            │
│  残差连接 + LayerNorm │
│         × 12 层      │
└─────────────────────┘
      ↓
预测下一个词：mat

预训练目标

GPT 使用自回归语言模型进行预训练：

L_{LM} = - \sum_{i} \log P (x_{i} | x_{1}, . . ., x_{i - 1})

模型需要根据前面的所有词预测下一个词。

微调

预训练完成后，GPT 在下游任务上进行微调。对于分类任务：

输入：[CLS] 这个电影很好看 [SEP]
      ↓
GPT 编码器
      ↓
取 [CLS] 位置的输出
      ↓
线性分类器 → 正面(0.92) / 负面(0.08)

模型规模

参数	值
层数	12
隐藏维度	768
注意力头数	12
参数量	117M
训练数据	BooksCorpus（约 5GB）

GPT-2（2019）

核心创新

GPT-2 的核心创新是：不需要微调，仅通过预训练就能完成下游任务（零样本学习）。

模型规模

版本	参数量	层数	隐藏维度
Small	117M	12	768
Medium	345M	24	1024
Large	762M	36	1280
XL	1542M	48	1600

零样本学习

GPT-2 可以通过提示（Prompt）来完成各种任务：

翻译任务：
输入："Translate English to French: cheese =>"
输出："fromage"

摘要任务：
输入："TL;DR:"
输出：（生成摘要）

问答任务：
输入："Q: Who is the president of France? A:"
输出：（生成答案）

GPT-3（2020）

核心创新

GPT-3 的核心创新是：少样本学习（Few-shot Learning），通过在提示中给出几个示例，模型就能完成新任务。

模型规模

参数	值
参数量	175B（1750 亿）
层数	96
隐藏维度	12288
注意力头数	96
训练数据	~300B tokens

少样本学习示例

翻译任务（Few-shot）：
输入：
"Translate English to French:
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese =>"

输出："fromage"

GPT-3 不需要梯度更新，仅通过上下文中的示例就能"学会"新任务。

In-Context Learning 的类型

类型	说明	示例数量
Zero-shot	不给示例，直接提问	0
One-shot	给一个示例	1
Few-shot	给多个示例	2+

GPT-3.5 与 ChatGPT（2022）

关键改进

改进	说明
代码训练	在代码数据上进行了额外训练
RLHF	使用人类反馈强化学习进行对齐
指令微调	学习遵循人类指令

ChatGPT 的成功因素

大规模预训练：在海量文本和代码上训练
RLHF 对齐：让模型的输出符合人类偏好
对话格式：专门为多轮对话优化

GPT-4（2023）

关键特性

特性	说明
多模态	支持图像和文本输入
更强推理	在复杂推理任务上表现更好
更长上下文	支持更长的输入序列
更安全	更好的安全性和对齐

GPT 系列对比

模型	年份	参数量	关键创新
GPT-1	2018	117M	Transformer 解码器预训练
GPT-2	2019	1.5B	零样本学习
GPT-3	2020	175B	少样本学习、In-Context Learning
GPT-3.5	2022	~175B	代码训练、RLHF
GPT-4	2023	未公开	多模态、更强推理

GPT 的核心思想

自回归生成

GPT 使用自回归方式生成文本：

P (x_{1}, x_{2}, . . ., x_{n}) = \prod_{i = 1}^{n} P (x_{i} | x_{1}, . . ., x_{i - 1})

每次只生成一个 token，然后将其加入输入继续生成。

生成过程

输入：The weather today is
Step 1: P(下一个词) → "beautiful" (概率最高)
Step 2: The weather today is beautiful
Step 3: P(下一个词) → "." (概率最高)
Step 4: The weather today is beautiful. → 结束

小结

概念	说明
自回归语言模型	根据前文预测下一个词
少样本学习	通过提示中的示例完成新任务
In-Context Learning	无需梯度更新，从上下文中学习
RLHF	使用人类反馈强化学习对齐模型
规模定律	模型性能随参数量增加而提升

GPT 系列展示了规模的力量——通过增大模型和数据量，涌现出许多意想不到的能力。

第十九章：GPT 系列 ​

GPT-1（2018） ​

核心思想 ​

模型架构 ​

预训练目标 ​

微调 ​

模型规模 ​

GPT-2（2019） ​

核心创新 ​

模型规模 ​

零样本学习 ​

GPT-3（2020） ​

核心创新 ​

模型规模 ​

少样本学习示例 ​

In-Context Learning 的类型 ​

GPT-3.5 与 ChatGPT（2022） ​

关键改进 ​

ChatGPT 的成功因素 ​

GPT-4（2023） ​

关键特性 ​

GPT 系列对比 ​

GPT 的核心思想 ​

自回归生成 ​

生成过程 ​

小结 ​

第十九章：GPT 系列

GPT-1（2018）

核心思想

模型架构

预训练目标

微调

模型规模

GPT-2（2019）

核心创新

模型规模

零样本学习

GPT-3（2020）

核心创新

模型规模

少样本学习示例

In-Context Learning 的类型

GPT-3.5 与 ChatGPT（2022）

关键改进

ChatGPT 的成功因素

GPT-4（2023）

关键特性

GPT 系列对比

GPT 的核心思想

自回归生成

生成过程

小结