Skip to content

第十九章:GPT 系列

GPT(Generative Pre-trained Transformer)是 OpenAI 提出的一系列基于 Transformer 解码器的预训练语言模型,开创了"大规模预训练 + 微调"的范式。


GPT-1(2018)

核心思想

GPT-1 的核心思想是:

  1. 使用 Transformer 的解码器(单向)进行预训练
  2. 使用自回归语言模型作为预训练任务
  3. 在下游任务上进行微调

模型架构

输入:The cat sat on the

Token 嵌入 + 位置嵌入

┌─────────────────────┐
│  掩码多头自注意力     │  ← 不能看到未来的词
│  前馈网络            │
│  残差连接 + LayerNorm │
│         × 12 层      │
└─────────────────────┘

预测下一个词:mat

预训练目标

GPT 使用自回归语言模型进行预训练:

LLM=ilogP(xi|x1,...,xi1)

模型需要根据前面的所有词预测下一个词。

微调

预训练完成后,GPT 在下游任务上进行微调。对于分类任务:

输入:[CLS] 这个电影很好看 [SEP]

GPT 编码器

取 [CLS] 位置的输出

线性分类器 → 正面(0.92) / 负面(0.08)

模型规模

参数
层数12
隐藏维度768
注意力头数12
参数量117M
训练数据BooksCorpus(约 5GB)

GPT-2(2019)

核心创新

GPT-2 的核心创新是:不需要微调,仅通过预训练就能完成下游任务(零样本学习)。

模型规模

版本参数量层数隐藏维度
Small117M12768
Medium345M241024
Large762M361280
XL1542M481600

零样本学习

GPT-2 可以通过提示(Prompt)来完成各种任务:

翻译任务:
输入:"Translate English to French: cheese =>"
输出:"fromage"

摘要任务:
输入:"TL;DR:"
输出:(生成摘要)

问答任务:
输入:"Q: Who is the president of France? A:"
输出:(生成答案)

GPT-3(2020)

核心创新

GPT-3 的核心创新是:少样本学习(Few-shot Learning),通过在提示中给出几个示例,模型就能完成新任务。

模型规模

参数
参数量175B(1750 亿)
层数96
隐藏维度12288
注意力头数96
训练数据~300B tokens

少样本学习示例

翻译任务(Few-shot):
输入:
"Translate English to French:
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese =>"

输出:"fromage"

GPT-3 不需要梯度更新,仅通过上下文中的示例就能"学会"新任务。

In-Context Learning 的类型

类型说明示例数量
Zero-shot不给示例,直接提问0
One-shot给一个示例1
Few-shot给多个示例2+

GPT-3.5 与 ChatGPT(2022)

关键改进

改进说明
代码训练在代码数据上进行了额外训练
RLHF使用人类反馈强化学习进行对齐
指令微调学习遵循人类指令

ChatGPT 的成功因素

  1. 大规模预训练:在海量文本和代码上训练
  2. RLHF 对齐:让模型的输出符合人类偏好
  3. 对话格式:专门为多轮对话优化

GPT-4(2023)

关键特性

特性说明
多模态支持图像和文本输入
更强推理在复杂推理任务上表现更好
更长上下文支持更长的输入序列
更安全更好的安全性和对齐

GPT 系列对比

模型年份参数量关键创新
GPT-12018117MTransformer 解码器预训练
GPT-220191.5B零样本学习
GPT-32020175B少样本学习、In-Context Learning
GPT-3.52022~175B代码训练、RLHF
GPT-42023未公开多模态、更强推理

GPT 的核心思想

自回归生成

GPT 使用自回归方式生成文本:

P(x1,x2,...,xn)=i=1nP(xi|x1,...,xi1)

每次只生成一个 token,然后将其加入输入继续生成。

生成过程

输入:The weather today is
Step 1: P(下一个词) → "beautiful" (概率最高)
Step 2: The weather today is beautiful
Step 3: P(下一个词) → "." (概率最高)
Step 4: The weather today is beautiful. → 结束

小结

概念说明
自回归语言模型根据前文预测下一个词
少样本学习通过提示中的示例完成新任务
In-Context Learning无需梯度更新,从上下文中学习
RLHF使用人类反馈强化学习对齐模型
规模定律模型性能随参数量增加而提升

GPT 系列展示了规模的力量——通过增大模型和数据量,涌现出许多意想不到的能力。

AI 知识体系 — 从机器学习到大语言模型