Skip to content

第二十三章:大语言模型原理

大语言模型(Large Language Model,LLM)是 NLP 发展到今天最重要的技术方向。本章讲解 LLM 的核心原理、规模定律和涌现能力。


什么是大语言模型?

大语言模型是指参数量达到数十亿甚至数千亿的语言模型,它们通过在海量文本数据上训练,展现出了强大的语言理解和生成能力。

核心特征

特征说明
大规模参数通常 1B+ 参数
海量训练数据数万亿 token 的文本
涌现能力小模型不具备、大模型突然出现的能力
通用性一个模型可以完成多种任务

规模定律(Scaling Laws)

Kaplan Scaling Laws

OpenAI 的 Kaplan 等人(2020)发现了语言模型性能的幂律关系

L(N)NαNL(D)DαDL(C)CαC

其中:

  • L 是损失(loss)
  • N 是模型参数量
  • D 是训练数据量(token 数)
  • C 是计算量(FLOPs)
  • α 是幂律指数

核心发现

  1. 模型性能随参数量、数据量、计算量的增加而持续提升
  2. 三者之间存在最优分配比例

Chinchilla Scaling Laws

DeepMind 的 Hoffmann 等人(2022)提出了修正的规模定律:

核心发现:模型参数量和训练数据量应该同比例增长

模型参数量训练 token 数比例
Gopher280B300B1:1
Chinchilla70B1.4T1:20
LLaMA7B1T1:143

Chinchilla 用更少的参数、更多的数据,达到了更好的效果。


涌现能力(Emergent Abilities)

什么是涌现能力?

涌现能力是指只在模型规模超过某个阈值时才突然出现的能力。

模型参数:  1B    10B    100B   200B
算术推理:  差    差     突然好  很好  ← 涌现!
代码生成:  不行  勉强   突然行  很行  ← 涌现!

常见的涌现能力

能力说明
少样本学习通过几个示例学会新任务
思维链推理逐步推理解决复杂问题
代码生成生成可执行的代码
指令遵循理解并执行复杂指令
多语言能力在未显式训练的语言上表现良好

思维链(Chain of Thought)

核心思想

思维链是一种提示技术,通过让模型"一步一步思考"来提升推理能力。

标准提示 vs 思维链提示

标准提示

问:小明有 5 个苹果,给了小红 2 个,又买了 3 个,现在有几个?
答:6

思维链提示

问:小明有 5 个苹果,给了小红 2 个,又买了 3 个,现在有几个?
答:让我一步一步思考。
1. 小明开始有 5 个苹果
2. 给了小红 2 个:5 - 2 = 3 个
3. 又买了 3 个:3 + 3 = 6 个
所以现在有 6 个苹果。

为什么思维链有效?

  1. 分解复杂问题:将复杂推理分解为简单步骤
  2. 减少错误传播:每一步都可以验证
  3. 激活知识:逐步推理帮助模型激活相关知识

主流大语言模型

闭源模型

模型公司参数量特点
GPT-4OpenAI未公开多模态、最强推理
GPT-4oOpenAI未公开多模态、更快
Claude 3.5Anthropic未公开长上下文、安全
GeminiGoogle未公开多模态

开源模型

模型公司参数量特点
LLaMA 2Meta7B-70B最早的高质量开源模型
LLaMA 3Meta8B-405B性能接近 GPT-4
Qwen阿里0.5B-72B中文优化
DeepSeekDeepSeek7B-67B性价比高
MistralMistral7B-8x22B高效架构

LLM 的训练流程

三阶段训练

阶段1:预训练(Pre-training)
  数据:海量无标注文本(数万亿 token)
  目标:自回归语言模型(预测下一个词)
  结果:获得通用的语言能力

阶段2:监督微调(Supervised Fine-Tuning, SFT)
  数据:高质量的指令-回复对
  目标:学习遵循指令
  结果:能够理解并执行指令

阶段3:人类对齐(Alignment)
  方法:RLHF 或 DPO
  目标:让输出符合人类偏好
  结果:更安全、更有帮助

LLM 的推理优化

KV Cache

在自回归生成时,每个新 token 需要计算与所有之前 token 的注意力。KV Cache 缓存之前计算的 Key 和 Value,避免重复计算。

无 KV Cache:
  生成 token 5 时:计算 Q5×[K1,K2,K3,K4] → O(n²)
  生成 token 6 时:计算 Q6×[K1,K2,K3,K4,K5] → O(n²)

有 KV Cache:
  生成 token 5 时:计算 Q5×[K1,K2,K3,K4],缓存 K5, V5
  生成 token 6 时:计算 Q6×[K5](只计算新部分)→ O(n)

量化

将模型权重从 FP32 压缩到更低精度:

精度大小(7B 模型)性能损失
FP3228GB
FP1614GB几乎无
INT87GB很小
INT43.5GB较小

推测解码(Speculative Decoding)

使用小型"草稿"模型快速生成多个候选 token,然后用大型模型验证。


小结

概念说明
规模定律性能随参数/数据/计算量的增加而提升
涌现能力大规模时突然出现的能力
思维链逐步推理提升复杂问题的解决能力
三阶段训练预训练 → SFT → 对齐
KV Cache缓存注意力计算结果,加速推理

大语言模型代表了 NLP 的当前最前沿。理解其原理,有助于我们更好地使用和开发这些模型。

AI 知识体系 — 从机器学习到大语言模型