神经网络架构
从最简单的前馈网络到能处理图像的卷积网络,再到能处理序列的循环网络,最终到能翻译语言的 Seq2Seq——这里记录了各类神经网络架构的原理与实现。
架构演进路线
FNN(前馈神经网络) — 最基础的结构,处理定长向量
↓
CNN(卷积神经网络) — 局部连接 + 权值共享,专为图像设计
↓
RNN(循环神经网络) — 引入时间步,处理序列数据
↓
LSTM — 门控机制,解决 RNN 的长距离遗忘
↓
GRU — 简化版 LSTM,效果相当但更高效
↓
Seq2Seq — 编码器-解码器架构,用于机器翻译
↓(下一章)
Attention + Transformer — 并行注意力机制,取代 RNN本章目录
| 架构 | 核心问题 | 主要应用 |
|---|---|---|
| FNN(前馈网络) | 定长向量 → 分类/回归 | 表格数据,图像展平分类 |
| CNN(卷积网络) | 图像空间特征提取 | 图像分类,目标检测 |
| RNN(循环网络) | 序列 → 序列/分类 | 文本分类,时间序列 |
| LSTM | 长距离依赖记忆 | 机器翻译,语音识别 |
| GRU | 简化门控,高效建模 | 各类序列任务 |
| Seq2Seq | 变长输入→变长输出 | 机器翻译,文本摘要 |
各架构核心对比
| 架构 | 输入 | 记忆/感知 | 并行性 | 典型应用 |
|---|---|---|---|---|
| FNN | 定长向量 | 无 | ✅ | 表格分类/回归 |
| CNN | 网格数据(图像) | 局部感受野 | ✅ | 图像识别 |
| RNN | 任意长序列 | 短期记忆 | ❌(串行) | 短序列文本 |
| LSTM | 任意长序列 | 长期记忆 | ❌(串行) | 机器翻译(Pre-Transformer) |
| GRU | 任意长序列 | 长期记忆 | ❌(串行) | 轻量序列任务 |
| Transformer | 任意长序列 | 全局注意力 | ✅(并行) | NLP/多模态 |