神经网络架构

从最简单的前馈网络到能处理图像的卷积网络，再到能处理序列的循环网络，最终到能翻译语言的 Seq2Seq——这里记录了各类神经网络架构的原理与实现。

架构演进路线

FNN（前馈神经网络）  — 最基础的结构，处理定长向量
    ↓
CNN（卷积神经网络）  — 局部连接 + 权值共享，专为图像设计
    ↓
RNN（循环神经网络）  — 引入时间步，处理序列数据
    ↓
LSTM                — 门控机制，解决 RNN 的长距离遗忘
    ↓
GRU                 — 简化版 LSTM，效果相当但更高效
    ↓
Seq2Seq             — 编码器-解码器架构，用于机器翻译
    ↓（下一章）
Attention + Transformer — 并行注意力机制，取代 RNN

本章目录

架构	核心问题	主要应用
FNN（前馈网络）	定长向量 → 分类/回归	表格数据，图像展平分类
CNN（卷积网络）	图像空间特征提取	图像分类，目标检测
RNN（循环网络）	序列 → 序列/分类	文本分类，时间序列
LSTM	长距离依赖记忆	机器翻译，语音识别
GRU	简化门控，高效建模	各类序列任务
Seq2Seq	变长输入→变长输出	机器翻译，文本摘要

各架构核心对比

架构	输入	记忆/感知	并行性	典型应用
FNN	定长向量	无	✅	表格分类/回归
CNN	网格数据（图像）	局部感受野	✅	图像识别
RNN	任意长序列	短期记忆	❌（串行）	短序列文本
LSTM	任意长序列	长期记忆	❌（串行）	机器翻译（Pre-Transformer）
GRU	任意长序列	长期记忆	❌（串行）	轻量序列任务
Transformer	任意长序列	全局注意力	✅（并行）	NLP/多模态

神经网络架构 ​

架构演进路线 ​

本章目录 ​

各架构核心对比 ​

神经网络架构

架构演进路线

本章目录

各架构核心对比