Skip to content

神经网络架构

从最简单的前馈网络到能处理图像的卷积网络,再到能处理序列的循环网络,最终到能翻译语言的 Seq2Seq——这里记录了各类神经网络架构的原理与实现。

架构演进路线

FNN(前馈神经网络)  — 最基础的结构,处理定长向量

CNN(卷积神经网络)  — 局部连接 + 权值共享,专为图像设计

RNN(循环神经网络)  — 引入时间步,处理序列数据

LSTM                — 门控机制,解决 RNN 的长距离遗忘

GRU                 — 简化版 LSTM,效果相当但更高效

Seq2Seq             — 编码器-解码器架构,用于机器翻译
    ↓(下一章)
Attention + Transformer — 并行注意力机制,取代 RNN

本章目录

架构核心问题主要应用
FNN(前馈网络)定长向量 → 分类/回归表格数据,图像展平分类
CNN(卷积网络)图像空间特征提取图像分类,目标检测
RNN(循环网络)序列 → 序列/分类文本分类,时间序列
LSTM长距离依赖记忆机器翻译,语音识别
GRU简化门控,高效建模各类序列任务
Seq2Seq变长输入→变长输出机器翻译,文本摘要

各架构核心对比

架构输入记忆/感知并行性典型应用
FNN定长向量表格分类/回归
CNN网格数据(图像)局部感受野图像识别
RNN任意长序列短期记忆❌(串行)短序列文本
LSTM任意长序列长期记忆❌(串行)机器翻译(Pre-Transformer)
GRU任意长序列长期记忆❌(串行)轻量序列任务
Transformer任意长序列全局注意力✅(并行)NLP/多模态

AI 知识体系 — 从机器学习到大语言模型