Skip to content

什么是深度学习?

深度学习是以多层人工神经网络为核心的机器学习方法,通过逐层抽象从海量数据中自动学习特征,在视觉、语言、语音等领域超越人类专家级性能。

核心定义

深度学习的"深度":指网络中隐藏层的数量。

输入层 → 隐藏层1(边缘) → 隐藏层2(纹理) → 隐藏层N(语义) → 输出层

层级越深,学到的特征越抽象、越高级。

与传统机器学习的本质区别

传统机器学习深度学习
特征提取手工设计特征自动学习特征
数据需求中等(千级)大量(百万级+)
计算资源CPU 即可GPU/TPU 必要
可解释性较好差("黑盒")
性能上限有瓶颈数据越多越强

工作原理

人工神经网络

深度学习的底层构件是人工神经网络(ANN)

输入层(接收数据)
    ↓  权重 W + 偏置 b
隐藏层(特征提取)← 激活函数引入非线性

输出层(任务输出)

每个"神经元"的计算:

y=Activation(iwixi+b)

自动特征学习

深度学习不需要手工设计特征,通过反向传播自动学习:

猫咪图片识别:
第1层: 学习边缘、直线
第2层: 学习眼睛形状、毛发纹理
第3层: 学习"猫耳朵"、"猫脸"等高级特征
输出层: "这是猫"(95% 置信度)

四种学习范式

监督深度学习(最常见)

  • 定义:带标签的数据,有"标准答案"
  • 代表:图像分类(CNN)、语音识别、文本分类
  • 损失函数:交叉熵(分类)、MSE(回归)
python
# 典型的监督学习训练循环
for X, y in train_loader:
    pred = model(X)              # 前向传播
    loss = criterion(pred, y)    # 计算损失
    loss.backward()              # 反向传播
    optimizer.step()             # 更新参数

无监督深度学习

  • 定义:无标签数据,自发现内部结构
  • 代表:自编码器(Autoencoder)、GAN(生成对抗网络)、VAE

半监督深度学习

  • 定义:少量标签 + 大量无标签数据
  • 应用:GPT 预训练(无监督) + 微调(有监督)
  • 典型场景:医疗影像(标注成本高昂)

深度强化学习

  • 定义:智能体与环境交互,最大化累积奖励
  • 代表:DeepMind DQN(Atari游戏)、AlphaGo、机器人控制

常见架构

架构擅长核心组件
FNN/MLP表格数据全连接层
CNN图像/视频卷积层、池化层
RNN/LSTM/GRU序列数据循环单元、门控机制
Transformer语言、多模态自注意力机制
GAN生成任务生成器+判别器
扩散模型高质量图像生成去噪网络

历史沿革

年代事件
1950–1980感知机、多层前馈网络基本理论奠基
1986反向传播算法普及,多层网络成为可能
1986"深度学习"一词由 Rina Dechter 提出
1997LSTM 提出,解决序列建模长距离依赖
2006Hinton 提出深度信念网络,深度学习复兴
2012AlexNet 在 ImageNet 大幅领先,深度学习进入实用时代
2014GAN(生成对抗网络)提出
2015ResNet(152层)突破梯度消失
2017"Attention Is All You Need",Transformer 架构诞生
2018BERT、GPT 预训练语言模型革新 NLP
2020GPT-3(1750亿参数)刷新语言生成上限
2022ChatGPT 走进大众视野
2023+多模态大模型、AI Agent、扩散模型蓬勃发展

挑战与未来

当前挑战

挑战描述
计算与数据成本大模型训练需要数百万美元和海量标注数据
可解释性黑盒特性导致决策难以解释,引发伦理问题
泛化能力分布漂移(训练/测试分布不同)时性能下降
安全性对抗样本攻击、幻觉问题、偏见放大

未来趋势

趋势说明
小样本/自监督学习减少对标注数据的依赖
多模态融合视觉 + 语言 + 音频的统一理解
高效模型与量化轻量架构在边缘设备部署
AI Agent自主规划和执行复杂任务

学习路径建议

1. 数学基础(线性代数 + 微积分 + 概率)

2. 深度学习基础(激活函数→损失函数→反向传播→优化器)

3. 基础架构(FNN → CNN → RNN → LSTM)

4. Transformer 与 Attention 机制

5. 预训练大模型(BERT / GPT / LLM)

6. 工程实践(HuggingFace + 微调 + 部署)

AI 知识体系 — 从机器学习到大语言模型