Skip to content

机器学习概述

机器学习让计算机从数据中学习,而不需要明确编程每一条规则。

什么是机器学习?

机器学习(Machine Learning) 是人工智能的子集,它使用统计方法让计算机系统从数据中学习,并随着经验的积累改善性能,而无需针对每个任务进行显式编程。

经典定义(Tom Mitchell, 1997):

如果一个程序在任务 T 上的性能 P,随着经验 E 的积累而提高,则称该程序对任务 T 在 P 的度量下从经验 E 中学习。

机器学习的三大范式

1. 监督学习 (Supervised Learning)

核心思想:从有标签的数据中学习输入到输出的映射关系。

  • 训练数据格式(x1,y1),(x2,y2),,(xn,yn)
  • 目标:学习函数 f:XY,使得 f(x)y

应用场景

任务类型输出示例
分类 (Classification)离散标签垃圾邮件检测、图像识别
回归 (Regression)连续数值房价预测、股票价格

代表算法:线性回归、逻辑回归、决策树、SVM、神经网络

2. 无监督学习 (Unsupervised Learning)

核心思想:从无标签的数据中发现隐藏的模式或结构。

  • 训练数据格式x1,x2,,xn(只有输入,没有标签)
  • 目标:发现数据的内在结构

应用场景

任务类型目标示例
聚类 (Clustering)将相似数据分组客户细分、新闻分类
降维 (Dimensionality Reduction)减少特征数量数据可视化、特征提取
密度估计学习数据分布异常检测

代表算法:K-Means、DBSCAN、PCA、Autoencoder

3. 强化学习 (Reinforcement Learning)

核心思想:智能体通过与环境交互,根据奖励信号学习最优策略。

  • 核心概念
    • 智能体(Agent):学习者
    • 环境(Environment):世界
    • 状态(State):当前情况
    • 动作(Action):智能体的选择
    • 奖励(Reward):好坏信号

应用场景:游戏 AI(AlphaGo)、机器人控制、自动驾驶、推荐系统

        观察状态 s_t
     ┌─────────────────────┐
     │                     ↓
  环境 ←──动作 a_t── 智能体
     │                     ↑
     └──奖励 r_t───────────┘

4. 半监督学习 (Semi-Supervised Learning)

结合少量标签数据和大量无标签数据,在标注成本高昂时非常有用。

现代大语言模型的预训练(如 GPT、BERT)就是半监督学习的成功案例。

机器学习的工作流程

┌─────────────┐   ┌─────────────┐   ┌─────────────┐
│  数据收集    │ → │  数据处理    │ → │  特征工程    │
│ Data Collection│   │Data Cleaning│   │   Feature   │
│              │   │ & EDA        │   │ Engineering │
└─────────────┘   └─────────────┘   └─────────────┘

┌─────────────┐   ┌─────────────┐   ┌─────────────┐
│  模型部署    │ ← │  模型评估    │ ← │  模型训练    │
│  Deployment  │   │  Evaluation  │   │  Training   │
└─────────────┘   └─────────────┘   └─────────────┘

核心概念

过拟合与欠拟合

         欠拟合                最优               过拟合
    (High Bias)          (Just Right)        (High Variance)
         |                    |                    |
 训练损失大            训练损失小              训练损失小
 测试损失大            测试损失小              测试损失大
 模型太简单            恰好拟合                模型记住了训练集

解决欠拟合:增加模型复杂度、增加特征、减少正则化

解决过拟合:增加数据、正则化(L1/L2)、Dropout、早停、交叉验证

偏差-方差权衡 (Bias-Variance Tradeoff)

期望误差=偏差2+方差+不可约误差
  • 偏差(Bias):模型预测值的系统性偏移,反映模型的表达能力
  • 方差(Variance):模型对训练数据的敏感程度,反映泛化能力
偏差方差状态
欠拟合(过于简单的模型)
过拟合(过于复杂的模型)
理想状态 ✅
最差情况 ❌

本章目录

章节内容
特征工程如何准备好输入模型的特征
模型评估与选择如何评估模型好坏,选择合适模型
评估指标准确率、精确率、召回率、F1、AUC-ROC

AI 知识体系 — 从机器学习到大语言模型