机器学习概述

机器学习让计算机从数据中学习，而不需要明确编程每一条规则。

什么是机器学习？

机器学习（Machine Learning） 是人工智能的子集，它使用统计方法让计算机系统从数据中学习，并随着经验的积累改善性能，而无需针对每个任务进行显式编程。

经典定义（Tom Mitchell, 1997）：

如果一个程序在任务 T 上的性能 P，随着经验 E 的积累而提高，则称该程序对任务 T 在 P 的度量下从经验 E 中学习。

机器学习的三大范式

1. 监督学习 (Supervised Learning)

核心思想：从有标签的数据中学习输入到输出的映射关系。

训练数据格式： $(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})$
目标：学习函数 $f : X \to Y$ ，使得 $f (x) \approx y$

应用场景：

任务类型	输出	示例
分类 (Classification)	离散标签	垃圾邮件检测、图像识别
回归 (Regression)	连续数值	房价预测、股票价格

代表算法：线性回归、逻辑回归、决策树、SVM、神经网络

2. 无监督学习 (Unsupervised Learning)

核心思想：从无标签的数据中发现隐藏的模式或结构。

训练数据格式： $x_{1}, x_{2}, \dots, x_{n}$ （只有输入，没有标签）
目标：发现数据的内在结构

应用场景：

任务类型	目标	示例
聚类 (Clustering)	将相似数据分组	客户细分、新闻分类
降维 (Dimensionality Reduction)	减少特征数量	数据可视化、特征提取
密度估计	学习数据分布	异常检测

代表算法：K-Means、DBSCAN、PCA、Autoencoder

3. 强化学习 (Reinforcement Learning)

核心思想：智能体通过与环境交互，根据奖励信号学习最优策略。

核心概念：
- 智能体（Agent）：学习者
- 环境（Environment）：世界
- 状态（State）：当前情况
- 动作（Action）：智能体的选择
- 奖励（Reward）：好坏信号

应用场景：游戏 AI（AlphaGo）、机器人控制、自动驾驶、推荐系统

        观察状态 s_t
     ┌─────────────────────┐
     │                     ↓
  环境 ←──动作 a_t── 智能体
     │                     ↑
     └──奖励 r_t───────────┘

4. 半监督学习 (Semi-Supervised Learning)

结合少量标签数据和大量无标签数据，在标注成本高昂时非常有用。

现代大语言模型的预训练（如 GPT、BERT）就是半监督学习的成功案例。

机器学习的工作流程

┌─────────────┐   ┌─────────────┐   ┌─────────────┐
│  数据收集    │ → │  数据处理    │ → │  特征工程    │
│ Data Collection│   │Data Cleaning│   │   Feature   │
│              │   │ & EDA        │   │ Engineering │
└─────────────┘   └─────────────┘   └─────────────┘
                                            ↓
┌─────────────┐   ┌─────────────┐   ┌─────────────┐
│  模型部署    │ ← │  模型评估    │ ← │  模型训练    │
│  Deployment  │   │  Evaluation  │   │  Training   │
└─────────────┘   └─────────────┘   └─────────────┘

核心概念

过拟合与欠拟合

         欠拟合                最优               过拟合
    (High Bias)          (Just Right)        (High Variance)
         |                    |                    |
 训练损失大            训练损失小              训练损失小
 测试损失大            测试损失小              测试损失大
 模型太简单            恰好拟合                模型记住了训练集

解决欠拟合：增加模型复杂度、增加特征、减少正则化

解决过拟合：增加数据、正则化（L1/L2）、Dropout、早停、交叉验证

偏差-方差权衡 (Bias-Variance Tradeoff)

期望误差 = {偏差}^{2} + 方差 + 不可约误差

偏差（Bias）：模型预测值的系统性偏移，反映模型的表达能力
方差（Variance）：模型对训练数据的敏感程度，反映泛化能力

偏差	方差	状态
高	低	欠拟合（过于简单的模型）
低	高	过拟合（过于复杂的模型）
低	低	理想状态 ✅
高	高	最差情况 ❌

本章目录

章节	内容
特征工程	如何准备好输入模型的特征
模型评估与选择	如何评估模型好坏，选择合适模型
评估指标	准确率、精确率、召回率、F1、AUC-ROC

机器学习概述 ​

什么是机器学习？ ​

机器学习的三大范式 ​

1. 监督学习 (Supervised Learning) ​

2. 无监督学习 (Unsupervised Learning) ​

3. 强化学习 (Reinforcement Learning) ​

4. 半监督学习 (Semi-Supervised Learning) ​

机器学习的工作流程 ​

核心概念 ​

过拟合与欠拟合 ​

偏差-方差权衡 (Bias-Variance Tradeoff) ​

本章目录 ​