机器学习概述
机器学习让计算机从数据中学习,而不需要明确编程每一条规则。
什么是机器学习?
机器学习(Machine Learning) 是人工智能的子集,它使用统计方法让计算机系统从数据中学习,并随着经验的积累改善性能,而无需针对每个任务进行显式编程。
经典定义(Tom Mitchell, 1997):
如果一个程序在任务 T 上的性能 P,随着经验 E 的积累而提高,则称该程序对任务 T 在 P 的度量下从经验 E 中学习。
机器学习的三大范式
1. 监督学习 (Supervised Learning)
核心思想:从有标签的数据中学习输入到输出的映射关系。
- 训练数据格式:
- 目标:学习函数
,使得
应用场景:
| 任务类型 | 输出 | 示例 |
|---|---|---|
| 分类 (Classification) | 离散标签 | 垃圾邮件检测、图像识别 |
| 回归 (Regression) | 连续数值 | 房价预测、股票价格 |
代表算法:线性回归、逻辑回归、决策树、SVM、神经网络
2. 无监督学习 (Unsupervised Learning)
核心思想:从无标签的数据中发现隐藏的模式或结构。
- 训练数据格式:
(只有输入,没有标签) - 目标:发现数据的内在结构
应用场景:
| 任务类型 | 目标 | 示例 |
|---|---|---|
| 聚类 (Clustering) | 将相似数据分组 | 客户细分、新闻分类 |
| 降维 (Dimensionality Reduction) | 减少特征数量 | 数据可视化、特征提取 |
| 密度估计 | 学习数据分布 | 异常检测 |
代表算法:K-Means、DBSCAN、PCA、Autoencoder
3. 强化学习 (Reinforcement Learning)
核心思想:智能体通过与环境交互,根据奖励信号学习最优策略。
- 核心概念:
- 智能体(Agent):学习者
- 环境(Environment):世界
- 状态(State):当前情况
- 动作(Action):智能体的选择
- 奖励(Reward):好坏信号
应用场景:游戏 AI(AlphaGo)、机器人控制、自动驾驶、推荐系统
观察状态 s_t
┌─────────────────────┐
│ ↓
环境 ←──动作 a_t── 智能体
│ ↑
└──奖励 r_t───────────┘4. 半监督学习 (Semi-Supervised Learning)
结合少量标签数据和大量无标签数据,在标注成本高昂时非常有用。
现代大语言模型的预训练(如 GPT、BERT)就是半监督学习的成功案例。
机器学习的工作流程
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 数据收集 │ → │ 数据处理 │ → │ 特征工程 │
│ Data Collection│ │Data Cleaning│ │ Feature │
│ │ │ & EDA │ │ Engineering │
└─────────────┘ └─────────────┘ └─────────────┘
↓
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 模型部署 │ ← │ 模型评估 │ ← │ 模型训练 │
│ Deployment │ │ Evaluation │ │ Training │
└─────────────┘ └─────────────┘ └─────────────┘核心概念
过拟合与欠拟合
欠拟合 最优 过拟合
(High Bias) (Just Right) (High Variance)
| | |
训练损失大 训练损失小 训练损失小
测试损失大 测试损失小 测试损失大
模型太简单 恰好拟合 模型记住了训练集解决欠拟合:增加模型复杂度、增加特征、减少正则化
解决过拟合:增加数据、正则化(L1/L2)、Dropout、早停、交叉验证
偏差-方差权衡 (Bias-Variance Tradeoff)
- 偏差(Bias):模型预测值的系统性偏移,反映模型的表达能力
- 方差(Variance):模型对训练数据的敏感程度,反映泛化能力
| 偏差 | 方差 | 状态 |
|---|---|---|
| 高 | 低 | 欠拟合(过于简单的模型) |
| 低 | 高 | 过拟合(过于复杂的模型) |
| 低 | 低 | 理想状态 ✅ |
| 高 | 高 | 最差情况 ❌ |
本章目录
| 章节 | 内容 |
|---|---|
| 特征工程 | 如何准备好输入模型的特征 |
| 模型评估与选择 | 如何评估模型好坏,选择合适模型 |
| 评估指标 | 准确率、精确率、召回率、F1、AUC-ROC |