Skip to content

无监督学习

无监督学习:没有标签,让算法自己在数据中发现结构、模式和规律。

什么是无监督学习?

与监督学习不同,无监督学习的训练数据没有标签

监督学习:(X, y) → 学习 f(X) ≈ y
无监督学习:只有 X → 发现数据内部结构

核心挑战:没有"标准答案",如何评估结果?

三大任务类型

聚类(Clustering)

将数据分成若干自然群组,同组内相似,不同组间差异大。

  • 应用:客户细分、图像分割、文档分类
  • 代表算法:K-Means、DBSCAN、层次聚类、GMM

降维(Dimensionality Reduction)

将高维数据映射到低维空间,保留关键信息,去除冗余。

  • 应用:数据可视化、特征压缩、去噪
  • 代表算法:PCA、t-SNE、UMAP、自编码器

密度估计(Density Estimation)

学习数据的概率分布,用于生成新样本或检测异常。

  • 应用:异常检测、生成模型
  • 代表算法:GMM、核密度估计(KDE)、VAE、GAN

本章目录

主题内容
聚类算法K-Means、DBSCAN、层次聚类、GMM 及选择指南
降维算法PCA、t-SNE 数学原理与工程实践

与监督学习的关系

无监督学习常作为监督学习的前处理步骤

原始高维数据
    ↓ PCA 降维(无监督)
低维特征
    ↓ 逻辑回归(有监督)
分类结果

或用于半监督学习:少量标签 + 大量无标签数据,通过聚类先分组再标注。

挑战与注意事项

  • 无法量化好坏:缺少标签,只能用内部指标(轮廓系数等)
  • 结果依赖算法和参数:K-Means 的 K 值、DBSCAN 的 ε 值
  • 高维数据的"维度诅咒":维度越高,距离度量越失效,先降维再聚类
  • 可解释性挑战:发现的"群组"是否有业务意义

AI 知识体系 — 从机器学习到大语言模型