无监督学习
无监督学习:没有标签,让算法自己在数据中发现结构、模式和规律。
什么是无监督学习?
与监督学习不同,无监督学习的训练数据没有标签:
监督学习:(X, y) → 学习 f(X) ≈ y
无监督学习:只有 X → 发现数据内部结构核心挑战:没有"标准答案",如何评估结果?
三大任务类型
聚类(Clustering)
将数据分成若干自然群组,同组内相似,不同组间差异大。
- 应用:客户细分、图像分割、文档分类
- 代表算法:K-Means、DBSCAN、层次聚类、GMM
降维(Dimensionality Reduction)
将高维数据映射到低维空间,保留关键信息,去除冗余。
- 应用:数据可视化、特征压缩、去噪
- 代表算法:PCA、t-SNE、UMAP、自编码器
密度估计(Density Estimation)
学习数据的概率分布,用于生成新样本或检测异常。
- 应用:异常检测、生成模型
- 代表算法:GMM、核密度估计(KDE)、VAE、GAN
本章目录
| 主题 | 内容 |
|---|---|
| 聚类算法 | K-Means、DBSCAN、层次聚类、GMM 及选择指南 |
| 降维算法 | PCA、t-SNE 数学原理与工程实践 |
与监督学习的关系
无监督学习常作为监督学习的前处理步骤:
原始高维数据
↓ PCA 降维(无监督)
低维特征
↓ 逻辑回归(有监督)
分类结果或用于半监督学习:少量标签 + 大量无标签数据,通过聚类先分组再标注。
挑战与注意事项
- 无法量化好坏:缺少标签,只能用内部指标(轮廓系数等)
- 结果依赖算法和参数:K-Means 的 K 值、DBSCAN 的 ε 值
- 高维数据的"维度诅咒":维度越高,距离度量越失效,先降维再聚类
- 可解释性挑战:发现的"群组"是否有业务意义