无监督学习

无监督学习：没有标签，让算法自己在数据中发现结构、模式和规律。

什么是无监督学习？

与监督学习不同，无监督学习的训练数据没有标签：

监督学习：(X, y) → 学习 f(X) ≈ y
无监督学习：只有 X → 发现数据内部结构

核心挑战：没有"标准答案"，如何评估结果？

将数据分成若干自然群组，同组内相似，不同组间差异大。

将高维数据映射到低维空间，保留关键信息，去除冗余。

学习数据的概率分布，用于生成新样本或检测异常。

主题	内容
聚类算法	K-Means、DBSCAN、层次聚类、GMM 及选择指南
降维算法	PCA、t-SNE 数学原理与工程实践

无监督学习常作为监督学习的前处理步骤：

原始高维数据
    ↓ PCA 降维（无监督）
低维特征
    ↓ 逻辑回归（有监督）
分类结果

或用于半监督学习：少量标签 + 大量无标签数据，通过聚类先分组再标注。