无监督学习

无监督学习从没有标签的数据中发现隐藏的模式和结构。它不需要人工标注的数据，能够自动从数据中学习。

共 3 篇文章·阅读时间：约35分钟

01聚类算法

聚类是将相似的样本分到同一组的任务。它帮助我们发现数据中的自然分组，是探索性数据分析的重要工具。

聚类概念

聚类算法根据样本之间的相似度（或距离）将数据分组。同一簇内的样本应该相似，不同簇的样本应该不相似。

应用场景

客户细分：将客户按行为特征分组
图像分割：将图像像素按颜色或纹理分组
异常检测：不属于任何簇的样本可能是异常
文本聚类：将相似文档归为一类

常见算法

K-Means

原理：随机选择K个中心点，迭代分配样本到最近的中心并更新中心位置。
优点：简单高效、适用于大数据
缺点：需要预设K值、对初始中心敏感、只能发现球形簇

层次聚类

原理：构建聚类树（树状图），可以自顶向下或自底向上。
优点：不需要预设K值、可解释性强
缺点：计算复杂度高

DBSCAN

原理：基于密度的聚类，核心点要求周围有一定数量的邻居。
优点：不需要预设K值、能发现任意形状的簇、可检测异常
缺点：对参数敏感、高维数据效果下降

高斯混合模型（GMM）

原理：假设数据由多个高斯分布混合而成，使用EM算法估计参数。
优点：软聚类（给出概率）、可发现椭圆形簇
缺点：需要预设高斯数量、可能陷入局部最优

02降维技术

降维将高维数据映射到低维空间，同时尽可能保留重要信息。它是处理高维数据的重要手段。

降维概念

维度灾难是指随着特征数量增加，数据变得稀疏，模型性能下降。降维通过捕捉数据的主要变化方向来解决这个问题。

为什么需要降维

可视化：将高维数据降到2-3维进行可视化
减少计算：降低存储和计算成本
去噪声：去除不重要的特征，减少噪声
缓解维度灾难：提高模型性能和泛化能力

常见方法

PCA（主成分分析）

原理：找到数据方差最大的正交方向（主成分），将数据投影到前K个主成分。
优点：无参数、计算高效、可解释
缺点：只能捕捉线性关系

t-SNE

原理：保持高维和低维空间中样本的相似度，使用t分布来计算低维空间的概率。
优点：擅长保留局部结构、适合可视化
缺点：计算慢、结果不稳定、只用于可视化

UMAP

原理：基于拓扑数据分析，使用模糊单纯复形表示。
优点：比t-SNE更快、保留更多全局结构
缺点：相对较新

LDA（线性判别分析）

原理：有监督的降维方法，最大化类间方差与类内方差之比。
优点：考虑类别信息、适合分类前的预处理
缺点：只能降到K-1维（K为类别数）

03生成模型

生成模型学习数据的分布，能够生成与训练数据相似的新样本。它们在图像生成、文本生成等领域有重要应用。

生成模型概念

生成模型的核心任务是学习数据的概率分布 p(X)，然后可以从中采样生成新样本。与判别模型不同，生成模型建模的是数据的生成过程。

生成模型 vs 判别模型

特性	生成模型	判别模型
建模对象	p(X) 或 p(X\|Y)	p(Y\|X)
任务	学习数据分布	分类/回归
可以	生成新样本	预测标签
示例	GAN、VAE	逻辑回归、SVM

常见算法

变分自编码器（VAE）

原理：使用编码器将数据压缩到潜在空间，解码器从潜在空间重建数据。潜在空间是正则化的，便于采样。
优点：训练稳定、可生成新样本
缺点：生成样本质量不如GAN

生成对抗网络（GAN）

原理：同时训练生成器和判别器，生成器试图生成逼真的样本欺骗判别器，判别器试图区分真假样本。
优点：生成高质量样本
缺点：训练不稳定、模式崩溃

自回归模型

原理：逐步生成数据，每一步基于前一步的输出。如 PixelRNN、PixelCNN。
优点：训练稳定、生成质量好
缺点：生成速度慢

深度生成模型

近年来，深度生成模型取得了巨大进展。Diffusion模型（Stable Diffusion、DALL-E）成为图像生成的主流。GPT等语言模型本质上也是自回归生成模型。无监督学习正在催生越来越强大的生成能力。

← 监督学习

强化学习 →