无监督学习
无监督学习从没有标签的数据中发现隐藏的模式和结构。它不需要人工标注的数据,能够自动从数据中学习。
01聚类算法
聚类是将相似的样本分到同一组的任务。它帮助我们发现数据中的自然分组,是探索性数据分析的重要工具。
聚类概念
聚类算法根据样本之间的相似度(或距离)将数据分组。同一簇内的样本应该相似,不同簇的样本应该不相似。
应用场景
- 客户细分:将客户按行为特征分组
- 图像分割:将图像像素按颜色或纹理分组
- 异常检测:不属于任何簇的样本可能是异常
- 文本聚类:将相似文档归为一类
常见算法
K-Means
原理:随机选择K个中心点,迭代分配样本到最近的中心并更新中心位置。
优点:简单高效、适用于大数据
缺点:需要预设K值、对初始中心敏感、只能发现球形簇
层次聚类
原理:构建聚类树(树状图),可以自顶向下或自底向上。
优点:不需要预设K值、可解释性强
缺点:计算复杂度高
DBSCAN
原理:基于密度的聚类,核心点要求周围有一定数量的邻居。
优点:不需要预设K值、能发现任意形状的簇、可检测异常
缺点:对参数敏感、高维数据效果下降
高斯混合模型(GMM)
原理:假设数据由多个高斯分布混合而成,使用EM算法估计参数。
优点:软聚类(给出概率)、可发现椭圆形簇
缺点:需要预设高斯数量、可能陷入局部最优
02降维技术
降维将高维数据映射到低维空间,同时尽可能保留重要信息。它是处理高维数据的重要手段。
降维概念
维度灾难是指随着特征数量增加,数据变得稀疏,模型性能下降。降维通过捕捉数据的主要变化方向来解决这个问题。
为什么需要降维
- 可视化:将高维数据降到2-3维进行可视化
- 减少计算:降低存储和计算成本
- 去噪声:去除不重要的特征,减少噪声
- 缓解维度灾难:提高模型性能和泛化能力
常见方法
PCA(主成分分析)
原理:找到数据方差最大的正交方向(主成分),将数据投影到前K个主成分。
优点:无参数、计算高效、可解释
缺点:只能捕捉线性关系
t-SNE
原理:保持高维和低维空间中样本的相似度,使用t分布来计算低维空间的概率。
优点:擅长保留局部结构、适合可视化
缺点:计算慢、结果不稳定、只用于可视化
UMAP
原理:基于拓扑数据分析,使用模糊单纯复形表示。
优点:比t-SNE更快、保留更多全局结构
缺点:相对较新
LDA(线性判别分析)
原理:有监督的降维方法,最大化类间方差与类内方差之比。
优点:考虑类别信息、适合分类前的预处理
缺点:只能降到K-1维(K为类别数)
03生成模型
生成模型学习数据的分布,能够生成与训练数据相似的新样本。它们在图像生成、文本生成等领域有重要应用。
生成模型概念
生成模型的核心任务是学习数据的概率分布 p(X),然后可以从中采样生成新样本。与判别模型不同,生成模型建模的是数据的生成过程。
生成模型 vs 判别模型
| 特性 | 生成模型 | 判别模型 |
|---|---|---|
| 建模对象 | p(X) 或 p(X|Y) | p(Y|X) |
| 任务 | 学习数据分布 | 分类/回归 |
| 可以 | 生成新样本 | 预测标签 |
| 示例 | GAN、VAE | 逻辑回归、SVM |
常见算法
变分自编码器(VAE)
原理:使用编码器将数据压缩到潜在空间,解码器从潜在空间重建数据。潜在空间是正则化的,便于采样。
优点:训练稳定、可生成新样本
缺点:生成样本质量不如GAN
生成对抗网络(GAN)
原理:同时训练生成器和判别器,生成器试图生成逼真的样本欺骗判别器,判别器试图区分真假样本。
优点:生成高质量样本
缺点:训练不稳定、模式崩溃
自回归模型
原理:逐步生成数据,每一步基于前一步的输出。如 PixelRNN、PixelCNN。
优点:训练稳定、生成质量好
缺点:生成速度慢
深度生成模型
近年来,深度生成模型取得了巨大进展。Diffusion模型(Stable Diffusion、DALL-E)成为图像生成的主流。GPT等语言模型本质上也是自回归生成模型。无监督学习正在催生越来越强大的生成能力。