监督学习
监督学习是机器学习中最基础也是应用最广泛的范式。通过学习带标签的训练数据,模型能够预测新数据的标签或数值。
共 3 篇文章·阅读时间:约40分钟
01分类问题
分类是监督学习的核心任务之一。模型学习从输入特征到离散类别的映射关系,输出是有限的类别标签。
分类类型
二分类
只有两个类别的分类问题,如垃圾邮件检测(垃圾/非垃圾)、疾病诊断(阳性/阴性)。
多分类
三个或更多类别的分类,如手写数字识别(0-9)、图像分类(猫、狗、鸟等)。
多标签分类
每个样本可以同时属于多个类别,如一篇新闻可以同时是"政治"和"经济"。
常见算法
- 逻辑回归:虽然名字带"回归",但用于分类
- 决策树:易于理解,可解释性强
- 随机森林:集成多棵决策树,提高稳定性
- 支持向量机(SVM):在高维空间表现优秀
- 朴素贝叶斯:基于概率,训练速度快
- K近邻(KNN):简单直观,基于距离
评估指标
- 准确率:正确预测的比例
- 精确率:预测为正的样本中真正为正的比例
- 召回率:真正为正的样本中被正确预测的比例
- F1分数:精确率和召回率的调和平均
02回归问题
回归问题预测连续值输出。与分类不同,回归的输出是无限多的可能值中的一个。
回归概念
回归分析的目的是建立自变量(特征)与因变量(目标)之间的数学关系。模型输出是一个连续的数值。
分类 vs 回归
| 特性 | 分类 | 回归 |
|---|---|---|
| 输出类型 | 离散类别 | 连续数值 |
| 示例 | 垃圾邮件判断 | 房价预测 |
| 评估指标 | 准确率、F1 | MSE、RMSE、MAE |
常见算法
线性回归
最基础的回归算法,假设特征与目标之间存在线性关系。
多项式回归
通过添加高次项来捕捉非线性关系。
岭回归/Lasso回归
加入正则化项防止过拟合。
决策树回归
树模型也可以用于回归任务。
03常见算法
监督学习中有很多经典算法,每种算法都有其特点和适用场景。
线性算法
线性回归
原理:找到一条直线(或超平面)使得预测值与真实值的误差最小。
优点:简单、快速、可解释
缺点:只能捕捉线性关系
逻辑回归
原理:在线性回归基础上加上sigmoid函数,将输出映射到[0,1]。
优点:输出概率、可处理二分类和多分类
缺点:难以处理复杂非线性关系
树模型
决策树
原理:通过一系列的是/否问题进行分类或回归。
优点:易于理解、可处理非线性、可解释
缺点:容易过拟合、不稳定
随机森林
原理:集成多棵决策树,通过投票或平均得到最终结果。
优点:抗过拟合、处理高维数据、处理缺失值
缺点:计算成本较高、可解释性下降
梯度提升树(XGBoost/LightGBM)
原理:序列化训练决策树,每棵树学习前面树的残差。
优点:性能优异、处理各种数据类型
缺点:训练时间较长、参数较多
其他重要算法
- 支持向量机(SVM):通过核函数映射到高维空间找最优分隔超平面
- 朴素贝叶斯:基于贝叶斯定理,假设特征条件独立
- K近邻(KNN):根据最近邻的标签投票或平均值
- 神经网络:多层感知机,可以学习复杂非线性关系
算法选择建议
- 数据量小:优先尝试逻辑回归、决策树
- 数据量大:考虑随机森林、XGBoost
- 需要可解释:决策树、逻辑回归
- 追求最高性能:XGBoost、神经网络