监督学习

监督学习是机器学习中最基础也是应用最广泛的范式。通过学习带标签的训练数据，模型能够预测新数据的标签或数值。

共 3 篇文章·阅读时间：约40分钟

01分类问题

分类是监督学习的核心任务之一。模型学习从输入特征到离散类别的映射关系，输出是有限的类别标签。

分类类型

二分类

只有两个类别的分类问题，如垃圾邮件检测（垃圾/非垃圾）、疾病诊断（阳性/阴性）。

多分类

三个或更多类别的分类，如手写数字识别（0-9）、图像分类（猫、狗、鸟等）。

多标签分类

每个样本可以同时属于多个类别，如一篇新闻可以同时是"政治"和"经济"。

常见算法

逻辑回归：虽然名字带"回归"，但用于分类
决策树：易于理解，可解释性强
随机森林：集成多棵决策树，提高稳定性
支持向量机（SVM）：在高维空间表现优秀
朴素贝叶斯：基于概率，训练速度快
K近邻（KNN）：简单直观，基于距离

评估指标

准确率：正确预测的比例
精确率：预测为正的样本中真正为正的比例
召回率：真正为正的样本中被正确预测的比例
F1分数：精确率和召回率的调和平均

02回归问题

回归问题预测连续值输出。与分类不同，回归的输出是无限多的可能值中的一个。

回归概念

回归分析的目的是建立自变量（特征）与因变量（目标）之间的数学关系。模型输出是一个连续的数值。

分类 vs 回归

特性	分类	回归
输出类型	离散类别	连续数值
示例	垃圾邮件判断	房价预测
评估指标	准确率、F1	MSE、RMSE、MAE

常见算法

线性回归

最基础的回归算法，假设特征与目标之间存在线性关系。

多项式回归

通过添加高次项来捕捉非线性关系。

岭回归/Lasso回归

加入正则化项防止过拟合。

决策树回归

树模型也可以用于回归任务。

03常见算法

监督学习中有很多经典算法，每种算法都有其特点和适用场景。

线性算法

线性回归

原理：找到一条直线（或超平面）使得预测值与真实值的误差最小。
优点：简单、快速、可解释
缺点：只能捕捉线性关系

逻辑回归

原理：在线性回归基础上加上sigmoid函数，将输出映射到[0,1]。
优点：输出概率、可处理二分类和多分类
缺点：难以处理复杂非线性关系

树模型

决策树

原理：通过一系列的是/否问题进行分类或回归。
优点：易于理解、可处理非线性、可解释
缺点：容易过拟合、不稳定

随机森林

原理：集成多棵决策树，通过投票或平均得到最终结果。
优点：抗过拟合、处理高维数据、处理缺失值
缺点：计算成本较高、可解释性下降

梯度提升树（XGBoost/LightGBM）

原理：序列化训练决策树，每棵树学习前面树的残差。
优点：性能优异、处理各种数据类型
缺点：训练时间较长、参数较多

其他重要算法

支持向量机（SVM）：通过核函数映射到高维空间找最优分隔超平面
朴素贝叶斯：基于贝叶斯定理，假设特征条件独立
K近邻（KNN）：根据最近邻的标签投票或平均值
神经网络：多层感知机，可以学习复杂非线性关系

算法选择建议

数据量小：优先尝试逻辑回归、决策树
数据量大：考虑随机森林、XGBoost
需要可解释：决策树、逻辑回归
追求最高性能：XGBoost、神经网络

← 大模型时代

无监督学习 →