回归问题

回归是预测连续数值的任务。从房价预测到股票走势,回归问题在预测分析中扮演重要角色。理解回归是掌握机器学习的基础。

学习难度:入门·阅读时间:约10分钟

什么是回归

定义

回归任务是预测连续数值的问题:

  • 输入:特征向量 x
  • 输出:连续数值 y
  • 目标:学习从特征到数值的映射

典型例子

  • 房价预测:根据面积、位置等预测价格
  • 销量预测:根据历史数据预测未来销量
  • 温度预测:根据气象数据预测气温
  • 股价预测:根据历史数据预测股票价格

与分类的区别

关键区别在于输出:

  • 分类:输出离散类别
  • 回归:输出连续数值

线性回归

基本形式

线性回归假设输出与输入呈线性关系:

y = wx + b

其中:
• w 是权重(斜率)
• b 是偏置(截距)

多元线性回归

多个特征的线性组合:

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

损失函数

最小化预测值与真实值的差距:

  • MSE:均方误差,最常用
  • MAE:平均绝对误差

求解方法

  • 正规方程:解析解,小数据集快速
  • 梯度下降:迭代优化,大数据集适用

多项式回归

非线性关系

当数据呈现非线性关系时,线性回归效果不佳。多项式回归通过添加高次项来拟合非线性:

y = w₁x + w₂x² + w₃x³ + ... + b

特征工程

多项式回归本质上是:

  1. 创建高次特征(x², x³, ...)
  2. 应用线性回归

过拟合风险

高次多项式容易过拟合:

  • 训练集完美拟合,测试集表现差
  • 需要选择合适的次数
  • 使用正则化控制复杂度

正则化方法

为什么需要正则化

防止过拟合,控制模型复杂度:

  • 限制权重的大小
  • 减少模型复杂度
  • 提高泛化能力

L2正则化(Ridge)

在损失函数中添加权重的平方和:
Loss = MSE + λ Σ wᵢ²

特点:权重趋于较小但不为零,适合处理共线性。

L1正则化(Lasso)

在损失函数中添加权重的绝对值:
Loss = MSE + λ Σ |wᵢ|

特点:部分权重变为零,产生稀疏解,可用于特征选择。

Elastic Net

结合L1和L2:

Loss = MSE + λ₁ Σ |wᵢ| + λ₂ Σ wᵢ²

评估指标

常用指标

指标公式特点
MSEΣ(y - ŷ)² / n对大误差敏感
RMSE√MSE与原数据同单位
MAEΣ|y - ŷ| / n对异常值鲁棒
1 - SS_res / SS_tot可解释性

R²分数

R²衡量模型解释了多少数据变异:

  • R² = 1:完美预测
  • R² = 0:与均值预测相同
  • R² < 0:比均值预测还差

实际应用

  • 房价预测:根据特征预测房价
  • 销量预测:预测产品销量
  • 用户价值预测:预测用户生命周期价值
  • 风险评分:预测违约风险分数
  • 需求预测:预测库存需求
  • 能耗预测:预测用电量
----