回归问题

回归是预测连续数值的任务。从房价预测到股票走势，回归问题在预测分析中扮演重要角色。理解回归是掌握机器学习的基础。

学习难度：入门·阅读时间：约10分钟

什么是回归

定义

回归任务是预测连续数值的问题：

输入：特征向量 x
输出：连续数值 y
目标：学习从特征到数值的映射

典型例子

房价预测：根据面积、位置等预测价格
销量预测：根据历史数据预测未来销量
温度预测：根据气象数据预测气温
股价预测：根据历史数据预测股票价格

与分类的区别

关键区别在于输出：

分类：输出离散类别
回归：输出连续数值

线性回归

基本形式

线性回归假设输出与输入呈线性关系：

y = wx + b

其中：
• w 是权重（斜率）
• b 是偏置（截距）

多元线性回归

多个特征的线性组合：

y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b

损失函数

最小化预测值与真实值的差距：

MSE：均方误差，最常用
MAE：平均绝对误差

求解方法

正规方程：解析解，小数据集快速
梯度下降：迭代优化，大数据集适用

多项式回归

非线性关系

当数据呈现非线性关系时，线性回归效果不佳。多项式回归通过添加高次项来拟合非线性：

y = w₁x + w₂x² + w₃x³ + ... + b

特征工程

多项式回归本质上是：

创建高次特征（x², x³, ...）
应用线性回归

过拟合风险

高次多项式容易过拟合：

训练集完美拟合，测试集表现差
需要选择合适的次数
使用正则化控制复杂度

正则化方法

为什么需要正则化

防止过拟合，控制模型复杂度：

限制权重的大小
减少模型复杂度
提高泛化能力

L2正则化（Ridge）

在损失函数中添加权重的平方和：
Loss = MSE + λ Σ wᵢ²

特点：权重趋于较小但不为零，适合处理共线性。

L1正则化（Lasso）

在损失函数中添加权重的绝对值：
Loss = MSE + λ Σ |wᵢ|

特点：部分权重变为零，产生稀疏解，可用于特征选择。

Elastic Net

结合L1和L2：

Loss = MSE + λ₁ Σ |wᵢ| + λ₂ Σ wᵢ²

评估指标

常用指标

指标	公式	特点
MSE	Σ(y - ŷ)² / n	对大误差敏感
RMSE	√MSE	与原数据同单位
MAE	Σ\|y - ŷ\| / n	对异常值鲁棒
R²	1 - SS_res / SS_tot	可解释性

R²分数

R²衡量模型解释了多少数据变异：

R² = 1：完美预测
R² = 0：与均值预测相同
R² < 0：比均值预测还差

实际应用

房价预测：根据特征预测房价
销量预测：预测产品销量
用户价值预测：预测用户生命周期价值
风险评分：预测违约风险分数
需求预测：预测库存需求
能耗预测：预测用电量