回归问题
回归是预测连续数值的任务。从房价预测到股票走势,回归问题在预测分析中扮演重要角色。理解回归是掌握机器学习的基础。
学习难度:入门·阅读时间:约10分钟
什么是回归
定义
回归任务是预测连续数值的问题:
- 输入:特征向量 x
- 输出:连续数值 y
- 目标:学习从特征到数值的映射
典型例子
- 房价预测:根据面积、位置等预测价格
- 销量预测:根据历史数据预测未来销量
- 温度预测:根据气象数据预测气温
- 股价预测:根据历史数据预测股票价格
与分类的区别
关键区别在于输出:
- 分类:输出离散类别
- 回归:输出连续数值
线性回归
基本形式
线性回归假设输出与输入呈线性关系:
y = wx + b
其中:
• w 是权重(斜率)
• b 是偏置(截距)
多元线性回归
多个特征的线性组合:
y = w₁x₁ + w₂x₂ + ... + wₙxₙ + b
损失函数
最小化预测值与真实值的差距:
- MSE:均方误差,最常用
- MAE:平均绝对误差
求解方法
- 正规方程:解析解,小数据集快速
- 梯度下降:迭代优化,大数据集适用
多项式回归
非线性关系
当数据呈现非线性关系时,线性回归效果不佳。多项式回归通过添加高次项来拟合非线性:
y = w₁x + w₂x² + w₃x³ + ... + b
特征工程
多项式回归本质上是:
- 创建高次特征(x², x³, ...)
- 应用线性回归
过拟合风险
高次多项式容易过拟合:
- 训练集完美拟合,测试集表现差
- 需要选择合适的次数
- 使用正则化控制复杂度
正则化方法
为什么需要正则化
防止过拟合,控制模型复杂度:
- 限制权重的大小
- 减少模型复杂度
- 提高泛化能力
L2正则化(Ridge)
在损失函数中添加权重的平方和:
Loss = MSE + λ Σ wᵢ²
特点:权重趋于较小但不为零,适合处理共线性。
L1正则化(Lasso)
在损失函数中添加权重的绝对值:
Loss = MSE + λ Σ |wᵢ|
特点:部分权重变为零,产生稀疏解,可用于特征选择。
Elastic Net
结合L1和L2:
Loss = MSE + λ₁ Σ |wᵢ| + λ₂ Σ wᵢ²
评估指标
常用指标
| 指标 | 公式 | 特点 |
|---|---|---|
| MSE | Σ(y - ŷ)² / n | 对大误差敏感 |
| RMSE | √MSE | 与原数据同单位 |
| MAE | Σ|y - ŷ| / n | 对异常值鲁棒 |
| R² | 1 - SS_res / SS_tot | 可解释性 |
R²分数
R²衡量模型解释了多少数据变异:
- R² = 1:完美预测
- R² = 0:与均值预测相同
- R² < 0:比均值预测还差
实际应用
- 房价预测:根据特征预测房价
- 销量预测:预测产品销量
- 用户价值预测:预测用户生命周期价值
- 风险评分:预测违约风险分数
- 需求预测:预测库存需求
- 能耗预测:预测用电量