交叉验证

交叉验证是评估模型泛化能力的可靠方法。通过多次训练和验证，交叉验证提供更稳定、更可靠的性能估计，是机器学习实践中的必备技术。

学习难度：入门·阅读时间：约10分钟

什么是交叉验证

简单划分的问题

简单的训练-测试划分存在问题：

评估结果依赖于划分方式
数据量小时浪费数据
估计不稳定，方差大

交叉验证思想

交叉验证的核心理念：

将数据分成多个子集
每次用不同子集做验证
多次评估取平均
更可靠的性能估计

为什么重要

评估模型的真实泛化能力
检测过拟合问题
指导超参数选择
比较不同模型

K折交叉验证

基本流程

将数据随机分成K个大小相近的子集
对于每个子集i：
- 用第i个子集做验证集
- 用其余K-1个子集做训练集
- 训练并评估模型
计算K次评估的平均值

K值选择

K=5：常用选择，平衡计算成本和估计质量
K=10：更精确，但计算量更大
K=N：留一验证（LOOCV）

计算成本

K折交叉验证需要训练K次模型，计算成本是简单划分的K倍。对于大模型或大数据，可能需要权衡。

交叉验证变体

分层K折交叉验证

适用于类别不平衡的数据：

每个fold中类别比例与整体一致
确保小类别的评估可靠
分类问题推荐使用

留一验证（LOOCV）

每次只留一个样本做验证：

✅ 充分利用数据
✅ 估计几乎无偏
❌ 计算成本高
❌ 方差可能较大

重复K折交叉验证

多次运行K折交叉验证
每次使用不同的随机划分
进一步减少估计方差

时间序列交叉验证

适用于时间序列数据：

不能随机划分（会破坏时间顺序）
使用滚动窗口方式
用过去数据预测未来

嵌套交叉验证

问题引入

超参数调优时的常见错误：

在同一个验证集上调参和评估
导致评估结果过于乐观
无法反映真实泛化能力

嵌套结构

嵌套交叉验证使用两个循环：

外循环：评估模型泛化能力
内循环：进行超参数调优

流程

外循环划分数据为训练集和测试集
在训练集上使用内循环调参
用最优参数在测试集上评估
重复并平均结果

代价

嵌套交叉验证计算成本很高，但能提供无偏的性能估计。

最佳实践

何时使用

数据量较小（需要充分利用数据）
需要可靠的性能估计
比较多个模型或算法
超参数调优

推荐做法

分类问题使用分层交叉验证
最终报告使用均值±标准差
超参数调优使用嵌套交叉验证
大型数据集可以用更简单的划分

与测试集配合

最佳实践：

保留一个独立的测试集
用交叉验证在训练数据上调优
最后在测试集上报告最终性能

常见陷阱

数据泄露

预处理（如标准化）在划分前完成
正确做法：在每个fold内部独立预处理

过度调参

反复调整直到交叉验证结果满意
实际上是在"拟合"验证集
需要独立的最终测试集

随机性处理

模型训练可能有随机性
设置随机种子确保可复现
或多次运行取平均

延伸阅读

----