RLHF三阶段
人类反馈强化学习的完整流程
流程概览
阶段一
监督微调(SFT)
在高质量指令数据上微调基础模型
阶段二
奖励模型训练(RM)
训练模型预测人类偏好
阶段三
强化学习优化(PPO)
使用奖励模型指导策略优化
阶段一:监督微调
目标
让模型学会跟随指令,理解人类意图
数据
人工编写的高质量指令-回复对
方法
标准交叉熵损失,下一词预测
# SFT训练
L = -Σ log P(y_i | x, y_<i)
阶段二:奖励模型训练
目标
训练一个模型预测人类对回复的偏好
数据
同一提示多个回复,人类标注排名
方法
对比学习,学习相对偏好
# RM损失
L = -E[log σ(r(x, y_win) - r(x, y_lose))]
阶段三:PPO强化学习
目标
最大化奖励同时保持与原始模型接近
约束
KL散度约束,防止奖励黑客
方法
Proximal Policy Optimization
# PPO目标
L = E[r(x, y)] - β * KL(π_θ || π_ref)
关键参数
| 参数 | 说明 | 典型值 |
|---|---|---|
| KL系数(β) | 约束策略偏离程度 | 0.01-0.1 |
| 学习率 | PPO训练学习率 | 1e-6 ~ 5e-6 |
| 批次大小 | 每次训练样本数 | 64-512 |
----