RLHF三阶段

人类反馈强化学习的完整流程

流程概览

阶段一
监督微调(SFT)

在高质量指令数据上微调基础模型

阶段二
奖励模型训练(RM)

训练模型预测人类偏好

阶段三
强化学习优化(PPO)

使用奖励模型指导策略优化

阶段一:监督微调

目标

让模型学会跟随指令,理解人类意图

数据

人工编写的高质量指令-回复对

方法

标准交叉熵损失,下一词预测

# SFT训练
L = -Σ log P(y_i | x, y_<i)

阶段二:奖励模型训练

目标

训练一个模型预测人类对回复的偏好

数据

同一提示多个回复,人类标注排名

方法

对比学习,学习相对偏好

# RM损失
L = -E[log σ(r(x, y_win) - r(x, y_lose))]

阶段三:PPO强化学习

目标

最大化奖励同时保持与原始模型接近

约束

KL散度约束,防止奖励黑客

方法

Proximal Policy Optimization

# PPO目标
L = E[r(x, y)] - β * KL(π_θ || π_ref)

关键参数

参数说明典型值
KL系数(β)约束策略偏离程度0.01-0.1
学习率PPO训练学习率1e-6 ~ 5e-6
批次大小每次训练样本数64-512
----