RLHF三阶段

人类反馈强化学习的完整流程

流程概览

阶段一

监督微调（SFT）

在高质量指令数据上微调基础模型

阶段二

奖励模型训练（RM）

训练模型预测人类偏好

阶段三

强化学习优化（PPO）

使用奖励模型指导策略优化

阶段一：监督微调

目标

让模型学会跟随指令，理解人类意图

数据

人工编写的高质量指令-回复对

方法

标准交叉熵损失，下一词预测

# SFT训练

L = -Σ log P(y_i | x, y_<i)

阶段二：奖励模型训练

目标

训练一个模型预测人类对回复的偏好

数据

同一提示多个回复，人类标注排名

方法

对比学习，学习相对偏好

# RM损失

L = -E[log σ(r(x, y_win) - r(x, y_lose))]

阶段三：PPO强化学习

目标

最大化奖励同时保持与原始模型接近

约束

KL散度约束，防止奖励黑客

方法

Proximal Policy Optimization

# PPO目标

L = E[r(x, y)] - β * KL(π_θ || π_ref)

关键参数

参数	说明	典型值
KL系数(β)	约束策略偏离程度	0.01-0.1
学习率	PPO训练学习率	1e-6 ~ 5e-6
批次大小	每次训练样本数	64-512

----