偏好数据

偏好数据是RLHF（基于人类反馈的强化学习）的核心，用于训练模型生成符合人类偏好的输出。

共 3 篇文章·阅读时间：约30分钟

01人类反馈数据

人类反馈数据记录人类对模型输出的评价和偏好，是训练奖励模型的基础。

反馈类型

显式反馈

用户直接表达的偏好信息：

评分：对输出质量打分（1-5分）
排序：对多个输出进行排序
选择：在多个输出中选择最好的
比较：成对比较，选择更好的输出

隐式反馈

用户行为间接反映的偏好：

接受/拒绝：是否采纳模型的建议
编辑：用户对输出进行的修改
继续对话：用户是否继续互动

数据收集流程

典型流程

1. 生成多个候选输出 → 2. 人类标注员评估 → 3. 记录偏好信息 → 4. 质量审核 → 5. 数据清洗和格式化

标注者选择

选择合适的标注者是保证数据质量的关键：

语言能力和专业知识
对任务的理解程度
标注一致性
文化背景和价值观

02排序数据

排序数据通过比较多个输出的质量，为模型提供更精细的偏好信号。

成对比较

数据格式

成对比较数据包含一个提示词和两个输出，以及人类的选择结果。

示例

prompt: "写一首关于春天的诗"
response_a: "春风轻拂柳枝绿..."
response_b: "春天来了花开了..."
preferred: "a"

比较策略

成对比较可以通过不同的策略组织：

随机配对：随机选择输出进行比较
锦标赛式：淘汰制确定最终排序
主动学习：优先比较有信息量的配对

多选排序

K选一

从K个候选输出中选择最好的一个，效率高于成对比较。

全排序

对多个输出进行完整排序，提供最丰富的偏好信息，但标注成本高。

评分数据

绝对评分

对单个输出给出绝对质量分数。

相对评分

相对于参考输出的评分。

03偏好标注

偏好标注是将人类判断转化为训练数据的过程，需要精心设计标注流程和质量控制。

标注指南设计

评估维度

偏好标注需要考虑多个评估维度：

有用性：输出是否解决了用户的问题
准确性：信息是否正确可靠
安全性：是否包含有害内容
流畅性：语言是否自然流畅

标注标准

制定清晰的标注标准，确保不同标注员的一致性：

定义什么是"更好"的输出
提供典型示例和反例
处理边缘情况的标准

质量评估

质量控制指标

标注员间一致性（Inter-annotator Agreement）
与专家判断的一致性
标注时间分布（异常快或慢需检查）
金标准任务准确率

一致性检验

通过以下方法确保标注一致性：

多个标注员独立标注同一任务
定期培训和对齐会议
实时监控标注质量
设置争议处理流程

标注平台

选择或搭建合适的标注平台：

Label Studio：开源标注平台
Scale AI：专业数据标注服务
自建平台：根据需求定制开发

← 指令数据

强化学习数据 →