偏好数据

偏好数据是RLHF(基于人类反馈的强化学习)的核心,用于训练模型生成符合人类偏好的输出。

3 篇文章·阅读时间:约30分钟

01人类反馈数据

人类反馈数据记录人类对模型输出的评价和偏好,是训练奖励模型的基础。

反馈类型

显式反馈

用户直接表达的偏好信息:

  • 评分:对输出质量打分(1-5分)
  • 排序:对多个输出进行排序
  • 选择:在多个输出中选择最好的
  • 比较:成对比较,选择更好的输出

隐式反馈

用户行为间接反映的偏好:

  • 接受/拒绝:是否采纳模型的建议
  • 编辑:用户对输出进行的修改
  • 继续对话:用户是否继续互动

数据收集流程

典型流程

1. 生成多个候选输出 → 2. 人类标注员评估 → 3. 记录偏好信息 → 4. 质量审核 → 5. 数据清洗和格式化

标注者选择

选择合适的标注者是保证数据质量的关键:

  • 语言能力和专业知识
  • 对任务的理解程度
  • 标注一致性
  • 文化背景和价值观

02排序数据

排序数据通过比较多个输出的质量,为模型提供更精细的偏好信号。

成对比较

数据格式

成对比较数据包含一个提示词和两个输出,以及人类的选择结果。

示例

prompt: "写一首关于春天的诗"
response_a: "春风轻拂柳枝绿..."
response_b: "春天来了花开了..."
preferred: "a"

比较策略

成对比较可以通过不同的策略组织:

  • 随机配对:随机选择输出进行比较
  • 锦标赛式:淘汰制确定最终排序
  • 主动学习:优先比较有信息量的配对

多选排序

K选一

从K个候选输出中选择最好的一个,效率高于成对比较。

全排序

对多个输出进行完整排序,提供最丰富的偏好信息,但标注成本高。

评分数据

绝对评分

对单个输出给出绝对质量分数。

相对评分

相对于参考输出的评分。

03偏好标注

偏好标注是将人类判断转化为训练数据的过程,需要精心设计标注流程和质量控制。

标注指南设计

评估维度

偏好标注需要考虑多个评估维度:

  • 有用性:输出是否解决了用户的问题
  • 准确性:信息是否正确可靠
  • 安全性:是否包含有害内容
  • 流畅性:语言是否自然流畅

标注标准

制定清晰的标注标准,确保不同标注员的一致性:

  • 定义什么是"更好"的输出
  • 提供典型示例和反例
  • 处理边缘情况的标准

质量评估

质量控制指标

  • 标注员间一致性(Inter-annotator Agreement)
  • 与专家判断的一致性
  • 标注时间分布(异常快或慢需检查)
  • 金标准任务准确率

一致性检验

通过以下方法确保标注一致性:

  • 多个标注员独立标注同一任务
  • 定期培训和对齐会议
  • 实时监控标注质量
  • 设置争议处理流程

标注平台

选择或搭建合适的标注平台:

  • Label Studio:开源标注平台
  • Scale AI:专业数据标注服务
  • 自建平台:根据需求定制开发
----