偏好数据
偏好数据是RLHF(基于人类反馈的强化学习)的核心,用于训练模型生成符合人类偏好的输出。
共 3 篇文章·阅读时间:约30分钟
01人类反馈数据
人类反馈数据记录人类对模型输出的评价和偏好,是训练奖励模型的基础。
反馈类型
显式反馈
用户直接表达的偏好信息:
- 评分:对输出质量打分(1-5分)
- 排序:对多个输出进行排序
- 选择:在多个输出中选择最好的
- 比较:成对比较,选择更好的输出
隐式反馈
用户行为间接反映的偏好:
- 接受/拒绝:是否采纳模型的建议
- 编辑:用户对输出进行的修改
- 继续对话:用户是否继续互动
数据收集流程
典型流程
1. 生成多个候选输出 → 2. 人类标注员评估 → 3. 记录偏好信息 → 4. 质量审核 → 5. 数据清洗和格式化
标注者选择
选择合适的标注者是保证数据质量的关键:
- 语言能力和专业知识
- 对任务的理解程度
- 标注一致性
- 文化背景和价值观
02排序数据
排序数据通过比较多个输出的质量,为模型提供更精细的偏好信号。
成对比较
数据格式
成对比较数据包含一个提示词和两个输出,以及人类的选择结果。
示例
prompt: "写一首关于春天的诗"
response_a: "春风轻拂柳枝绿..."
response_b: "春天来了花开了..."
preferred: "a"
比较策略
成对比较可以通过不同的策略组织:
- 随机配对:随机选择输出进行比较
- 锦标赛式:淘汰制确定最终排序
- 主动学习:优先比较有信息量的配对
多选排序
K选一
从K个候选输出中选择最好的一个,效率高于成对比较。
全排序
对多个输出进行完整排序,提供最丰富的偏好信息,但标注成本高。
评分数据
绝对评分
对单个输出给出绝对质量分数。
相对评分
相对于参考输出的评分。
03偏好标注
偏好标注是将人类判断转化为训练数据的过程,需要精心设计标注流程和质量控制。
标注指南设计
评估维度
偏好标注需要考虑多个评估维度:
- 有用性:输出是否解决了用户的问题
- 准确性:信息是否正确可靠
- 安全性:是否包含有害内容
- 流畅性:语言是否自然流畅
标注标准
制定清晰的标注标准,确保不同标注员的一致性:
- 定义什么是"更好"的输出
- 提供典型示例和反例
- 处理边缘情况的标准
质量评估
质量控制指标
- 标注员间一致性(Inter-annotator Agreement)
- 与专家判断的一致性
- 标注时间分布(异常快或慢需检查)
- 金标准任务准确率
一致性检验
通过以下方法确保标注一致性:
- 多个标注员独立标注同一任务
- 定期培训和对齐会议
- 实时监控标注质量
- 设置争议处理流程
标注平台
选择或搭建合适的标注平台:
- Label Studio:开源标注平台
- Scale AI:专业数据标注服务
- 自建平台:根据需求定制开发