排序数据

排序数据通过比较多个输出的质量,为模型提供更精细的偏好信号。

成对比较

数据格式

成对比较数据包含一个提示词和两个输出,以及人类的选择结果。

示例

prompt: "写一首关于春天的诗"
response_a: "春风轻拂柳枝绿..."
response_b: "春天来了花开了..."
preferred: "a"

比较策略

  • 随机配对:随机选择输出进行比较
  • 锦标赛式:淘汰制确定最终排序
  • 主动学习:优先比较有信息量的配对

多选排序

K选一

从K个候选输出中选择最好的一个,效率高于成对比较。

全排序

对多个输出进行完整排序,提供最丰富的偏好信息,但标注成本高。

评分数据

绝对评分

对单个输出给出绝对质量分数。

相对评分

相对于参考输出的评分。

----