排序数据
排序数据通过比较多个输出的质量,为模型提供更精细的偏好信号。
成对比较
数据格式
成对比较数据包含一个提示词和两个输出,以及人类的选择结果。
示例
prompt: "写一首关于春天的诗"
response_a: "春风轻拂柳枝绿..."
response_b: "春天来了花开了..."
preferred: "a"
比较策略
- 随机配对:随机选择输出进行比较
- 锦标赛式:淘汰制确定最终排序
- 主动学习:优先比较有信息量的配对
多选排序
K选一
从K个候选输出中选择最好的一个,效率高于成对比较。
全排序
对多个输出进行完整排序,提供最丰富的偏好信息,但标注成本高。
评分数据
绝对评分
对单个输出给出绝对质量分数。
相对评分
相对于参考输出的评分。