数据标注

数据标注为模型提供监督信号,是训练高质量AI模型的关键环节。

共 3 篇文章·阅读时间:约30分钟

01标注类型

不同任务需要不同类型的标注数据。

常见类型

分类标注
文本分类、情感分析、意图识别
序列标注
NER、词性标注、关键词抽取
问答标注
SQuAD、HotpotQA等
对话标注
对话质量、意图匹配、安全性

复杂标注

RLHF偏好标注

  • Pairwise比较:比较两个回答的优劣
  • 评分标注:给回答打分
  • 修改建议:标注期望的回答

02标注工具

选择合适的标注工具能显著提升标注效率。

开源工具

Label Studio:功能强大的通用标注平台
Doccano:轻量级开源标注工具
Prodigy:支持主动学习的交互式标注

商业平台

Scale AI:企业级数据标注平台
Labelbox:支持多模态标注
Amazon SageMaker Ground Truth:AWS原生解决方案

03质量控制

通过多种机制确保标注质量的可靠性。

质控方法

黄金标准

预先标注的标准答案混入任务
用于检验标注者准确性

多人标注

同一数据由多人标注
通过投票或专家仲裁确定最终标签

一致性检验

评估指标

  • Cohen's Kappa:两人一致性
  • Fleiss' Kappa:多人一致性
  • Inter-annotator Agreement:标注者间一致率
----