数据标注
数据标注为模型提供监督信号,是训练高质量AI模型的关键环节。
共 3 篇文章·阅读时间:约30分钟
01标注类型
不同任务需要不同类型的标注数据。
常见类型
分类标注
文本分类、情感分析、意图识别
文本分类、情感分析、意图识别
序列标注
NER、词性标注、关键词抽取
NER、词性标注、关键词抽取
问答标注
SQuAD、HotpotQA等
SQuAD、HotpotQA等
对话标注
对话质量、意图匹配、安全性
对话质量、意图匹配、安全性
复杂标注
RLHF偏好标注
- Pairwise比较:比较两个回答的优劣
- 评分标注:给回答打分
- 修改建议:标注期望的回答
02标注工具
选择合适的标注工具能显著提升标注效率。
开源工具
Label Studio:功能强大的通用标注平台
Doccano:轻量级开源标注工具
Prodigy:支持主动学习的交互式标注
商业平台
Scale AI:企业级数据标注平台
Labelbox:支持多模态标注
Amazon SageMaker Ground Truth:AWS原生解决方案
03质量控制
通过多种机制确保标注质量的可靠性。
质控方法
黄金标准
预先标注的标准答案混入任务
用于检验标注者准确性
多人标注
同一数据由多人标注
通过投票或专家仲裁确定最终标签
一致性检验
评估指标
- Cohen's Kappa:两人一致性
- Fleiss' Kappa:多人一致性
- Inter-annotator Agreement:标注者间一致率