数据标注

数据标注为模型提供监督信号，是训练高质量AI模型的关键环节。

共 3 篇文章·阅读时间：约30分钟

01标注类型

不同任务需要不同类型的标注数据。

常见类型

分类标注
文本分类、情感分析、意图识别

序列标注
NER、词性标注、关键词抽取

问答标注
SQuAD、HotpotQA等

对话标注
对话质量、意图匹配、安全性

复杂标注

RLHF偏好标注

Pairwise比较：比较两个回答的优劣
评分标注：给回答打分
修改建议：标注期望的回答

02标注工具

选择合适的标注工具能显著提升标注效率。

开源工具

Label Studio：功能强大的通用标注平台

Doccano：轻量级开源标注工具

Prodigy：支持主动学习的交互式标注

商业平台

Scale AI：企业级数据标注平台

Labelbox：支持多模态标注

Amazon SageMaker Ground Truth：AWS原生解决方案

03质量控制

通过多种机制确保标注质量的可靠性。

质控方法

黄金标准

预先标注的标准答案混入任务
用于检验标注者准确性

多人标注

同一数据由多人标注
通过投票或专家仲裁确定最终标签

一致性检验

评估指标

Cohen's Kappa：两人一致性
Fleiss' Kappa：多人一致性
Inter-annotator Agreement：标注者间一致率

下一篇

← 数据清洗

下一篇

公开数据集 →

----