噪声过滤
噪声过滤识别并移除低质量、有害或不相关的数据,确保训练数据的整体质量。
低质量过滤
启发式规则
基于统计特征的过滤规则:
- 文本长度过短或过长
- 特殊字符比例过高
- 重复词或短语比例过高
- 句子结构异常
语言模型评分
使用小型语言模型评估文本的流畅度和可读性,低分文本可能质量较差。
有害内容过滤
内容安全检测
识别并过滤以下类型的有害内容:
- 暴力和仇恨言论
- 成人内容
- 非法活动描述
- 歧视性内容
过滤工具
使用专门的内容安全API或开源工具进行检测,如Perspective API、内容安全分类器等。
PII过滤
个人信息识别
识别并处理个人身份信息(PII):
- 姓名、地址、电话号码
- 电子邮件地址
- 身份证号、信用卡号
- 医疗健康信息
处理方式
替换为占位符(如[PHONE])、脱敏处理(部分遮挡)、或完全移除包含PII的文档。
过滤流水线
建立多阶段过滤流水线,从粗到细逐步过滤:
- 快速启发式过滤(去除明显噪声)
- 语言检测(保留目标语言)
- 质量评分(评估文本质量)
- 安全检测(过滤有害内容)
- PII处理(保护隐私信息)