噪声过滤

噪声过滤识别并移除低质量、有害或不相关的数据,确保训练数据的整体质量。

低质量过滤

启发式规则

基于统计特征的过滤规则:

  • 文本长度过短或过长
  • 特殊字符比例过高
  • 重复词或短语比例过高
  • 句子结构异常

语言模型评分

使用小型语言模型评估文本的流畅度和可读性,低分文本可能质量较差。

有害内容过滤

内容安全检测

识别并过滤以下类型的有害内容:

  • 暴力和仇恨言论
  • 成人内容
  • 非法活动描述
  • 歧视性内容

过滤工具

使用专门的内容安全API或开源工具进行检测,如Perspective API、内容安全分类器等。

PII过滤

个人信息识别

识别并处理个人身份信息(PII):

  • 姓名、地址、电话号码
  • 电子邮件地址
  • 身份证号、信用卡号
  • 医疗健康信息

处理方式

替换为占位符(如[PHONE])、脱敏处理(部分遮挡)、或完全移除包含PII的文档。

过滤流水线

建立多阶段过滤流水线,从粗到细逐步过滤:

  1. 快速启发式过滤(去除明显噪声)
  2. 语言检测(保留目标语言)
  3. 质量评分(评估文本质量)
  4. 安全检测(过滤有害内容)
  5. PII处理(保护隐私信息)
----