数据清洗

数据清洗是确保训练数据质量的关键步骤,包括去重、过滤和格式规范化。

共 3 篇文章·阅读时间:约30分钟

01去重处理

去重是防止模型记忆和过拟合的重要步骤。

精确去重

方法

  • MinHash:高效的大规模集合相似度计算
  • SimHash:适合海量文档去重
  • 精确匹配:逐字比较,适合小规模数据

模糊去重

应用场景

  • 发现近似重复的网页内容
  • 识别改写和抄袭内容
  • 处理网页模板生成的内容

02质量过滤

通过规则和模型两种方式过滤低质量数据。

规则过滤

常用规则

  • 长度过滤:去除过短或过长的文本
  • 符号过滤:去除乱码和异常字符
  • 重复过滤:去除重复段落或句子
  • 语言识别:过滤非目标语言

模型过滤

质量分类器

  • fastText:快速文本分类
  • BERT-based:更高精度的质量判断
  • 困惑度:基于语言模型打分

03文本清洗

规范化文本格式,提升数据一致性。

格式清理

HTML清理

去除HTML标签
提取纯文本内容

特殊字符处理

统一Unicode编码
处理转义字符

语言识别

常用工具

  • langdetect:轻量级语言检测
  • langid:支持93种语言
  • CLD3:Google的深度学习语言识别
----