数据清洗
数据清洗是确保训练数据质量的关键步骤,包括去重、过滤和格式规范化。
共 3 篇文章·阅读时间:约30分钟
01去重处理
去重是防止模型记忆和过拟合的重要步骤。
精确去重
方法
- MinHash:高效的大规模集合相似度计算
- SimHash:适合海量文档去重
- 精确匹配:逐字比较,适合小规模数据
模糊去重
应用场景
- 发现近似重复的网页内容
- 识别改写和抄袭内容
- 处理网页模板生成的内容
02质量过滤
通过规则和模型两种方式过滤低质量数据。
规则过滤
常用规则
- 长度过滤:去除过短或过长的文本
- 符号过滤:去除乱码和异常字符
- 重复过滤:去除重复段落或句子
- 语言识别:过滤非目标语言
模型过滤
质量分类器
- fastText:快速文本分类
- BERT-based:更高精度的质量判断
- 困惑度:基于语言模型打分
03文本清洗
规范化文本格式,提升数据一致性。
格式清理
HTML清理
去除HTML标签
提取纯文本内容
特殊字符处理
统一Unicode编码
处理转义字符
语言识别
常用工具
- langdetect:轻量级语言检测
- langid:支持93种语言
- CLD3:Google的深度学习语言识别