数据清洗

数据清洗是确保训练数据质量的关键步骤，包括去重、过滤和格式规范化。

共 3 篇文章·阅读时间：约30分钟

01去重处理

去重是防止模型记忆和过拟合的重要步骤。

精确去重

方法

MinHash：高效的大规模集合相似度计算
SimHash：适合海量文档去重
精确匹配：逐字比较，适合小规模数据

模糊去重

应用场景

发现近似重复的网页内容
识别改写和抄袭内容
处理网页模板生成的内容

02质量过滤

通过规则和模型两种方式过滤低质量数据。

规则过滤

常用规则

长度过滤：去除过短或过长的文本
符号过滤：去除乱码和异常字符
重复过滤：去除重复段落或句子
语言识别：过滤非目标语言

模型过滤

质量分类器

fastText：快速文本分类
BERT-based：更高精度的质量判断
困惑度：基于语言模型打分

03文本清洗

规范化文本格式，提升数据一致性。

格式清理

HTML清理

去除HTML标签
提取纯文本内容

特殊字符处理

统一Unicode编码
处理转义字符

语言识别

常用工具

langdetect：轻量级语言检测
langid：支持93种语言
CLD3：Google的深度学习语言识别

下一篇

← 数据采集

下一篇

数据标注 →

----