噪声过滤

噪声过滤识别并移除低质量、有害或不相关的数据，确保训练数据的整体质量。

低质量过滤

启发式规则

基于统计特征的过滤规则：

文本长度过短或过长
特殊字符比例过高
重复词或短语比例过高
句子结构异常

语言模型评分

使用小型语言模型评估文本的流畅度和可读性，低分文本可能质量较差。

有害内容过滤

内容安全检测

识别并过滤以下类型的有害内容：

暴力和仇恨言论
成人内容
非法活动描述
歧视性内容

过滤工具

使用专门的内容安全API或开源工具进行检测，如Perspective API、内容安全分类器等。

PII过滤

个人信息识别

识别并处理个人身份信息（PII）：

姓名、地址、电话号码
电子邮件地址
身份证号、信用卡号
医疗健康信息

处理方式

替换为占位符（如[PHONE]）、脱敏处理（部分遮挡）、或完全移除包含PII的文档。

过滤流水线

建立多阶段过滤流水线，从粗到细逐步过滤：

快速启发式过滤（去除明显噪声）
语言检测（保留目标语言）
质量评分（评估文本质量）
安全检测（过滤有害内容）
PII处理（保护隐私信息）

上一篇

← 去重处理

下一篇

数据标准化 →

----