数据标准化

数据标准化将不同来源的数据转换为统一的格式和规范,便于后续处理和模型训练。

格式标准化

数据格式统一

将不同来源的数据转换为统一的存储格式,常用的格式包括:

  • JSONL:每行一个JSON对象,便于流式处理
  • Parquet:列式存储,压缩率高,查询快
  • TFRecord:TensorFlow原生格式

字段规范化

统一字段名称和类型,如text/content、title/headline等,确保数据一致性。

语言识别

语言检测工具

使用fastText、langdetect等工具识别文本语言:

  • 单语言训练:只保留目标语言的文本
  • 多语言训练:按语言分类存储

文本规范化

空白处理

统一处理空格、制表符、换行符等空白字符,移除多余空白。

大小写处理

根据任务需求决定是否统一大小写,一般保留原始大小写以学习正确的用法。

标点符号

统一标点符号形式,如将中文标点转换为半角,或保留原始形式。

质量评估指标

常用指标

  • 困惑度(Perplexity):文本的可预测性
  • 词汇多样性:独特词汇的比例
  • 信息密度:单位长度的信息量
  • 可读性分数:文本的阅读难度
----