数据标准化
数据标准化将不同来源的数据转换为统一的格式和规范,便于后续处理和模型训练。
格式标准化
数据格式统一
将不同来源的数据转换为统一的存储格式,常用的格式包括:
- JSONL:每行一个JSON对象,便于流式处理
- Parquet:列式存储,压缩率高,查询快
- TFRecord:TensorFlow原生格式
字段规范化
统一字段名称和类型,如text/content、title/headline等,确保数据一致性。
语言识别
语言检测工具
使用fastText、langdetect等工具识别文本语言:
- 单语言训练:只保留目标语言的文本
- 多语言训练:按语言分类存储
文本规范化
空白处理
统一处理空格、制表符、换行符等空白字符,移除多余空白。
大小写处理
根据任务需求决定是否统一大小写,一般保留原始大小写以学习正确的用法。
标点符号
统一标点符号形式,如将中文标点转换为半角,或保留原始形式。
质量评估指标
常用指标
- 困惑度(Perplexity):文本的可预测性
- 词汇多样性:独特词汇的比例
- 信息密度:单位长度的信息量
- 可读性分数:文本的阅读难度