数据增强

数据增强通过对现有数据进行变换和扩充，增加数据多样性和规模，提升模型泛化能力。

共 3 篇文章·阅读时间：约30分钟

01文本增强技术

文本增强是对文本数据进行变换的技术，在不改变语义的前提下增加数据多样性。

同义词替换

基本方法

将文本中的词替换为同义词，保持语义基本不变。可以使用同义词词典或词向量查找相近词。

注意事项

确保替换词在上下文中语义恰当
控制替换比例，避免过度改变原文
避免替换专有名词和关键词

随机删除

实现方法

以一定概率随机删除文本中的词。需要控制删除比例，避免破坏句子结构和语义完整性。

随机交换

随机交换文本中两个词的位置，产生轻微变化。适用于增强模型对词序变化的鲁棒性。

句式变换

主被动转换

主动句与被动句之间的转换。

句法重构

保持语义的前提下改变句式结构。

语气变换

陈述句、疑问句、感叹句之间的转换。

EDA (Easy Data Augmentation)

EDA是经典的文本增强方法组合，包含同义词替换、随机插入、随机交换、随机删除四种操作。简单有效，适合小数据集场景。

02回译增强

回译增强通过翻译实现文本改写，是一种高质量的数据增强方法。

回译原理

基本流程

回译的核心流程是：

将原文翻译为中间语言（如英语→法语）
将中间语言翻译回原语言（法语→英语）
得到语义相近但表达不同的文本

优势

保持语义一致性
生成自然流畅的文本
增加表达多样性
无需人工标注

多语言回译

多语言策略

通过多个中间语言进行回译，可以获得更多样化的结果。例如：英语→法语→英语，英语→德语→英语等，每种语言组合产生不同的改写效果。

回译质量控制

质量过滤

回译结果需要质量检查：

语义相似度：确保与原文语义一致
语言流畅性：确保生成的文本自然流畅
信息完整性：确保关键信息没有丢失

过滤方法

质量过滤技术

使用嵌入向量计算语义相似度
使用语言模型评估流畅度
关键词匹配检查信息保留

03数据合成

数据合成使用AI模型生成全新的训练数据，是补充真实数据的有效方式。

LLM生成

合成方法

使用大语言模型生成训练数据：

指令生成：生成指令-响应对
对话生成：生成多轮对话数据
问答生成：基于文档生成问答对
文本生成：生成特定主题的文本

质量控制

LLM生成的数据需要严格的质量控制：

事实准确性检查
语言质量评估
多样性分析
与真实数据的分布对比

模板填充

模板设计

设计包含槽位的文本模板，如"请写一篇关于{主题}的文章"。

槽位填充

使用实体库或生成模型填充槽位，生成大量样本。

混合合成

结合多种方法进行数据合成：

真实数据 + 变换增强
LLM生成 + 人工审核
模板填充 + 随机变化

合成数据评估

评估维度

质量：内容准确性、语言流畅性
多样性：覆盖不同类型和风格
一致性：格式规范、标注正确
有效性：对模型训练的实际贡献

注意事项

合成数据的使用需要注意以下问题：

模型崩溃：合成数据比例过高可能导致模型退化
偏见放大：合成可能放大现有偏见
真实性：合成数据可能包含错误信息

← 数据标注

数据管理 →