去重处理

数据去重是提高训练效率和模型质量的重要步骤，重复数据会导致模型过拟合和资源浪费。

去重的必要性

计算文本的哈希值（如MD5、SHA256），完全相同的文本会产生相同的哈希值。这种方法速度快，但只能检测完全相同的内容。

使用哈希表存储已见过的文本哈希值，新文本只需检查哈希值是否已存在。适合处理大规模数据集。

MinHash是一种局部敏感哈希算法，可以高效地检测近似重复的文档。通过将文档表示为特征集合，计算Jaccard相似度的估计值。

SimHash是另一种局部敏感哈希方法，通过将文档映射为固定长度的指纹，快速找出相似文档。