数据类型分类

AI 训练数据可以根据多个维度进行分类,了解不同类型数据的特点有助于构建更加全面和有效的训练数据集。

按内容类型分类

文本数据

文本数据是大语言模型最核心的训练数据,包括网页文本、书籍、论文、新闻、对话等多种形式。文本数据决定了模型的语言能力和知识储备。

代码数据

代码数据使模型具备编程能力,包括各种编程语言的源代码、代码注释、技术文档、编程问答等。GitHub等代码仓库是重要的代码数据来源。

多模态数据

多模态数据包括图像、音频、视频等非文本形式的数据,用于训练多模态模型,使其能够理解和生成多种形式的内容。

按用途分类

预训练数据

用于模型的初始训练,规模大、覆盖广,是模型获取基础知识的主要来源。

指令数据

用于训练模型遵循指令,格式为指令-响应对,帮助模型学习如何执行特定任务。

偏好数据

用于RLHF训练,包含人类对回答质量的偏好,帮助模型生成更符合人类期望的输出。

评估数据

用于测试和评估模型性能,需要高质量、多样化的测试样本。

按领域分类

通识数据

百科、新闻、书籍等通用知识,覆盖面广,是构建模型基础知识体系的基础。

专业数据

医疗、法律、金融等垂直领域的专业数据,需要专业知识和准确度。

科学数据

论文、专利、实验数据等科研相关内容,需要高准确性和专业性。

网络数据

社交媒体、论坛、评论等网络内容,反映真实的用户语言和表达习惯。

按质量等级分类

高质量数据

经过人工审核、权威来源、准确可靠的数据,在训练中给予较高权重。

中等质量数据

自动筛选、来源可靠但未人工审核的数据,需要适当的质量评估。

低质量数据

原始采集、需要进一步清洗和筛选的数据,使用时需要谨慎处理。

数据配比策略

不同类型的模型需要不同的数据组合。通用模型需要全面均衡的数据分布,专业模型则需要针对性加强特定领域数据。

----