数据类型分类
AI 训练数据可以根据多个维度进行分类,了解不同类型数据的特点有助于构建更加全面和有效的训练数据集。
按内容类型分类
文本数据
文本数据是大语言模型最核心的训练数据,包括网页文本、书籍、论文、新闻、对话等多种形式。文本数据决定了模型的语言能力和知识储备。
代码数据
代码数据使模型具备编程能力,包括各种编程语言的源代码、代码注释、技术文档、编程问答等。GitHub等代码仓库是重要的代码数据来源。
多模态数据
多模态数据包括图像、音频、视频等非文本形式的数据,用于训练多模态模型,使其能够理解和生成多种形式的内容。
按用途分类
预训练数据
用于模型的初始训练,规模大、覆盖广,是模型获取基础知识的主要来源。
指令数据
用于训练模型遵循指令,格式为指令-响应对,帮助模型学习如何执行特定任务。
偏好数据
用于RLHF训练,包含人类对回答质量的偏好,帮助模型生成更符合人类期望的输出。
评估数据
用于测试和评估模型性能,需要高质量、多样化的测试样本。
按领域分类
通识数据
百科、新闻、书籍等通用知识,覆盖面广,是构建模型基础知识体系的基础。
专业数据
医疗、法律、金融等垂直领域的专业数据,需要专业知识和准确度。
科学数据
论文、专利、实验数据等科研相关内容,需要高准确性和专业性。
网络数据
社交媒体、论坛、评论等网络内容,反映真实的用户语言和表达习惯。
按质量等级分类
高质量数据
经过人工审核、权威来源、准确可靠的数据,在训练中给予较高权重。
中等质量数据
自动筛选、来源可靠但未人工审核的数据,需要适当的质量评估。
低质量数据
原始采集、需要进一步清洗和筛选的数据,使用时需要谨慎处理。
数据配比策略
不同类型的模型需要不同的数据组合。通用模型需要全面均衡的数据分布,专业模型则需要针对性加强特定领域数据。