数据类型分类

AI 训练数据可以根据多个维度进行分类，了解不同类型数据的特点有助于构建更加全面和有效的训练数据集。

按内容类型分类

文本数据是大语言模型最核心的训练数据，包括网页文本、书籍、论文、新闻、对话等多种形式。文本数据决定了模型的语言能力和知识储备。

代码数据使模型具备编程能力，包括各种编程语言的源代码、代码注释、技术文档、编程问答等。GitHub等代码仓库是重要的代码数据来源。

多模态数据包括图像、音频、视频等非文本形式的数据，用于训练多模态模型，使其能够理解和生成多种形式的内容。

用于模型的初始训练，规模大、覆盖广，是模型获取基础知识的主要来源。

用于训练模型遵循指令，格式为指令-响应对，帮助模型学习如何执行特定任务。

用于RLHF训练，包含人类对回答质量的偏好，帮助模型生成更符合人类期望的输出。

用于测试和评估模型性能，需要高质量、多样化的测试样本。

百科、新闻、书籍等通用知识，覆盖面广，是构建模型基础知识体系的基础。

医疗、法律、金融等垂直领域的专业数据，需要专业知识和准确度。

论文、专利、实验数据等科研相关内容，需要高准确性和专业性。

社交媒体、论坛、评论等网络内容，反映真实的用户语言和表达习惯。

经过人工审核、权威来源、准确可靠的数据，在训练中给予较高权重。

自动筛选、来源可靠但未人工审核的数据，需要适当的质量评估。

原始采集、需要进一步清洗和筛选的数据，使用时需要谨慎处理。

不同类型的模型需要不同的数据组合。通用模型需要全面均衡的数据分布，专业模型则需要针对性加强特定领域数据。