公开数据集

公开数据集是研究和小型训练的重要资源，了解主流数据集有助于把握数据发展趋势。

共 3 篇文章·阅读时间：约35分钟

01预训练语料

预训练语料是大模型能力的基础，决定了模型的知识储备和语言理解能力。

语料概览

主流预训练语料规模

GPT-3：300B tokens

Chinchilla：1.4T tokens

LLaMA 2：2T tokens

Phi-3：3.3T tokens

主要语料库

Common Crawl
每月数十亿网页，约55%训练数据来源

The Pile
825GB高质量数据集，22个来源

RedPajama
开源复现LLaMA训练数据

02指令数据

指令数据用于模型的有监督微调（SFT），提升指令遵循能力。

SFT数据

FLAN Collection
1800+任务，聚合多个数据集

Alpaca
52K条ChatGPT生成的指令数据

Vicuna
从ShareGPT收集的真实对话

偏好数据

HH-RLHF
Anthropic的人类偏好数据

Anthropic Helpful/Harmless
对齐训练专用数据集

OpenAssistant
开源社区标注的偏好数据

03多模态数据

多模态模型的训练需要大量图像-文本配对数据。

视觉数据

LAION-5B

58亿图文对
最大的公开多模态数据集

CC12M / CC3M

Common Crawl筛选的图文对
质量较高但规模较小

音频数据

LibriSpeech：1000小时有声读物

GigaSpeech：10000小时语音

Common Voice：Mozilla开源语音数据

下一篇

← 数据标注

AI数据知识

返回目录 →

----