公开数据集
公开数据集是研究和小型训练的重要资源,了解主流数据集有助于把握数据发展趋势。
共 3 篇文章·阅读时间:约35分钟
01预训练语料
预训练语料是大模型能力的基础,决定了模型的知识储备和语言理解能力。
语料概览
主流预训练语料规模
GPT-3:300B tokens
Chinchilla:1.4T tokens
LLaMA 2:2T tokens
Phi-3:3.3T tokens
主要语料库
Common Crawl
每月数十亿网页,约55%训练数据来源
每月数十亿网页,约55%训练数据来源
The Pile
825GB高质量数据集,22个来源
825GB高质量数据集,22个来源
RedPajama
开源复现LLaMA训练数据
开源复现LLaMA训练数据
02指令数据
指令数据用于模型的有监督微调(SFT),提升指令遵循能力。
SFT数据
FLAN Collection
1800+任务,聚合多个数据集
1800+任务,聚合多个数据集
Alpaca
52K条ChatGPT生成的指令数据
52K条ChatGPT生成的指令数据
Vicuna
从ShareGPT收集的真实对话
从ShareGPT收集的真实对话
偏好数据
HH-RLHF
Anthropic的人类偏好数据
Anthropic的人类偏好数据
Anthropic Helpful/Harmless
对齐训练专用数据集
对齐训练专用数据集
OpenAssistant
开源社区标注的偏好数据
开源社区标注的偏好数据
03多模态数据
多模态模型的训练需要大量图像-文本配对数据。
视觉数据
LAION-5B
58亿图文对
最大的公开多模态数据集
CC12M / CC3M
Common Crawl筛选的图文对
质量较高但规模较小
音频数据
LibriSpeech:1000小时有声读物
GigaSpeech:10000小时语音
Common Voice:Mozilla开源语音数据