公开数据集

公开数据集是研究和小型训练的重要资源,了解主流数据集有助于把握数据发展趋势。

共 3 篇文章·阅读时间:约35分钟

01预训练语料

预训练语料是大模型能力的基础,决定了模型的知识储备和语言理解能力。

语料概览

主流预训练语料规模

GPT-3:300B tokens
Chinchilla:1.4T tokens
LLaMA 2:2T tokens
Phi-3:3.3T tokens

主要语料库

Common Crawl
每月数十亿网页,约55%训练数据来源
The Pile
825GB高质量数据集,22个来源
RedPajama
开源复现LLaMA训练数据

02指令数据

指令数据用于模型的有监督微调(SFT),提升指令遵循能力。

SFT数据

FLAN Collection
1800+任务,聚合多个数据集
Alpaca
52K条ChatGPT生成的指令数据
Vicuna
从ShareGPT收集的真实对话

偏好数据

HH-RLHF
Anthropic的人类偏好数据
Anthropic Helpful/Harmless
对齐训练专用数据集
OpenAssistant
开源社区标注的偏好数据

03多模态数据

多模态模型的训练需要大量图像-文本配对数据。

视觉数据

LAION-5B

58亿图文对
最大的公开多模态数据集

CC12M / CC3M

Common Crawl筛选的图文对
质量较高但规模较小

音频数据

LibriSpeech:1000小时有声读物
GigaSpeech:10000小时语音
Common Voice:Mozilla开源语音数据
AI数据知识
返回目录 →
----