数据采集
高质量的训练数据是大模型能力的基础,数据采集需要综合考虑规模、质量和合规性。
共 3 篇文章·阅读时间:约30分钟
01数据来源
大模型训练需要多种类型的数据,每种数据都有其特定的来源和采集方式。
数据类型
网页文本
Common Crawl、Wikipedia、书籍、新闻等
Common Crawl、Wikipedia、书籍、新闻等
代码数据
GitHub、Stack Overflow、代码库等
GitHub、Stack Overflow、代码库等
学术文献
ArXiv论文、专利文献、技术报告等
ArXiv论文、专利文献、技术报告等
对话数据
论坛、社交媒体、问答平台等
论坛、社交媒体、问答平台等
质量评估
数据质量维度
- 准确性:信息是否正确可靠
- 相关性:与目标任务的相关程度
- 多样性:覆盖领域和风格的广度
- 时效性:信息的更新频率
02采集方法
不同的数据来源需要采用相应的采集技术。
网页爬取
Common Crawl
- 每月数十亿网页的公开爬取数据
- WARC格式存储,支持全文检索
- 广泛用于GPT-3、LLaMA等模型的预训练
API接口
官方API获取
- Wikipedia API:获取百科词条
- GitHub API:获取开源代码
- ArXiv API:获取学术论文
03合规要求
数据采集必须遵守相关法律法规,保护用户隐私和知识产权。
法律规范
著作权法
使用受版权保护的内容需要获得授权
合理使用范围有限
robots.txt
尊重网站的爬取协议
遵守访问频率限制
隐私保护
GDPR与中国个人信息保护法
- 收集个人信息需获得明确同意
- 需要时进行匿名化处理
- 提供数据删除机制