数据采集

高质量的训练数据是大模型能力的基础,数据采集需要综合考虑规模、质量和合规性。

共 3 篇文章·阅读时间:约30分钟

01数据来源

大模型训练需要多种类型的数据,每种数据都有其特定的来源和采集方式。

数据类型

网页文本
Common Crawl、Wikipedia、书籍、新闻等
代码数据
GitHub、Stack Overflow、代码库等
学术文献
ArXiv论文、专利文献、技术报告等
对话数据
论坛、社交媒体、问答平台等

质量评估

数据质量维度

  • 准确性:信息是否正确可靠
  • 相关性:与目标任务的相关程度
  • 多样性:覆盖领域和风格的广度
  • 时效性:信息的更新频率

02采集方法

不同的数据来源需要采用相应的采集技术。

网页爬取

Common Crawl

  • 每月数十亿网页的公开爬取数据
  • WARC格式存储,支持全文检索
  • 广泛用于GPT-3、LLaMA等模型的预训练

API接口

官方API获取

  • Wikipedia API:获取百科词条
  • GitHub API:获取开源代码
  • ArXiv API:获取学术论文

03合规要求

数据采集必须遵守相关法律法规,保护用户隐私和知识产权。

著作权法

使用受版权保护的内容需要获得授权
合理使用范围有限

robots.txt

尊重网站的爬取协议
遵守访问频率限制

隐私保护

GDPR与中国个人信息保护法

  • 收集个人信息需获得明确同意
  • 需要时进行匿名化处理
  • 提供数据删除机制
AI数据知识
← 返回目录
----