数据采集

高质量的训练数据是大模型能力的基础，数据采集需要综合考虑规模、质量和合规性。

共 3 篇文章·阅读时间：约30分钟

01数据来源

大模型训练需要多种类型的数据，每种数据都有其特定的来源和采集方式。

数据类型

网页文本
Common Crawl、Wikipedia、书籍、新闻等

代码数据
GitHub、Stack Overflow、代码库等

学术文献
ArXiv论文、专利文献、技术报告等

对话数据
论坛、社交媒体、问答平台等

质量评估

数据质量维度

准确性：信息是否正确可靠
相关性：与目标任务的相关程度
多样性：覆盖领域和风格的广度
时效性：信息的更新频率

02采集方法

不同的数据来源需要采用相应的采集技术。

网页爬取

Common Crawl

每月数十亿网页的公开爬取数据
WARC格式存储，支持全文检索
广泛用于GPT-3、LLaMA等模型的预训练

API接口

官方API获取

Wikipedia API：获取百科词条
GitHub API：获取开源代码
ArXiv API：获取学术论文

03合规要求

数据采集必须遵守相关法律法规，保护用户隐私和知识产权。

法律规范

著作权法

使用受版权保护的内容需要获得授权
合理使用范围有限

robots.txt

尊重网站的爬取协议
遵守访问频率限制

隐私保护

GDPR与中国个人信息保护法

收集个人信息需获得明确同意
需要时进行匿名化处理
提供数据删除机制

AI数据知识

← 返回目录

下一篇

数据清洗 →

----