数据采集

掌握 AI 训练数据采集的核心技术，从网络爬虫到合成数据生成，构建高质量数据采集体系。

共 4 篇文章·阅读时间：约40分钟

01网络爬虫采集

网络爬虫是获取大规模文本数据的主要方式，通过自动化程序从互联网上收集公开可访问的数据。

爬虫基础

爬虫工作原理

网络爬虫模拟浏览器行为，向网站服务器发送HTTP请求，获取网页内容，然后解析提取所需数据，并跟踪链接继续爬取。

常用爬虫工具

Scrapy
Python生态中最强大的爬虫框架，支持分布式爬取、中间件扩展。
BeautifulSoup
HTML/XML解析库，配合requests库使用，适合简单爬取任务。
Selenium/Playwright
浏览器自动化工具，可处理JavaScript渲染的动态页面。

大规模爬虫架构

大规模爬虫需要考虑分布式架构、任务调度、数据存储、错误处理等复杂问题。

Common Crawl

Common Crawl 是一个开源的网络爬虫项目，每月爬取数十亿网页，提供免费的数据集下载，是许多大模型训练数据的重要来源。

爬虫合规与伦理

遵守 robots.txt

尊重网站的爬虫协议，不爬取禁止访问的内容。

控制访问频率

避免对目标服务器造成过大负担，设置合理的请求间隔。

版权意识

注意数据版权问题，避免侵权使用。

数据提取技术

从网页中提取有用信息需要多种技术的配合：正则表达式匹配、CSS选择器、XPath表达式、结构化数据提取等。

02API数据接入

通过API接口获取数据是更加稳定可靠的方式，适合获取结构化、实时更新的数据。

公开数据API

许多平台和组织提供公开的API接口，可以获取结构化的数据：

维基百科API：获取百科知识内容
新闻API：获取实时新闻数据
社交媒体API：获取公开的社交内容
开放数据平台：政府、科研机构开放的数据

API调用最佳实践

认证与授权

正确处理API认证，包括API Key、OAuth、JWT等多种认证方式。保护敏感凭证，避免泄露。

速率限制处理

大多数API都有速率限制，需要实现请求队列、指数退避重试等机制，确保稳定获取数据。

数据格式处理

API返回的数据通常是JSON或XML格式，需要解析并转换为适合训练的格式。

实时数据流

部分场景需要实时数据流，可以通过WebSocket、Server-Sent Events等技术实现持续数据获取。

数据接入协议

常见协议

RESTful API - 最常用的Web API设计风格
GraphQL - 灵活的查询语言
gRPC - 高性能RPC框架
WebSocket - 双向实时通信

03用户数据收集

用户交互产生的数据是训练对话模型的重要来源，但需要特别注意隐私保护和合规要求。

数据来源类型

用户反馈数据

用户对模型输出的评价和反馈，包括点赞/点踩、修改建议、投诉举报等，是改进模型的重要依据。

对话数据

用户与模型的真实对话记录，包含丰富的问题类型和交互模式，对训练对话模型非常有价值。

隐私保护措施

数据脱敏
移除或匿名化个人身份信息（PII），如姓名、电话、地址等。
用户同意
明确告知用户数据使用目的，获取用户授权同意。
数据最小化
只收集必要的数据，避免过度收集。

数据质量控制

用户数据质量参差不齐，需要建立筛选和审核机制：

过滤低质量、无意义的对话
识别并处理恶意内容
平衡不同类型的数据分布

合规要求

重要法规

GDPR（欧盟通用数据保护条例）
个人信息保护法（中国）
CCPA（加州消费者隐私法）

04合成数据生成

使用大语言模型生成训练数据是补充真实数据的有效方式，可以快速获得大量格式规范的训练样本。

LLM生成数据

工作原理

利用已有的大模型（如GPT-4），通过精心设计的提示词，生成特定格式和内容的数据。这种方法可以快速生成大量高质量的指令-响应对。

Self-Instruct方法

Self-Instruct是一种自动生成指令数据的方法：从少量种子任务开始，让模型生成新的任务和对应的指令-响应对，然后通过过滤筛选保留高质量数据。

合成数据的优势

成本低：相比人工标注，成本大幅降低
速度快：可以快速生成大量数据
可控性强：可以精确控制数据格式和内容分布
无版权问题：生成内容不涉及版权争议

数据增强技术

通过变换已有数据生成新的样本，包括同义词替换、句式变换、回译等方法。

合成数据评估

合成数据需要严格评估其质量：

多样性评估：避免生成内容过于单一
质量评估：检查内容的准确性和流畅性
分布评估：确保覆盖目标应用场景

注意事项

潜在风险

模型崩溃：训练数据中合成数据比例过高可能导致模型退化
偏见放大：模型可能放大训练数据中的偏见
真实性：合成数据可能包含错误信息

← 数据概述

数据清洗 →