网页文本数据
网页文本是大模型训练数据的主要组成部分,覆盖互联网上的各类内容。
大规模网页数据集
Common Crawl
Common Crawl是最重要的大规模网页数据集,每月爬取数十亿网页,总量达PB级别。大多数大模型都使用Common Crawl作为基础训练数据。
C4 (Colossal Clean Crawled Corpus)
Google发布的清洗版网页数据集,从Common Crawl中筛选和清洗得到。
其他数据集
- OSCAR:多语言网页语料库
- PILE:多种来源的综合数据集
- RefinedWeb:高质量清洗的网页数据
网页内容提取
从网页中提取有用内容是关键步骤:
- 正文提取:识别并提取主要内容区域
- 内容质量评估:评估提取内容的质量
- 主题分类:根据内容进行主题分类
质量评估标准
网页质量指标
文本长度、语言纯度、内容密度、重复率、可读性分数等指标用于评估网页文本质量。