网页文本数据

网页文本是大模型训练数据的主要组成部分,覆盖互联网上的各类内容。

大规模网页数据集

Common Crawl

Common Crawl是最重要的大规模网页数据集,每月爬取数十亿网页,总量达PB级别。大多数大模型都使用Common Crawl作为基础训练数据。

C4 (Colossal Clean Crawled Corpus)

Google发布的清洗版网页数据集,从Common Crawl中筛选和清洗得到。

其他数据集

  • OSCAR:多语言网页语料库
  • PILE:多种来源的综合数据集
  • RefinedWeb:高质量清洗的网页数据

网页内容提取

从网页中提取有用内容是关键步骤:

  • 正文提取:识别并提取主要内容区域
  • 内容质量评估:评估提取内容的质量
  • 主题分类:根据内容进行主题分类

质量评估标准

网页质量指标

文本长度、语言纯度、内容密度、重复率、可读性分数等指标用于评估网页文本质量。

----