网页文本数据

网页文本是大模型训练数据的主要组成部分，覆盖互联网上的各类内容。

大规模网页数据集

Common Crawl

Common Crawl是最重要的大规模网页数据集，每月爬取数十亿网页，总量达PB级别。大多数大模型都使用Common Crawl作为基础训练数据。

C4 (Colossal Clean Crawled Corpus)

Google发布的清洗版网页数据集，从Common Crawl中筛选和清洗得到。

其他数据集

OSCAR：多语言网页语料库
PILE：多种来源的综合数据集
RefinedWeb：高质量清洗的网页数据

网页内容提取

从网页中提取有用内容是关键步骤：

正文提取：识别并提取主要内容区域
内容质量评估：评估提取内容的质量
主题分类：根据内容进行主题分类

质量评估标准

网页质量指标

文本长度、语言纯度、内容密度、重复率、可读性分数等指标用于评估网页文本质量。

上一篇

← 书籍文献数据

下一篇

专业领域数据 →

----