通识数据

通识数据是大模型知识的主要来源，覆盖百科、新闻、书籍、网页等多种形式，为模型提供广泛的知识基础。

共 4 篇文章·阅读时间：约30分钟

01百科知识数据

百科数据是结构化知识的重要来源，为模型提供事实性知识和概念解释。

主要百科数据来源

维基百科 (Wikipedia)

维基百科是最重要的训练数据来源之一，涵盖300多种语言，数千万词条。内容质量高、覆盖面广、更新频繁，且采用开放许可证。

维基百科数据特点

结构化程度高，包含分类、链接、引用等元信息；语言正式规范；跨语言对齐便于多语言学习。

百度百科

百度百科是中国最大的中文百科全书，词条数量超过2000万。对中文语境下的知识理解有重要价值。

其他百科资源

DBpedia：从维基百科提取的结构化数据
Wikidata：结构化的知识图谱数据
专业百科：医学、法律、科技等领域的专业百科

百科数据处理

词条提取

解析词条内容，提取正文、分类、链接等信息。

引用处理

处理词条间的链接关系，保留知识关联。

版本管理

选择合适的时间快照，保持数据一致性。

02新闻资讯数据

新闻数据提供时事内容和多样化的写作风格，帮助模型学习最新信息和不同表达方式。

新闻数据特点

时效性强：反映最新事件和发展动态
风格多样：不同媒体有不同的写作风格和立场
语言规范：经过编辑审核，语言质量较高
覆盖面广：政治、经济、科技、文化等各领域

数据来源

新闻媒体网站

主流新闻媒体网站是重要的数据来源，需要考虑版权和使用许可问题。

新闻聚合平台

新闻聚合平台汇集多来源内容，如Google News、今日头条等。

历史新闻数据集

一些公开可用的历史新闻数据集，如GDELT项目、News on the Web等。

处理要点

新闻数据处理注意事项

区分新闻报道和评论文章
识别并标注新闻来源和发布时间
处理多语言新闻内容
注意版权和合规问题

03书籍文献数据

书籍和文献是深度知识的重要来源，提供系统性、专业性的知识内容。

公共领域书籍

Project Gutenberg

提供超过6万本公共领域电子书，主要是版权过期的经典文学作品。

开放图书馆

Internet Archive的开放图书馆项目，提供大量可借阅的数字化图书。

学术论文数据

arXiv

开放获取的学术论文预印本平台，主要覆盖物理、数学、计算机科学等领域。

PubMed

生物医学文献数据库，提供论文摘要和部分全文。

Semantic Scholar

AI驱动的学术搜索引擎，提供论文数据和引用关系。

技术文档

软件文档、技术规范、标准文档等是学习技术知识的重要来源：

编程语言官方文档
框架和库的API文档
技术标准和规范

版权考虑

版权合规要点

使用公共领域或开放许可的内容
遵守合理使用原则
获取必要的授权许可
标注数据来源和许可信息

04网页文本数据

网页文本是大模型训练数据的主要组成部分，覆盖互联网上的各类内容。

大规模网页数据集

Common Crawl

Common Crawl是最重要的大规模网页数据集，每月爬取数十亿网页，总量达PB级别。大多数大模型都使用Common Crawl作为基础训练数据。

C4 (Colossal Clean Crawled Corpus)

Google发布的清洗版网页数据集，从Common Crawl中筛选和清洗得到。

其他数据集

OSCAR：多语言网页语料库
PILE：多种来源的综合数据集
RefinedWeb：高质量清洗的网页数据

网页内容提取

从网页中提取有用内容是关键步骤：

正文提取：识别并提取主要内容区域
内容质量评估：评估提取内容的质量
主题分类：根据内容进行主题分类

质量评估标准

网页质量指标

文本长度、语言纯度、内容密度、重复率、可读性分数等指标用于评估网页文本质量。

← 数据清洗

专业领域数据 →