通识数据

通识数据是大模型知识的主要来源,覆盖百科、新闻、书籍、网页等多种形式,为模型提供广泛的知识基础。

4 篇文章·阅读时间:约30分钟

01百科知识数据

百科数据是结构化知识的重要来源,为模型提供事实性知识和概念解释。

主要百科数据来源

维基百科 (Wikipedia)

维基百科是最重要的训练数据来源之一,涵盖300多种语言,数千万词条。内容质量高、覆盖面广、更新频繁,且采用开放许可证。

维基百科数据特点

结构化程度高,包含分类、链接、引用等元信息;语言正式规范;跨语言对齐便于多语言学习。

百度百科

百度百科是中国最大的中文百科全书,词条数量超过2000万。对中文语境下的知识理解有重要价值。

其他百科资源

  • DBpedia:从维基百科提取的结构化数据
  • Wikidata:结构化的知识图谱数据
  • 专业百科:医学、法律、科技等领域的专业百科

百科数据处理

词条提取

解析词条内容,提取正文、分类、链接等信息。

引用处理

处理词条间的链接关系,保留知识关联。

版本管理

选择合适的时间快照,保持数据一致性。

02新闻资讯数据

新闻数据提供时事内容和多样化的写作风格,帮助模型学习最新信息和不同表达方式。

新闻数据特点

  • 时效性强:反映最新事件和发展动态
  • 风格多样:不同媒体有不同的写作风格和立场
  • 语言规范:经过编辑审核,语言质量较高
  • 覆盖面广:政治、经济、科技、文化等各领域

数据来源

新闻媒体网站

主流新闻媒体网站是重要的数据来源,需要考虑版权和使用许可问题。

新闻聚合平台

新闻聚合平台汇集多来源内容,如Google News、今日头条等。

历史新闻数据集

一些公开可用的历史新闻数据集,如GDELT项目、News on the Web等。

处理要点

新闻数据处理注意事项

  • 区分新闻报道和评论文章
  • 识别并标注新闻来源和发布时间
  • 处理多语言新闻内容
  • 注意版权和合规问题

03书籍文献数据

书籍和文献是深度知识的重要来源,提供系统性、专业性的知识内容。

公共领域书籍

Project Gutenberg

提供超过6万本公共领域电子书,主要是版权过期的经典文学作品。

开放图书馆

Internet Archive的开放图书馆项目,提供大量可借阅的数字化图书。

学术论文数据

arXiv

开放获取的学术论文预印本平台,主要覆盖物理、数学、计算机科学等领域。

PubMed

生物医学文献数据库,提供论文摘要和部分全文。

Semantic Scholar

AI驱动的学术搜索引擎,提供论文数据和引用关系。

技术文档

软件文档、技术规范、标准文档等是学习技术知识的重要来源:

  • 编程语言官方文档
  • 框架和库的API文档
  • 技术标准和规范

版权考虑

版权合规要点

  • 使用公共领域或开放许可的内容
  • 遵守合理使用原则
  • 获取必要的授权许可
  • 标注数据来源和许可信息

04网页文本数据

网页文本是大模型训练数据的主要组成部分,覆盖互联网上的各类内容。

大规模网页数据集

Common Crawl

Common Crawl是最重要的大规模网页数据集,每月爬取数十亿网页,总量达PB级别。大多数大模型都使用Common Crawl作为基础训练数据。

C4 (Colossal Clean Crawled Corpus)

Google发布的清洗版网页数据集,从Common Crawl中筛选和清洗得到。

其他数据集

  • OSCAR:多语言网页语料库
  • PILE:多种来源的综合数据集
  • RefinedWeb:高质量清洗的网页数据

网页内容提取

从网页中提取有用内容是关键步骤:

  • 正文提取:识别并提取主要内容区域
  • 内容质量评估:评估提取内容的质量
  • 主题分类:根据内容进行主题分类

质量评估标准

网页质量指标

文本长度、语言纯度、内容密度、重复率、可读性分数等指标用于评估网页文本质量。

----