通识数据
通识数据是大模型知识的主要来源,覆盖百科、新闻、书籍、网页等多种形式,为模型提供广泛的知识基础。
01百科知识数据
百科数据是结构化知识的重要来源,为模型提供事实性知识和概念解释。
主要百科数据来源
维基百科 (Wikipedia)
维基百科是最重要的训练数据来源之一,涵盖300多种语言,数千万词条。内容质量高、覆盖面广、更新频繁,且采用开放许可证。
维基百科数据特点
结构化程度高,包含分类、链接、引用等元信息;语言正式规范;跨语言对齐便于多语言学习。
百度百科
百度百科是中国最大的中文百科全书,词条数量超过2000万。对中文语境下的知识理解有重要价值。
其他百科资源
- DBpedia:从维基百科提取的结构化数据
- Wikidata:结构化的知识图谱数据
- 专业百科:医学、法律、科技等领域的专业百科
百科数据处理
词条提取
解析词条内容,提取正文、分类、链接等信息。
引用处理
处理词条间的链接关系,保留知识关联。
版本管理
选择合适的时间快照,保持数据一致性。
02新闻资讯数据
新闻数据提供时事内容和多样化的写作风格,帮助模型学习最新信息和不同表达方式。
新闻数据特点
- 时效性强:反映最新事件和发展动态
- 风格多样:不同媒体有不同的写作风格和立场
- 语言规范:经过编辑审核,语言质量较高
- 覆盖面广:政治、经济、科技、文化等各领域
数据来源
新闻媒体网站
主流新闻媒体网站是重要的数据来源,需要考虑版权和使用许可问题。
新闻聚合平台
新闻聚合平台汇集多来源内容,如Google News、今日头条等。
历史新闻数据集
一些公开可用的历史新闻数据集,如GDELT项目、News on the Web等。
处理要点
新闻数据处理注意事项
- 区分新闻报道和评论文章
- 识别并标注新闻来源和发布时间
- 处理多语言新闻内容
- 注意版权和合规问题
03书籍文献数据
书籍和文献是深度知识的重要来源,提供系统性、专业性的知识内容。
公共领域书籍
Project Gutenberg
提供超过6万本公共领域电子书,主要是版权过期的经典文学作品。
开放图书馆
Internet Archive的开放图书馆项目,提供大量可借阅的数字化图书。
学术论文数据
arXiv
开放获取的学术论文预印本平台,主要覆盖物理、数学、计算机科学等领域。
PubMed
生物医学文献数据库,提供论文摘要和部分全文。
Semantic Scholar
AI驱动的学术搜索引擎,提供论文数据和引用关系。
技术文档
软件文档、技术规范、标准文档等是学习技术知识的重要来源:
- 编程语言官方文档
- 框架和库的API文档
- 技术标准和规范
版权考虑
版权合规要点
- 使用公共领域或开放许可的内容
- 遵守合理使用原则
- 获取必要的授权许可
- 标注数据来源和许可信息
04网页文本数据
网页文本是大模型训练数据的主要组成部分,覆盖互联网上的各类内容。
大规模网页数据集
Common Crawl
Common Crawl是最重要的大规模网页数据集,每月爬取数十亿网页,总量达PB级别。大多数大模型都使用Common Crawl作为基础训练数据。
C4 (Colossal Clean Crawled Corpus)
Google发布的清洗版网页数据集,从Common Crawl中筛选和清洗得到。
其他数据集
- OSCAR:多语言网页语料库
- PILE:多种来源的综合数据集
- RefinedWeb:高质量清洗的网页数据
网页内容提取
从网页中提取有用内容是关键步骤:
- 正文提取:识别并提取主要内容区域
- 内容质量评估:评估提取内容的质量
- 主题分类:根据内容进行主题分类
质量评估标准
网页质量指标
文本长度、语言纯度、内容密度、重复率、可读性分数等指标用于评估网页文本质量。