开源项目

精选高质量开源资源,助力AI学习和项目开发。

共 3 篇文章·阅读时间:约25分钟

01模型仓库

开源模型托管平台和值得关注的开源模型。

模型平台

Hugging Face

最大的开源模型托管平台,模型种类丰富。
支持模型预览、demo部署、训练推理。
网址:huggingface.co

ModelScope

阿里达摩院的中文模型平台。
中文模型丰富,下载速度快。
网址:modelscope.cn

GitHub

开源模型和项目的主要托管平台。
关注star数高的项目,学习工程实践。

值得关注的模型

开源LLM

  • LLaMA 2/3 (Meta) - 最流行的开源基础模型
  • Mistral 7B - 小而美的模型
  • Qwen (阿里) - 优秀的中文开源模型
  • DeepSeek (深度求索) - 代码能力强
  • ChatGLM (智谱) - 中文对话能力强

开源Embedding

  • BGE (BAAI) - 中英文embedding
  • M3E (Moka) - 中文embedding
  • OpenAI Embedding - 闭源但效果好

02工具库

LLM开发和机器学习的主流工具库。

LLM开发工具

LangChain

构建LLM应用的主流框架。
支持Chain、Agent、Memory、RAG等组件。

LlamaIndex

专注于RAG的工具库。
数据连接、索引、检索等功能完善。

vLLM

高效的LLM推理框架。
支持PagedAttention、Continuous Batching。

transformers

Hugging Face的明星库。
加载和微调各类Transformer模型。

ML基础设施

  • PyTorch - 深度学习框架
  • TensorFlow - Google的ML框架
  • PyTorch Lightning - 简化PyTorch训练
  • Weights & Biases - 实验追踪
  • MLflow - ML生命周期管理
  • DVC - 数据版本控制

03数据集

训练和评估AI模型的数据资源。

NLP数据集

SQuAD

斯坦福问答数据集,问答系统评估标准。
10万问答对,Wikipedia文章为上下文。

GLUE / SuperGLUE

NLP综合评估基准,包含9个任务。
评估模型的语言理解能力。

C-Eval

中文大模型评估基准。
涵盖52个学科的中文题目。

HumanEval

代码能力评估数据集。
164个Python编程问题。

多模态数据集

  • COCO - 图像描述和目标检测
  • LAION-5B - 超大规模图文对
  • MSCOCO - 图像分割和描述
  • YouTube-8M - 视频理解
  • Common Voice - 语音识别
  • Alpaca Data - 指令微调数据

数据集平台

  • Hugging Face Datasets - 模型训练数据
  • Kaggle - 各类ML数据集
  • 百度飞桨数据集 - 中文数据集
  • 天池 - 阿里竞赛数据集
AI知识已学完
返回AI知识 →
----