开源项目
精选高质量开源资源,助力AI学习和项目开发。
共 3 篇文章·阅读时间:约25分钟
01模型仓库
开源模型托管平台和值得关注的开源模型。
模型平台
Hugging Face
最大的开源模型托管平台,模型种类丰富。
支持模型预览、demo部署、训练推理。
网址:huggingface.co
ModelScope
阿里达摩院的中文模型平台。
中文模型丰富,下载速度快。
网址:modelscope.cn
GitHub
开源模型和项目的主要托管平台。
关注star数高的项目,学习工程实践。
值得关注的模型
开源LLM
- LLaMA 2/3 (Meta) - 最流行的开源基础模型
- Mistral 7B - 小而美的模型
- Qwen (阿里) - 优秀的中文开源模型
- DeepSeek (深度求索) - 代码能力强
- ChatGLM (智谱) - 中文对话能力强
开源Embedding
- BGE (BAAI) - 中英文embedding
- M3E (Moka) - 中文embedding
- OpenAI Embedding - 闭源但效果好
02工具库
LLM开发和机器学习的主流工具库。
LLM开发工具
LangChain
构建LLM应用的主流框架。
支持Chain、Agent、Memory、RAG等组件。
LlamaIndex
专注于RAG的工具库。
数据连接、索引、检索等功能完善。
vLLM
高效的LLM推理框架。
支持PagedAttention、Continuous Batching。
transformers
Hugging Face的明星库。
加载和微调各类Transformer模型。
ML基础设施
- PyTorch - 深度学习框架
- TensorFlow - Google的ML框架
- PyTorch Lightning - 简化PyTorch训练
- Weights & Biases - 实验追踪
- MLflow - ML生命周期管理
- DVC - 数据版本控制
03数据集
训练和评估AI模型的数据资源。
NLP数据集
SQuAD
斯坦福问答数据集,问答系统评估标准。
10万问答对,Wikipedia文章为上下文。
GLUE / SuperGLUE
NLP综合评估基准,包含9个任务。
评估模型的语言理解能力。
C-Eval
中文大模型评估基准。
涵盖52个学科的中文题目。
HumanEval
代码能力评估数据集。
164个Python编程问题。
多模态数据集
- COCO - 图像描述和目标检测
- LAION-5B - 超大规模图文对
- MSCOCO - 图像分割和描述
- YouTube-8M - 视频理解
- Common Voice - 语音识别
- Alpaca Data - 指令微调数据
数据集平台
- Hugging Face Datasets - 模型训练数据
- Kaggle - 各类ML数据集
- 百度飞桨数据集 - 中文数据集
- 天池 - 阿里竞赛数据集