Mixtral 8x7B
开源混合专家模型
模型概述
Mixtral 8x7B是Mistral AI于2023年12月发布的开源混合专家模型(MoE), 总参数约47B,每次推理仅激活约13B参数,性能超越LLaMA 2 70B。
8
专家数量
7B
每专家参数
13B
激活参数
32K
上下文
MoE架构原理
混合专家模型将FFN层替换为多个专家网络,每个token由路由器选择Top-2专家处理:
# MoE计算
output = Σ G(x, i) * E_i(x)
# G为门控函数,E为专家网络
# 每个token只激活2个专家
优势
- • 参数量大,能力强
- • 激活参数小,推理快
- • 专家专业化分工
挑战
- • 需要更多显存存储
- • 训练复杂度高
- • 负载均衡问题
性能对比
| 基准 | Mixtral 8x7B | LLaMA 2 70B | GPT-3.5 |
|---|---|---|---|
| MMLU | 70.6 | 69.8 | 70.0 |
| HumanEval | 40.2 | 29.9 | 48.1 |
| GSM8K | 74.4 | 56.8 | 57.1 |
| MATH | 28.4 | 18.7 | 23.5 |
推理效率
Mixtral每次推理仅激活2个专家(约13B参数),推理速度接近13B模型, 但性能达到70B级别,性价比极高。
推理速度: ~2x LLaMA 2 70B
显存需求: ~26GB (INT8)
使用方式
# Hugging Face
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"mistralai/Mixtral-8x7B-Instruct-v0.1"
)
# Ollama
ollama run mixtral
----