Mixtral 8x7B

开源混合专家模型

模型概述

Mixtral 8x7B是Mistral AI于2023年12月发布的开源混合专家模型(MoE), 总参数约47B,每次推理仅激活约13B参数,性能超越LLaMA 2 70B。

8
专家数量
7B
每专家参数
13B
激活参数
32K
上下文

MoE架构原理

混合专家模型将FFN层替换为多个专家网络,每个token由路由器选择Top-2专家处理:

# MoE计算
output = Σ G(x, i) * E_i(x)
# G为门控函数,E为专家网络
# 每个token只激活2个专家

优势

  • • 参数量大,能力强
  • • 激活参数小,推理快
  • • 专家专业化分工

挑战

  • • 需要更多显存存储
  • • 训练复杂度高
  • • 负载均衡问题

性能对比

基准Mixtral 8x7BLLaMA 2 70BGPT-3.5
MMLU70.669.870.0
HumanEval40.229.948.1
GSM8K74.456.857.1
MATH28.418.723.5

推理效率

Mixtral每次推理仅激活2个专家(约13B参数),推理速度接近13B模型, 但性能达到70B级别,性价比极高。

推理速度: ~2x LLaMA 2 70B
显存需求: ~26GB (INT8)

使用方式

# Hugging Face
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"mistralai/Mixtral-8x7B-Instruct-v0.1"
)
# Ollama
ollama run mixtral
----