Mixtral 8x7B

开源混合专家模型

模型概述

Mixtral 8x7B是Mistral AI于2023年12月发布的开源混合专家模型（MoE），总参数约47B，每次推理仅激活约13B参数，性能超越LLaMA 2 70B。

专家数量

每专家参数

13B

激活参数

32K

上下文

混合专家模型将FFN层替换为多个专家网络，每个token由路由器选择Top-2专家处理：

# MoE计算

output = Σ G(x, i) * E_i(x)

# G为门控函数，E为专家网络

# 每个token只激活2个专家

基准	Mixtral 8x7B	LLaMA 2 70B	GPT-3.5
MMLU	70.6	69.8	70.0
HumanEval	40.2	29.9	48.1
GSM8K	74.4	56.8	57.1
MATH	28.4	18.7	23.5

Mixtral每次推理仅激活2个专家（约13B参数），推理速度接近13B模型，但性能达到70B级别，性价比极高。

推理速度: ~2x LLaMA 2 70B

显存需求: ~26GB (INT8)

# Hugging Face

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(

"mistralai/Mixtral-8x7B-Instruct-v0.1"

)

# Ollama

ollama run mixtral

----