Mistral 7B

小而强大的开源模型

模型概述

Mistral 7B由Mistral AI于2023年9月发布,仅7B参数却在多数基准测试中超越LLaMA 2 13B, 证明了精心设计的架构可以在更小规模实现更强性能。

7B
参数量
32K
上下文长度
Apache 2.0
开源协议

架构创新

滑动窗口注意力(SWA)

限制注意力范围为固定窗口,降低复杂度同时保留长程依赖能力。

标准注意力: O(n²)
滑动窗口注意力: O(n × w), w为窗口大小
# Mistral使用w=4096

GQA(Grouped Query Attention)

多头Query共享KV,减少推理时的KV Cache大小。

8个Query头共享1组KV,推理速度提升约2倍

性能对比

基准Mistral 7BLLaMA 2 7BLLaMA 2 13B
MMLU62.545.354.8
HumanEval26.212.818.9
GSM8K37.814.628.7

版本说明

Mistral 7B Base

基础预训练模型,适合继续微调

Mistral 7B Instruct

指令微调版本,可直接用于对话

使用方式

# Hugging Face
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"mistralai/Mistral-7B-Instruct-v0.2"
)
# Ollama
ollama run mistral
----