Mistral 7B
小而强大的开源模型
模型概述
Mistral 7B由Mistral AI于2023年9月发布,仅7B参数却在多数基准测试中超越LLaMA 2 13B, 证明了精心设计的架构可以在更小规模实现更强性能。
7B
参数量
32K
上下文长度
Apache 2.0
开源协议
架构创新
滑动窗口注意力(SWA)
限制注意力范围为固定窗口,降低复杂度同时保留长程依赖能力。
标准注意力: O(n²)
滑动窗口注意力: O(n × w), w为窗口大小
# Mistral使用w=4096
GQA(Grouped Query Attention)
多头Query共享KV,减少推理时的KV Cache大小。
8个Query头共享1组KV,推理速度提升约2倍
性能对比
| 基准 | Mistral 7B | LLaMA 2 7B | LLaMA 2 13B |
|---|---|---|---|
| MMLU | 62.5 | 45.3 | 54.8 |
| HumanEval | 26.2 | 12.8 | 18.9 |
| GSM8K | 37.8 | 14.6 | 28.7 |
版本说明
Mistral 7B Base
基础预训练模型,适合继续微调
Mistral 7B Instruct
指令微调版本,可直接用于对话
使用方式
# Hugging Face
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"mistralai/Mistral-7B-Instruct-v0.2"
)
# Ollama
ollama run mistral
----