Mistral 7B

小而强大的开源模型

模型概述

Mistral 7B由Mistral AI于2023年9月发布，仅7B参数却在多数基准测试中超越LLaMA 2 13B，证明了精心设计的架构可以在更小规模实现更强性能。

参数量

32K

上下文长度

Apache 2.0

开源协议

限制注意力范围为固定窗口，降低复杂度同时保留长程依赖能力。

标准注意力: O(n²)

滑动窗口注意力: O(n × w), w为窗口大小

# Mistral使用w=4096

多头Query共享KV，减少推理时的KV Cache大小。

8个Query头共享1组KV，推理速度提升约2倍

基准	Mistral 7B	LLaMA 2 7B	LLaMA 2 13B
MMLU	62.5	45.3	54.8
HumanEval	26.2	12.8	18.9
GSM8K	37.8	14.6	28.7

Mistral 7B Base

基础预训练模型，适合继续微调

Mistral 7B Instruct

指令微调版本，可直接用于对话

# Hugging Face

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(

"mistralai/Mistral-7B-Instruct-v0.2"

)

# Ollama

ollama run mistral

----