DeepSeek-V2

创新架构的高效大模型

模型概述

DeepSeek-V2采用创新的MLA（Multi-Head Latent Attention）架构，在保持高性能的同时大幅降低推理成本，总参数236B，激活参数21B。

236B

总参数

21B

激活参数

128K

上下文

MLA

注意力机制

MLA通过低秩压缩KV Cache，将KV Cache大小减少约90%，显著降低推理显存需求。

# 核心思想

K, V = W_k(c_KV), W_v(c_KV)

# c_KV为压缩后的潜在向量

# 大幅减少KV Cache存储

优势

效果

基准	DeepSeek-V2	Mixtral 8x7B	LLaMA 3 70B
MMLU	78.5	70.6	79.5
HumanEval	81.1	40.2	81.7
GSM8K	92.3	74.4	93.0

DeepSeek-V2通过MLA和MoE架构，实现了高性能与低成本的平衡：

KV Cache: 仅为MHA的10%

推理速度: 提升2-3倍

激活参数: 仅21B

性价比极高

DeepSeek-V2-Lite

轻量版本，适合边缘部署

DeepSeek-V2-Chat

对话微调版本

----