DeepSeek-V2

创新架构的高效大模型

模型概述

DeepSeek-V2采用创新的MLA(Multi-Head Latent Attention)架构, 在保持高性能的同时大幅降低推理成本,总参数236B,激活参数21B。

236B
总参数
21B
激活参数
128K
上下文
MLA
注意力机制

MLA架构创新

Multi-Head Latent Attention

MLA通过低秩压缩KV Cache,将KV Cache大小减少约90%, 显著降低推理显存需求。

# 核心思想
K, V = W_k(c_KV), W_v(c_KV)
# c_KV为压缩后的潜在向量
# 大幅减少KV Cache存储
优势
  • • KV Cache减少90%
  • • 推理成本低
  • • 支持长上下文
效果
  • • 性能不减反增
  • • 推理速度提升
  • • 显存占用降低

性能表现

基准DeepSeek-V2Mixtral 8x7BLLaMA 3 70B
MMLU78.570.679.5
HumanEval81.140.281.7
GSM8K92.374.493.0

推理效率

DeepSeek-V2通过MLA和MoE架构,实现了高性能与低成本的平衡:

KV Cache: 仅为MHA的10%
推理速度: 提升2-3倍
激活参数: 仅21B
性价比极高

版本说明

DeepSeek-V2-Lite

轻量版本,适合边缘部署

DeepSeek-V2-Chat

对话微调版本

----