DeepSeek-V2
创新架构的高效大模型
模型概述
DeepSeek-V2采用创新的MLA(Multi-Head Latent Attention)架构, 在保持高性能的同时大幅降低推理成本,总参数236B,激活参数21B。
236B
总参数
21B
激活参数
128K
上下文
MLA
注意力机制
MLA架构创新
Multi-Head Latent Attention
MLA通过低秩压缩KV Cache,将KV Cache大小减少约90%, 显著降低推理显存需求。
# 核心思想
K, V = W_k(c_KV), W_v(c_KV)
# c_KV为压缩后的潜在向量
# 大幅减少KV Cache存储
优势
- • KV Cache减少90%
- • 推理成本低
- • 支持长上下文
效果
- • 性能不减反增
- • 推理速度提升
- • 显存占用降低
性能表现
| 基准 | DeepSeek-V2 | Mixtral 8x7B | LLaMA 3 70B |
|---|---|---|---|
| MMLU | 78.5 | 70.6 | 79.5 |
| HumanEval | 81.1 | 40.2 | 81.7 |
| GSM8K | 92.3 | 74.4 | 93.0 |
推理效率
DeepSeek-V2通过MLA和MoE架构,实现了高性能与低成本的平衡:
KV Cache: 仅为MHA的10%
推理速度: 提升2-3倍
激活参数: 仅21B
性价比极高
版本说明
DeepSeek-V2-Lite
轻量版本,适合边缘部署
DeepSeek-V2-Chat
对话微调版本
----