Qwen-72B
通义千问旗舰级开源模型
模型概述
Qwen-72B是通义千问系列的旗舰版本,720亿参数,在多项基准测试中表现接近GPT-4, 是开源模型中的顶级选手。
72B
参数量
32K
上下文
3.4T
训练tokens
GQA
注意力机制
性能表现
| 基准 | Qwen-72B | LLaMA 2 70B | GPT-4 |
|---|---|---|---|
| MMLU | 77.4 | 69.8 | 86.4 |
| C-Eval | 83.3 | - | - |
| HumanEval | 65.2 | 29.9 | 87.1 |
| GSM8K | 78.9 | 56.8 | 92.0 |
| MATH | 35.2 | 18.7 | 52.9 |
核心能力
中文理解
C-Eval等中文基准领先
代码生成
HumanEval得分超LLaMA 2一倍
数学推理
GSM8K和MATH表现出色
长文本处理
32K上下文支持长文档
部署需求
# 显存需求
FP16: ~144GB (需要2张A100-80G)
INT8: ~72GB (1张A100-80G)
INT4: ~40GB (1张A100-40G)
应用建议
企业级应用
客服、知识库、文档处理
代码助手
代码生成、补全、解释
学术研究
论文阅读、数据分析
微调基座
垂直领域微调
----