综合能力榜
大模型综合能力多维度排名
Chatbot Arena排行榜
Chatbot Arena是LMSYS组织的大模型竞技场,通过用户匿名投票进行Elo评分,是目前最权威的主观评测。
| 排名 | 模型 | Elo评分 | 95% CI | 投票数 |
|---|---|---|---|---|
| 1 | GPT-4o | 1287 | +3/-3 | 150K+ |
| 2 | Claude 3.5 Sonnet | 1271 | +3/-3 | 120K+ |
| 3 | Gemini 1.5 Pro | 1260 | +4/-4 | 80K+ |
| 4 | Claude 3 Opus | 1248 | +4/-4 | 100K+ |
| 5 | GPT-4 Turbo | 1243 | +3/-3 | 200K+ |
| 6 | Llama 3.1 405B | 1235 | +5/-5 | 50K+ |
| 7 | Gemini 1.5 Flash | 1227 | +4/-4 | 60K+ |
| 8 | Claude 3 Sonnet | 1201 | +4/-4 | 80K+ |
多基准综合排名
| 模型 | MMLU | HumanEval | GSM8K | MATH | 综合评分 |
|---|---|---|---|---|---|
| GPT-4o | 88.7% | 90.2% | 95.3% | 76.6% | 87.7 |
| Claude 3.5 Sonnet | 88.3% | 92.0% | 96.4% | 71.1% | 87.0 |
| Gemini 1.5 Pro | 85.9% | 84.1% | 91.7% | 67.7% | 82.4 |
| Claude 3 Opus | 86.8% | 84.9% | 95.0% | 60.1% | 81.7 |
| Llama 3.1 405B | 85.9% | 89.0% | 96.8% | 73.8% | 86.4 |
能力维度排名
知识广度
MMLU综合知识测试
- 1. GPT-4o (88.7%)
- 2. Claude 3.5 Sonnet (88.3%)
- 3. Claude 3 Opus (86.8%)
数学推理
GSM8K + MATH
- 1. Claude 3.5 Sonnet
- 2. GPT-4o
- 3. Llama 3.1 405B
代码能力
HumanEval + SWE-bench
- 1. Claude 3.5 Sonnet
- 2. GPT-4o
- 3. Llama 3.1 405B
指令跟随
IFEval基准
- 1. GPT-4o
- 2. Claude 3.5 Sonnet
- 3. Gemini 1.5 Pro
中文能力排名
| 排名 | 模型 | C-Eval | CMMLU | 说明 |
|---|---|---|---|---|
| 1 | GPT-4o | 83.4% | 84.8% | 中文理解最强 |
| 2 | Claude 3.5 Sonnet | 81.2% | 82.5% | 紧随其后 |
| 3 | Qwen2 72B | 82.5% | 83.8% | 开源最强 |
| 4 | DeepSeek V2 | 80.5% | 81.8% | 国产优秀 |
场景推荐
通用对话
推荐:GPT-4o - 用户体验最佳,响应自然
编程开发
推荐:Claude 3.5 Sonnet - 代码能力最强
长文档处理
推荐:Gemini 1.5 Pro - 支持1M上下文
企业应用
推荐:GPT-4o / Claude 3.5 - 稳定可靠
参考资料
- LMSYS Chatbot Arena Leaderboard
- OpenLLM Leaderboard
- 各模型官方技术报告
----