综合能力榜

大模型综合能力多维度排名

Chatbot Arena排行榜

Chatbot Arena是LMSYS组织的大模型竞技场,通过用户匿名投票进行Elo评分,是目前最权威的主观评测。

排名模型Elo评分95% CI投票数
1GPT-4o1287+3/-3150K+
2Claude 3.5 Sonnet1271+3/-3120K+
3Gemini 1.5 Pro1260+4/-480K+
4Claude 3 Opus1248+4/-4100K+
5GPT-4 Turbo1243+3/-3200K+
6Llama 3.1 405B1235+5/-550K+
7Gemini 1.5 Flash1227+4/-460K+
8Claude 3 Sonnet1201+4/-480K+

多基准综合排名

模型MMLUHumanEvalGSM8KMATH综合评分
GPT-4o88.7%90.2%95.3%76.6%87.7
Claude 3.5 Sonnet88.3%92.0%96.4%71.1%87.0
Gemini 1.5 Pro85.9%84.1%91.7%67.7%82.4
Claude 3 Opus86.8%84.9%95.0%60.1%81.7
Llama 3.1 405B85.9%89.0%96.8%73.8%86.4

能力维度排名

知识广度

MMLU综合知识测试

  1. 1. GPT-4o (88.7%)
  2. 2. Claude 3.5 Sonnet (88.3%)
  3. 3. Claude 3 Opus (86.8%)

数学推理

GSM8K + MATH

  1. 1. Claude 3.5 Sonnet
  2. 2. GPT-4o
  3. 3. Llama 3.1 405B

代码能力

HumanEval + SWE-bench

  1. 1. Claude 3.5 Sonnet
  2. 2. GPT-4o
  3. 3. Llama 3.1 405B

指令跟随

IFEval基准

  1. 1. GPT-4o
  2. 2. Claude 3.5 Sonnet
  3. 3. Gemini 1.5 Pro

中文能力排名

排名模型C-EvalCMMLU说明
1GPT-4o83.4%84.8%中文理解最强
2Claude 3.5 Sonnet81.2%82.5%紧随其后
3Qwen2 72B82.5%83.8%开源最强
4DeepSeek V280.5%81.8%国产优秀

场景推荐

通用对话

推荐:GPT-4o - 用户体验最佳,响应自然

编程开发

推荐:Claude 3.5 Sonnet - 代码能力最强

长文档处理

推荐:Gemini 1.5 Pro - 支持1M上下文

企业应用

推荐:GPT-4o / Claude 3.5 - 稳定可靠

参考资料

  • LMSYS Chatbot Arena Leaderboard
  • OpenLLM Leaderboard
  • 各模型官方技术报告
----