综合能力榜

大模型综合能力多维度排名

Chatbot Arena排行榜

Chatbot Arena是LMSYS组织的大模型竞技场，通过用户匿名投票进行Elo评分，是目前最权威的主观评测。

排名	模型	Elo评分	95% CI	投票数
1	GPT-4o	1287	+3/-3	150K+
2	Claude 3.5 Sonnet	1271	+3/-3	120K+
3	Gemini 1.5 Pro	1260	+4/-4	80K+
4	Claude 3 Opus	1248	+4/-4	100K+
5	GPT-4 Turbo	1243	+3/-3	200K+
6	Llama 3.1 405B	1235	+5/-5	50K+
7	Gemini 1.5 Flash	1227	+4/-4	60K+
8	Claude 3 Sonnet	1201	+4/-4	80K+

模型	MMLU	HumanEval	GSM8K	MATH	综合评分
GPT-4o	88.7%	90.2%	95.3%	76.6%	87.7
Claude 3.5 Sonnet	88.3%	92.0%	96.4%	71.1%	87.0
Gemini 1.5 Pro	85.9%	84.1%	91.7%	67.7%	82.4
Claude 3 Opus	86.8%	84.9%	95.0%	60.1%	81.7
Llama 3.1 405B	85.9%	89.0%	96.8%	73.8%	86.4

MMLU综合知识测试

GSM8K + MATH

HumanEval + SWE-bench

IFEval基准

排名	模型	C-Eval	CMMLU	说明
1	GPT-4o	83.4%	84.8%	中文理解最强
2	Claude 3.5 Sonnet	81.2%	82.5%	紧随其后
3	Qwen2 72B	82.5%	83.8%	开源最强
4	DeepSeek V2	80.5%	81.8%	国产优秀

通用对话

推荐：GPT-4o - 用户体验最佳，响应自然

编程开发

推荐：Claude 3.5 Sonnet - 代码能力最强

长文档处理

推荐：Gemini 1.5 Pro - 支持1M上下文

企业应用

推荐：GPT-4o / Claude 3.5 - 稳定可靠

----