大模型的能力

大语言模型展现出了惊人的通用能力，从简单的文本处理到复杂的推理任务，它们正在重新定义人工智能的边界。本章将详细解析大模型的核心能力，帮助你理解它们能做什么、做到什么程度。

难度：入门·阅读时间：约18分钟

能力概述

大语言模型的能力可以分为以下几个层次：

基础能力：语言理解、文本生成
进阶能力：知识问答、多语言处理
高级能力：逻辑推理、代码生成
涌现能力：上下文学习、思维链推理

能力评估维度

评估大模型能力通常从以下维度进行：

维度	说明	典型测试
语言理解	理解文本含义	阅读理解、情感分析
知识掌握	世界知识的广度与深度	MMLU、常识问答
推理能力	逻辑推理与问题解决	GSM8K、数学题
代码能力	编程与问题解决	HumanEval、代码竞赛

语言理解能力

语义理解

大模型能够深入理解文本的语义，包括：

词义消歧：根据上下文确定多义词的具体含义
指代消解：识别代词指向的具体对象
隐含意义：理解言外之意、讽刺、隐喻

示例：词义消歧

输入："我去银行存钱" vs "他坐在河岸的银行旁"
模型能正确识别第一个"银行"是金融机构，第二个"银行"是河岸（bank的双义）

文本分类

大模型可以准确完成各类文本分类任务：

情感分析：判断文本的情感倾向
意图识别：识别用户的意图类别
主题分类：判断文章的主题类别
垃圾检测：识别垃圾邮件、恶意评论

信息抽取

从非结构化文本中提取结构化信息：

命名实体识别：提取人名、地名、机构名等
关系抽取：识别实体之间的关系
事件抽取：提取事件的参与者和细节

阅读理解

大模型在阅读理解任务上表现出色，能够：

回答基于文章的问题
总结文章主旨
推断隐含信息
比较不同文章的观点

文本生成能力

写作能力

大模型可以生成各类文本内容：

文章写作：新闻报道、技术文章、学术论文
创意写作：小说、诗歌、剧本
商业写作：营销文案、商业计划、报告
日常写作：邮件、总结、通知

风格适应

大模型能够根据要求调整写作风格：

示例

"请用古文风格写一段关于春天的描述"

"春日迟迟，卉木萋萋。仓庚喈喈，采蘩祁祁。桃之夭夭，灼灼其华。燕燕于飞，颉颃上下。"

翻译与润色

大模型在语言转换方面表现优异：

多语言互译，准确传达语义
保持原文风格和语气
处理专业术语和口语表达
文本润色和改写

摘要生成

能够从长文本中提取关键信息：

生成文章摘要
提取会议纪要
生成新闻要点
学术论文摘要

知识问答能力

知识覆盖范围

大模型通过预训练学习了海量知识，覆盖领域包括：

自然科学：物理、化学、生物学等
社会科学：历史、地理、经济、政治
技术领域：计算机、工程、医学
人文艺术：文学、音乐、艺术
日常生活：常识、生活技能

知识准确性

大模型的知识存在以下特点：

优点：知识覆盖广、回答速度快
局限：知识有截止日期、可能存在幻觉
建议：重要信息需要核实来源

不同类型问题

事实型问题

"中国的首都是哪里？" — 北京

解释型问题

"为什么天空是蓝色的？" — 瑞利散射现象...

比较型问题

"Python和Java有什么区别？" — 语法、性能、应用场景...

建议型问题

"如何学习编程？" — 提供学习路径和资源建议

逻辑推理能力

数学推理

大模型在数学问题上的表现令人印象深刻：

基础算术和代数运算
应用题解答
数学证明步骤
GPT-4在数学竞赛中达到高中生水平

示例

问题：小明有5个苹果，给了小红2个，又买了3个，现在有几个？

解答：小明原有5个苹果，给小红2个后剩下5-2=3个，又买了3个，现在有3+3=6个苹果。

逻辑推理

大模型能够进行多步骤的逻辑推理：

演绎推理：从一般到特殊
归纳推理：从特殊到一般
类比推理：基于相似性推断
因果推理：分析因果关系

思维链（Chain of Thought）

思维链是激发大模型推理能力的重要技术：

普通提示

问题：餐厅有23个苹果，用20个做了苹果派，又买了6个，现在有几个？
回答：9个

思维链提示

问题：餐厅有23个苹果，用20个做了苹果派，又买了6个，现在有几个？让我们一步步思考。
回答：首先，餐厅原有23个苹果。然后用20个做了苹果派，所以剩下23-20=3个。又买了6个，所以现在有3+6=9个苹果。答案是9个。

常识推理

大模型具备一定的常识推理能力：

物理常识：物体会下落、水会流动
社会常识：商店营业时间、礼仪规范
因果关系：下雨需要打伞、生病需要看医生

代码能力

支持的编程语言

大模型支持几乎所有主流编程语言：

主流语言：Python、JavaScript、Java、C++、Go、Rust
Web开发：HTML、CSS、TypeScript、React、Vue
数据科学：Python (Pandas, NumPy, PyTorch)
其他：SQL、Shell、正则表达式

代码生成

大模型可以根据自然语言描述生成代码：

示例

提示：写一个Python函数，判断一个字符串是否是回文

```python
def is_palindrome(s):
  # 去除空格和标点，转换为小写
  cleaned = ''.join(c.lower() for c in s if c.isalnum())
  return cleaned == cleaned[::-1]
```

代码解释与调试

大模型能够：

解释代码的功能和逻辑
识别代码中的Bug
提供修复建议
优化代码性能

代码能力评估

在标准评测集上的表现：

HumanEval：代码正确率是重要指标
GPT-4在HumanEval上达到87%以上的通过率
Claude 3.5 Sonnet在复杂编程任务上表现优异

多语言能力

语言覆盖

大模型支持数十种甚至上百种语言：

高资源语言：英语、中文、西班牙语、法语、德语等
中资源语言：日语、韩语、俄语、阿拉伯语等
低资源语言：小语种也能处理，但质量较低

跨语言任务

大模型能够处理跨语言任务：

机器翻译：高质量的多语言互译
跨语言问答：用一种语言回答另一种语言的问题
跨语言摘要：翻译并总结

中文能力

主流大模型对中文的支持情况：

GPT-4：中文理解能力强，生成流畅
Claude：中文表达自然，适合长文本
国产模型（文心、通义、GLM等）：中文能力出色

创意能力

创意写作

大模型能够进行各类创意写作：

故事创作：根据设定创作故事
诗歌创作：写诗、填词
剧本创作：对话、场景描写
广告文案：创意标题、宣传语

头脑风暴

大模型是创意激发的好帮手：

产品命名建议
营销活动创意
问题解决方案
设计灵感

角色扮演

大模型能够扮演不同角色进行对话：

示例

"你是一位经验丰富的产品经理，请帮我评审这个产品需求..."

模型会从产品经理的角度提出专业问题：目标用户、痛点、竞品分析、可行性等

涌现能力

什么是涌现能力

涌现能力是指模型规模达到一定程度后才出现的能力。这些能力在小模型上几乎不存在，但在大模型上突然涌现。

典型的涌现能力

上下文学习（In-Context Learning）

不需要微调，仅通过提示词中的示例就能学会新任务。

指令遵循（Instruction Following）

准确理解并执行复杂的自然语言指令。

思维链推理（Chain-of-Thought）

展示推理过程，逐步解决复杂问题。

涌现能力的意义

涌现能力的发现意味着：

模型规模继续扩大可能带来更多能力
我们可能还没有发现模型的全部潜力
需要新的理论来解释这种现象