大模型的能力

大语言模型展现出了惊人的通用能力,从简单的文本处理到复杂的推理任务,它们正在重新定义人工智能的边界。本章将详细解析大模型的核心能力,帮助你理解它们能做什么、做到什么程度。

难度:入门·阅读时间:约18分钟

能力概述

大语言模型的能力可以分为以下几个层次:

  • 基础能力:语言理解、文本生成
  • 进阶能力:知识问答、多语言处理
  • 高级能力:逻辑推理、代码生成
  • 涌现能力:上下文学习、思维链推理

能力评估维度

评估大模型能力通常从以下维度进行:

维度说明典型测试
语言理解理解文本含义阅读理解、情感分析
知识掌握世界知识的广度与深度MMLU、常识问答
推理能力逻辑推理与问题解决GSM8K、数学题
代码能力编程与问题解决HumanEval、代码竞赛

语言理解能力

语义理解

大模型能够深入理解文本的语义,包括:

  • 词义消歧:根据上下文确定多义词的具体含义
  • 指代消解:识别代词指向的具体对象
  • 隐含意义:理解言外之意、讽刺、隐喻

示例:词义消歧

输入:"我去银行存钱" vs "他坐在河岸的银行旁"
模型能正确识别第一个"银行"是金融机构,第二个"银行"是河岸(bank的双义)

文本分类

大模型可以准确完成各类文本分类任务:

  • 情感分析:判断文本的情感倾向
  • 意图识别:识别用户的意图类别
  • 主题分类:判断文章的主题类别
  • 垃圾检测:识别垃圾邮件、恶意评论

信息抽取

从非结构化文本中提取结构化信息:

  • 命名实体识别:提取人名、地名、机构名等
  • 关系抽取:识别实体之间的关系
  • 事件抽取:提取事件的参与者和细节

阅读理解

大模型在阅读理解任务上表现出色,能够:

  • 回答基于文章的问题
  • 总结文章主旨
  • 推断隐含信息
  • 比较不同文章的观点

文本生成能力

写作能力

大模型可以生成各类文本内容:

  • 文章写作:新闻报道、技术文章、学术论文
  • 创意写作:小说、诗歌、剧本
  • 商业写作:营销文案、商业计划、报告
  • 日常写作:邮件、总结、通知

风格适应

大模型能够根据要求调整写作风格:

示例

"请用古文风格写一段关于春天的描述"

"春日迟迟,卉木萋萋。仓庚喈喈,采蘩祁祁。桃之夭夭,灼灼其华。燕燕于飞,颉颃上下。"

翻译与润色

大模型在语言转换方面表现优异:

  • 多语言互译,准确传达语义
  • 保持原文风格和语气
  • 处理专业术语和口语表达
  • 文本润色和改写

摘要生成

能够从长文本中提取关键信息:

  • 生成文章摘要
  • 提取会议纪要
  • 生成新闻要点
  • 学术论文摘要

知识问答能力

知识覆盖范围

大模型通过预训练学习了海量知识,覆盖领域包括:

  • 自然科学:物理、化学、生物学等
  • 社会科学:历史、地理、经济、政治
  • 技术领域:计算机、工程、医学
  • 人文艺术:文学、音乐、艺术
  • 日常生活:常识、生活技能

知识准确性

大模型的知识存在以下特点:

  • 优点:知识覆盖广、回答速度快
  • 局限:知识有截止日期、可能存在幻觉
  • 建议:重要信息需要核实来源

不同类型问题

事实型问题

"中国的首都是哪里?" — 北京

解释型问题

"为什么天空是蓝色的?" — 瑞利散射现象...

比较型问题

"Python和Java有什么区别?" — 语法、性能、应用场景...

建议型问题

"如何学习编程?" — 提供学习路径和资源建议

逻辑推理能力

数学推理

大模型在数学问题上的表现令人印象深刻:

  • 基础算术和代数运算
  • 应用题解答
  • 数学证明步骤
  • GPT-4在数学竞赛中达到高中生水平

示例

问题:小明有5个苹果,给了小红2个,又买了3个,现在有几个?

解答:小明原有5个苹果,给小红2个后剩下5-2=3个,又买了3个,现在有3+3=6个苹果。

逻辑推理

大模型能够进行多步骤的逻辑推理:

  • 演绎推理:从一般到特殊
  • 归纳推理:从特殊到一般
  • 类比推理:基于相似性推断
  • 因果推理:分析因果关系

思维链(Chain of Thought)

思维链是激发大模型推理能力的重要技术:

普通提示

问题:餐厅有23个苹果,用20个做了苹果派,又买了6个,现在有几个?
回答:9个

思维链提示

问题:餐厅有23个苹果,用20个做了苹果派,又买了6个,现在有几个?让我们一步步思考。
回答:首先,餐厅原有23个苹果。然后用20个做了苹果派,所以剩下23-20=3个。又买了6个,所以现在有3+6=9个苹果。答案是9个。

常识推理

大模型具备一定的常识推理能力:

  • 物理常识:物体会下落、水会流动
  • 社会常识:商店营业时间、礼仪规范
  • 因果关系:下雨需要打伞、生病需要看医生

代码能力

支持的编程语言

大模型支持几乎所有主流编程语言:

  • 主流语言:Python、JavaScript、Java、C++、Go、Rust
  • Web开发:HTML、CSS、TypeScript、React、Vue
  • 数据科学:Python (Pandas, NumPy, PyTorch)
  • 其他:SQL、Shell、正则表达式

代码生成

大模型可以根据自然语言描述生成代码:

示例

提示:写一个Python函数,判断一个字符串是否是回文

```python
def is_palindrome(s):
  # 去除空格和标点,转换为小写
  cleaned = ''.join(c.lower() for c in s if c.isalnum())
  return cleaned == cleaned[::-1]
```

代码解释与调试

大模型能够:

  • 解释代码的功能和逻辑
  • 识别代码中的Bug
  • 提供修复建议
  • 优化代码性能

代码能力评估

在标准评测集上的表现:

  • HumanEval:代码正确率是重要指标
  • GPT-4在HumanEval上达到87%以上的通过率
  • Claude 3.5 Sonnet在复杂编程任务上表现优异

多语言能力

语言覆盖

大模型支持数十种甚至上百种语言:

  • 高资源语言:英语、中文、西班牙语、法语、德语等
  • 中资源语言:日语、韩语、俄语、阿拉伯语等
  • 低资源语言:小语种也能处理,但质量较低

跨语言任务

大模型能够处理跨语言任务:

  • 机器翻译:高质量的多语言互译
  • 跨语言问答:用一种语言回答另一种语言的问题
  • 跨语言摘要:翻译并总结

中文能力

主流大模型对中文的支持情况:

  • GPT-4:中文理解能力强,生成流畅
  • Claude:中文表达自然,适合长文本
  • 国产模型(文心、通义、GLM等):中文能力出色

创意能力

创意写作

大模型能够进行各类创意写作:

  • 故事创作:根据设定创作故事
  • 诗歌创作:写诗、填词
  • 剧本创作:对话、场景描写
  • 广告文案:创意标题、宣传语

头脑风暴

大模型是创意激发的好帮手:

  • 产品命名建议
  • 营销活动创意
  • 问题解决方案
  • 设计灵感

角色扮演

大模型能够扮演不同角色进行对话:

示例

"你是一位经验丰富的产品经理,请帮我评审这个产品需求..."

模型会从产品经理的角度提出专业问题:目标用户、痛点、竞品分析、可行性等

涌现能力

什么是涌现能力

涌现能力是指模型规模达到一定程度后才出现的能力。这些能力在小模型上几乎不存在,但在大模型上突然涌现。

典型的涌现能力

上下文学习(In-Context Learning)

不需要微调,仅通过提示词中的示例就能学会新任务。

指令遵循(Instruction Following)

准确理解并执行复杂的自然语言指令。

思维链推理(Chain-of-Thought)

展示推理过程,逐步解决复杂问题。

涌现能力的意义

涌现能力的发现意味着:

  • 模型规模继续扩大可能带来更多能力
  • 我们可能还没有发现模型的全部潜力
  • 需要新的理论来解释这种现象
----