GPT-3上下文学习

In-Context Learning的突破

什么是ICL

上下文学习(In-Context Learning)是GPT-3的核心能力之一, 模型无需更新参数,仅通过提示中的示例就能学习并执行新任务。

# ICL示例
输入: "将英语翻译成法语:
Hello → Bonjour
Goodbye → Au revoir
Thank you →"
输出: "Merci"

学习模式

零样本(Zero-shot)

不提供示例,仅给任务描述

"将以下英文翻译成法文:Hello"

单样本(One-shot)

提供一个示例

"英译法:Hello → Bonjour; Goodbye →"

少样本(Few-shot)

提供多个示例(通常2-10个)

"英译法:Hello → Bonjour; Yes → Oui; No → Non; Goodbye →"

规模效应

ICL能力与模型规模强相关,大模型ICL能力显著更强:

• 小模型(<1B):ICL效果有限
• 中模型(1B-10B):开始展现ICL能力
• 大模型(>10B):ICL效果显著
• GPT-3 175B:ICL能力达到实用水平

原理分析

隐式微调

ICL可能类似于前向传播中的梯度更新

模式识别

模型学会了从示例中识别任务模式

注意力机制

示例通过注意力影响输出分布

最佳实践

  • 选择具有代表性的示例
  • 示例格式保持一致
  • 示例数量通常3-5个效果最佳
  • 示例顺序可能影响结果
----