GPT-3上下文学习

In-Context Learning的突破

什么是ICL

上下文学习（In-Context Learning）是GPT-3的核心能力之一，模型无需更新参数，仅通过提示中的示例就能学习并执行新任务。

# ICL示例

输入: "将英语翻译成法语：

Hello → Bonjour

Goodbye → Au revoir

Thank you →"

输出: "Merci"

不提供示例，仅给任务描述

"将以下英文翻译成法文：Hello"

提供一个示例

"英译法：Hello → Bonjour; Goodbye →"

提供多个示例（通常2-10个）

"英译法：Hello → Bonjour; Yes → Oui; No → Non; Goodbye →"

ICL能力与模型规模强相关，大模型ICL能力显著更强：

• 小模型（<1B）：ICL效果有限

• 中模型（1B-10B）：开始展现ICL能力

• 大模型（>10B）：ICL效果显著

• GPT-3 175B：ICL能力达到实用水平

隐式微调

ICL可能类似于前向传播中的梯度更新

模式识别

模型学会了从示例中识别任务模式

注意力机制

示例通过注意力影响输出分布

----