GPT-3上下文学习
In-Context Learning的突破
什么是ICL
上下文学习(In-Context Learning)是GPT-3的核心能力之一, 模型无需更新参数,仅通过提示中的示例就能学习并执行新任务。
# ICL示例
输入: "将英语翻译成法语:
Hello → Bonjour
Goodbye → Au revoir
Thank you →"
输出: "Merci"
学习模式
零样本(Zero-shot)
不提供示例,仅给任务描述
"将以下英文翻译成法文:Hello"
单样本(One-shot)
提供一个示例
"英译法:Hello → Bonjour; Goodbye →"
少样本(Few-shot)
提供多个示例(通常2-10个)
"英译法:Hello → Bonjour; Yes → Oui; No → Non; Goodbye →"
规模效应
ICL能力与模型规模强相关,大模型ICL能力显著更强:
• 小模型(<1B):ICL效果有限
• 中模型(1B-10B):开始展现ICL能力
• 大模型(>10B):ICL效果显著
• GPT-3 175B:ICL能力达到实用水平
原理分析
隐式微调
ICL可能类似于前向传播中的梯度更新
模式识别
模型学会了从示例中识别任务模式
注意力机制
示例通过注意力影响输出分布
最佳实践
- •选择具有代表性的示例
- •示例格式保持一致
- •示例数量通常3-5个效果最佳
- •示例顺序可能影响结果
----