经典论文
这些论文奠定了现代大语言模型和Transformer架构的基础,是每个AI从业者必读的经典。
01Attention Is All You Need
2017年Google发表的Transformer开山之作,彻底改变了NLP领域,开启了大模型时代。
论文概述
标题:Attention Is All You Need
作者:Vaswani et al., Google Brain
发表:NeurIPS 2017
引用:10万+次(持续增长)
这篇论文提出了Transformer架构,完全基于注意力机制,摒弃了传统的RNN和CNN结构, 解决了长距离依赖问题,同时大幅提升了并行计算效率。
核心贡献
Self-Attention 自注意力
通过Query-Key-Value机制,让序列中的每个位置都能关注到其他所有位置, 解决了长距离依赖问题。
Multi-Head Attention 多头注意力
并行使用多组注意力头,捕捉不同类型的依赖关系。 如:语法关系、语义关系、指代关系等。
Positional Encoding 位置编码
由于没有循环结构,通过位置编码注入序列位置信息。 使用正弦/余弦函数,支持任意长度外推。
并行化训练
摒弃RNN的顺序依赖,允许真正的并行计算, 使得训练大规模模型成为可能。
02BERT论文
BERT重新定义了NLP各项任务的范式,开启了预训练-微调时代。
BERT概述
标题:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
作者:Devlin et al., Google AI Language
发表:NAACL 2018
引用:8万+次
核心创新
Masked Language Model (MLM)
完形填空式预训练任务:随机mask 15%的token,让模型预测被遮盖的词。 相比GPT的单向语言模型,BERT能同时利用左右上下文。
Next Sentence Prediction (NSP)
判断两个句子是否是连续的上下文,用于学习句子级关系。 对问答、自然语言推理等任务有帮助。
Pre-train + Fine-tune 范式
大规模无监督预训练 + 任务相关微调。 开创了现代NLP的标准范式,影响深远。
Transformer Encoder 架构
使用双向Transformer编码器,能够看到完整的上下文。 与GPT的单向解码器形成两条不同的技术路线。
历史意义
BERT刷新了GLUE、 Squad等11项NLP任务的SOTA, 证明了预训练-微调范式的强大,提出后迅速成为NLP领域的基础模型。
03GPT系列论文
GPT系列展示了语言模型的Scaling Law,引领了闭源和开源大模型的发展。
GPT-1/2/3 概述
GPT-1 (2018)
"Improving Language Understanding by Generative Pre-Training"
首次提出预训练+微调范式,使用单向Transformer解码器。
GPT-2 (2019)
"Language Models are Unsupervised Multitask Learners"
展示了大模型的多任务能力,提出"涌现"概念。参数从117M增加到15亿。
GPT-3 (2020)
"Language Models are Few-Shot Learners"
1750亿参数,首次系统展示了In-Context Learning能力。参数量的提升带来了质变。
演进脉络
- 规模扩展:从117M到175B,参数增加1500倍
- 能力涌现:随规模增大出现新能力(few-shot、思维链等)
- 范式演进:从Fine-tune为主 → In-Context Learning
- 开源影响:GPT-2开源催生了GPT-J、GPT-Neo等开源模型
- 后续发展:GPT-3.5/4开启了ChatGPT时代
关键论文推荐
- GPT-3:必读,理解涌现能力的关键
- InstructGPT:RLHF首次系统应用
- GPT-4 Technical Report:技术报告(有限信息)