经典论文

这些论文奠定了现代大语言模型和Transformer架构的基础，是每个AI从业者必读的经典。

共 3 篇文章·阅读时间：约40分钟

01Attention Is All You Need

2017年Google发表的Transformer开山之作，彻底改变了NLP领域，开启了大模型时代。

论文概述

标题：Attention Is All You Need

作者：Vaswani et al., Google Brain

发表：NeurIPS 2017

引用：10万+次（持续增长）

这篇论文提出了Transformer架构，完全基于注意力机制，摒弃了传统的RNN和CNN结构，解决了长距离依赖问题，同时大幅提升了并行计算效率。

核心贡献

Self-Attention 自注意力

通过Query-Key-Value机制，让序列中的每个位置都能关注到其他所有位置，解决了长距离依赖问题。

Multi-Head Attention 多头注意力

并行使用多组注意力头，捕捉不同类型的依赖关系。如：语法关系、语义关系、指代关系等。

Positional Encoding 位置编码

由于没有循环结构，通过位置编码注入序列位置信息。使用正弦/余弦函数，支持任意长度外推。

并行化训练

摒弃RNN的顺序依赖，允许真正的并行计算，使得训练大规模模型成为可能。

02BERT论文

BERT重新定义了NLP各项任务的范式，开启了预训练-微调时代。

BERT概述

标题：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

作者：Devlin et al., Google AI Language

发表：NAACL 2018

引用：8万+次

核心创新

Masked Language Model (MLM)

完形填空式预训练任务：随机mask 15%的token，让模型预测被遮盖的词。相比GPT的单向语言模型，BERT能同时利用左右上下文。

Next Sentence Prediction (NSP)

判断两个句子是否是连续的上下文，用于学习句子级关系。对问答、自然语言推理等任务有帮助。

Pre-train + Fine-tune 范式

大规模无监督预训练 + 任务相关微调。开创了现代NLP的标准范式，影响深远。

Transformer Encoder 架构

使用双向Transformer编码器，能够看到完整的上下文。与GPT的单向解码器形成两条不同的技术路线。

历史意义

BERT刷新了GLUE、 Squad等11项NLP任务的SOTA，证明了预训练-微调范式的强大，提出后迅速成为NLP领域的基础模型。

03GPT系列论文

GPT系列展示了语言模型的Scaling Law，引领了闭源和开源大模型的发展。

GPT-1/2/3 概述

GPT-1 (2018)

"Improving Language Understanding by Generative Pre-Training"

首次提出预训练+微调范式，使用单向Transformer解码器。

GPT-2 (2019)

"Language Models are Unsupervised Multitask Learners"

展示了大模型的多任务能力，提出"涌现"概念。参数从117M增加到15亿。

GPT-3 (2020)

"Language Models are Few-Shot Learners"

1750亿参数，首次系统展示了In-Context Learning能力。参数量的提升带来了质变。

演进脉络

规模扩展：从117M到175B，参数增加1500倍
能力涌现：随规模增大出现新能力（few-shot、思维链等）
范式演进：从Fine-tune为主 → In-Context Learning
开源影响：GPT-2开源催生了GPT-J、GPT-Neo等开源模型
后续发展：GPT-3.5/4开启了ChatGPT时代

关键论文推荐

GPT-3：必读，理解涌现能力的关键
InstructGPT：RLHF首次系统应用
GPT-4 Technical Report：技术报告（有限信息）

← 生成优化

论文解读 →