经典论文

这些论文奠定了现代大语言模型和Transformer架构的基础,是每个AI从业者必读的经典。

共 3 篇文章·阅读时间:约40分钟

01Attention Is All You Need

2017年Google发表的Transformer开山之作,彻底改变了NLP领域,开启了大模型时代。

论文概述

标题:Attention Is All You Need

作者:Vaswani et al., Google Brain

发表:NeurIPS 2017

引用:10万+次(持续增长)

这篇论文提出了Transformer架构,完全基于注意力机制,摒弃了传统的RNN和CNN结构, 解决了长距离依赖问题,同时大幅提升了并行计算效率。

核心贡献

Self-Attention 自注意力

通过Query-Key-Value机制,让序列中的每个位置都能关注到其他所有位置, 解决了长距离依赖问题。

Multi-Head Attention 多头注意力

并行使用多组注意力头,捕捉不同类型的依赖关系。 如:语法关系、语义关系、指代关系等。

Positional Encoding 位置编码

由于没有循环结构,通过位置编码注入序列位置信息。 使用正弦/余弦函数,支持任意长度外推。

并行化训练

摒弃RNN的顺序依赖,允许真正的并行计算, 使得训练大规模模型成为可能。

02BERT论文

BERT重新定义了NLP各项任务的范式,开启了预训练-微调时代。

BERT概述

标题:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

作者:Devlin et al., Google AI Language

发表:NAACL 2018

引用:8万+次

核心创新

Masked Language Model (MLM)

完形填空式预训练任务:随机mask 15%的token,让模型预测被遮盖的词。 相比GPT的单向语言模型,BERT能同时利用左右上下文。

Next Sentence Prediction (NSP)

判断两个句子是否是连续的上下文,用于学习句子级关系。 对问答、自然语言推理等任务有帮助。

Pre-train + Fine-tune 范式

大规模无监督预训练 + 任务相关微调。 开创了现代NLP的标准范式,影响深远。

Transformer Encoder 架构

使用双向Transformer编码器,能够看到完整的上下文。 与GPT的单向解码器形成两条不同的技术路线。

历史意义

BERT刷新了GLUE、 Squad等11项NLP任务的SOTA, 证明了预训练-微调范式的强大,提出后迅速成为NLP领域的基础模型。

03GPT系列论文

GPT系列展示了语言模型的Scaling Law,引领了闭源和开源大模型的发展。

GPT-1/2/3 概述

GPT-1 (2018)

"Improving Language Understanding by Generative Pre-Training"

首次提出预训练+微调范式,使用单向Transformer解码器。

GPT-2 (2019)

"Language Models are Unsupervised Multitask Learners"

展示了大模型的多任务能力,提出"涌现"概念。参数从117M增加到15亿。

GPT-3 (2020)

"Language Models are Few-Shot Learners"

1750亿参数,首次系统展示了In-Context Learning能力。参数量的提升带来了质变。

演进脉络

  • 规模扩展:从117M到175B,参数增加1500倍
  • 能力涌现:随规模增大出现新能力(few-shot、思维链等)
  • 范式演进:从Fine-tune为主 → In-Context Learning
  • 开源影响:GPT-2开源催生了GPT-J、GPT-Neo等开源模型
  • 后续发展:GPT-3.5/4开启了ChatGPT时代

关键论文推荐

  • GPT-3:必读,理解涌现能力的关键
  • InstructGPT:RLHF首次系统应用
  • GPT-4 Technical Report:技术报告(有限信息)
----