Transformer架构概述

Transformer是深度学习领域的里程碑架构，2017年由Vaswani等人提出。它完全基于注意力机制，摒弃了传统的RNN和CNN结构。

共 3 篇文章·阅读时间：约35分钟

01背景与动机

Transformer的提出解决了传统序列建模方法的根本问题，开启了深度学习的新时代。

在Transformer出现之前，序列建模主要依赖RNN及其变体（LSTM、GRU）：

RNN的局限性

CNN试图解决部分问题

2017年，Google的论文《Attention Is All You Need》提出了Transformer，完全基于注意力机制，无需RNN或CNN。

Transformer的核心创新

Transformer编码器将输入序列转换为连续的表示，适合理解类任务如文本分类、命名实体识别。

编码器由N个相同的层堆叠而成，每层包含两个子层：

编码器层结构

公式

LayerNorm(x + MultiHeadAttention(x))

LayerNorm(x + FeedForward(x))

输入词元经过Embedding层转换为向量，加上位置编码。

每个位置 attend 到所有位置，捕捉词与词之间的关系。

对每个位置独立应用相同的两层全连接网络。

重复N次（原始论文N=6），每一层的输出作为下一层的输入。

解码器用于生成序列，采用自回归方式逐个预测输出词元，是GPT等语言模型的基础。

解码器同样由N个相同的层堆叠而成，但每层包含三个子层：

解码器层结构

掩码机制（Masks）

解码器在训练时使用掩码，确保每个位置只能看到当前位置及之前的输出。