论文解读

深入解析前沿论文的技术细节，帮助理解大模型的核心原理与实现。

共 3 篇文章·阅读时间：约45分钟

01Transformer解读

深入解析Transformer架构的每个组件，理解其设计原理与实现细节。

Encoder-Decoder结构：N个Encoder层 + N个Decoder层。
原始论文：N=6。 Encoder捕捉输入表示，Decoder生成输出。

Attention(Q,K,V) = softmax(QK^T / √d_k) × V
√d_k缩放防止点积过大导致softmax梯度消失。

FFN(x) = max(0, xW₁ + b₁)W₂ + b₂
两层线性变换，中间使用ReLU。提供非线性能力。

两种位置：Post-LN（LayerNorm在残差之后）和Pre-LN（在残差之前）。
Pre-LN更稳定，是现在的主流选择。

Meta开源的LLaMA系列模型，以较小的参数达到甚至超越大模型效果。

在GPT架构基础上做了多项改进：
- Pre-Normalization（Pre-LN）
- SwiGLU激活函数
- Rotary Embeddings（旋转位置编码）
- 更高效的注意力实现

旋转位置编码：通过旋转操作编码位置信息。
优点：支持任意长度的相对位置，无需额外参数。

SwiGLU = Swish(xW) ⊗ sigmoid(xV)
比ReLU有更好的梯度流动，提升模型性能。

模型规模

训练数据

历史意义

LLaMA的开源催生了Alpaca、Vicuna、Qwen等大量开源模型，推动了开源大模型生态的繁荣。

Mixture of Experts（专家混合）技术让大模型更高效，支撑了GPT-4等万亿参数模型。

MoE的核心思想是"分而治之"：将模型分成多个"专家"（Expert），每个输入只激活少数专家处理，而不是整个模型都参与计算。

MoE架构

Google提出的1.6万亿参数模型。
使用简化的Switch Routing，每次只激活一个专家。

Mistral AI的开源MoE模型。
8个专家，每次激活2个，总参数量47B，实际推理只用了12B。

业界推测GPT-4使用了MoE架构，
可能是16个专家×约110B参数，每次激活约280B。

MoE的优势