架构选型

大模型架构选型的关键考量因素

三种主流架构

Encoder-only(仅编码器)

双向注意力,能够看到完整输入序列,适合理解类任务。

代表模型: BERT、RoBERTa、ALBERT、DeBERTa
注意力: 双向(可见全部位置)
适用场景: 文本分类、命名实体识别、情感分析、语义相似度、信息抽取

Decoder-only(仅解码器)

单向因果注意力,自回归生成,适合生成类任务。当前主流大语言模型架构。

代表模型: GPT系列、LLaMA、Claude、Mistral
注意力: 单向因果掩码(只可见之前位置)
适用场景: 文本生成、对话系统、代码生成、创意写作、通用助手

Encoder-Decoder(编码器-解码器)

编码器处理输入,解码器生成输出,适合序列到序列任务。

代表模型: T5、BART、mT5、FLAN-T5
注意力: 编码器双向 + 解码器单向 + 交叉注意力
适用场景: 机器翻译、文本摘要、问答系统、文本重写

架构对比

特性Encoder-onlyDecoder-onlyEnc-Dec
注意力类型双向单向因果双向+单向
生成能力中等
理解能力中等
参数效率中等较低
训练效率中等较低
主流程度下降主流特定领域

选型考量因素

任务类型

理解任务选Encoder-only,生成任务选Decoder-only,翻译摘要选Enc-Dec

模型规模

大规模模型(7B+)几乎都采用Decoder-only架构,训练和推理效率更高

计算资源

Encoder-only参数效率最高,Enc-Dec需要更多显存存储两套参数

生态支持

Decoder-only生态最完善,推理框架、量化工具、开源模型最丰富

当前趋势

当前大语言模型领域,Decoder-only架构已成为绝对主流。原因包括:

  • 统一的生成式框架,一个模型解决多种任务
  • 自回归训练目标简单,易于规模化
  • 推理时KV Cache复用效率高
  • 开源生态和工具链最完善
----