架构选型
大模型架构选型的关键考量因素
三种主流架构
Encoder-only(仅编码器)
双向注意力,能够看到完整输入序列,适合理解类任务。
代表模型: BERT、RoBERTa、ALBERT、DeBERTa
注意力: 双向(可见全部位置)
适用场景: 文本分类、命名实体识别、情感分析、语义相似度、信息抽取
Decoder-only(仅解码器)
单向因果注意力,自回归生成,适合生成类任务。当前主流大语言模型架构。
代表模型: GPT系列、LLaMA、Claude、Mistral
注意力: 单向因果掩码(只可见之前位置)
适用场景: 文本生成、对话系统、代码生成、创意写作、通用助手
Encoder-Decoder(编码器-解码器)
编码器处理输入,解码器生成输出,适合序列到序列任务。
代表模型: T5、BART、mT5、FLAN-T5
注意力: 编码器双向 + 解码器单向 + 交叉注意力
适用场景: 机器翻译、文本摘要、问答系统、文本重写
架构对比
| 特性 | Encoder-only | Decoder-only | Enc-Dec |
|---|---|---|---|
| 注意力类型 | 双向 | 单向因果 | 双向+单向 |
| 生成能力 | 弱 | 强 | 中等 |
| 理解能力 | 强 | 中等 | 强 |
| 参数效率 | 高 | 中等 | 较低 |
| 训练效率 | 高 | 中等 | 较低 |
| 主流程度 | 下降 | 主流 | 特定领域 |
选型考量因素
任务类型
理解任务选Encoder-only,生成任务选Decoder-only,翻译摘要选Enc-Dec
模型规模
大规模模型(7B+)几乎都采用Decoder-only架构,训练和推理效率更高
计算资源
Encoder-only参数效率最高,Enc-Dec需要更多显存存储两套参数
生态支持
Decoder-only生态最完善,推理框架、量化工具、开源模型最丰富
当前趋势
当前大语言模型领域,Decoder-only架构已成为绝对主流。原因包括:
- •统一的生成式框架,一个模型解决多种任务
- •自回归训练目标简单,易于规模化
- •推理时KV Cache复用效率高
- •开源生态和工具链最完善
----