架构选型

大模型架构选型的关键考量因素

三种主流架构

双向注意力，能够看到完整输入序列，适合理解类任务。

代表模型: BERT、RoBERTa、ALBERT、DeBERTa

注意力: 双向（可见全部位置）

适用场景: 文本分类、命名实体识别、情感分析、语义相似度、信息抽取

单向因果注意力，自回归生成，适合生成类任务。当前主流大语言模型架构。

代表模型: GPT系列、LLaMA、Claude、Mistral

注意力: 单向因果掩码（只可见之前位置）

适用场景: 文本生成、对话系统、代码生成、创意写作、通用助手

编码器处理输入，解码器生成输出，适合序列到序列任务。

代表模型: T5、BART、mT5、FLAN-T5

注意力: 编码器双向 + 解码器单向 + 交叉注意力

适用场景: 机器翻译、文本摘要、问答系统、文本重写

特性	Encoder-only	Decoder-only	Enc-Dec
注意力类型	双向	单向因果	双向+单向
生成能力	弱	强	中等
理解能力	强	中等	强
参数效率	高	中等	较低
训练效率	高	中等	较低
主流程度	下降	主流	特定领域

任务类型

理解任务选Encoder-only，生成任务选Decoder-only，翻译摘要选Enc-Dec

模型规模

大规模模型（7B+）几乎都采用Decoder-only架构，训练和推理效率更高

计算资源

Encoder-only参数效率最高，Enc-Dec需要更多显存存储两套参数

生态支持

Decoder-only生态最完善，推理框架、量化工具、开源模型最丰富

当前大语言模型领域，Decoder-only架构已成为绝对主流。原因包括：

----