模型优化

模型优化是成本效益最高的优化方式，在保证效果的前提下显著降低算力需求。

成本优化·阅读时间：约15分钟

01量化

成本收益

方案	显存节省	速度提升	精度损失
FP16	基准	基准	无
INT8	50%	1.5-2x	轻微
INT4	75%	2-4x	可接受

量化方法选择

高精度要求

INT8量化，或AWQ/GPTQ的INT4

成本敏感

INT4量化，追求极致节省

生产环境

充分验证后再上线

ROI分析

投入产出

量化工作可能需要几天，但带来的算力节省可能持续数月，ROI极高。

02压缩技术

剪枝

方法	说明	成本收益
非结构化剪枝	移除不重要的权重	显存降速，加速有限
结构化剪枝	移除整个头/层	显存+速度双降
量级剪枝	减少层数/维度	大幅降低成本

知识蒸馏

原理：用大模型教小模型
成本收益：小模型推理成本大幅降低
适用：有大模型，需要部署到边缘或降成本
投入：需要蒸馏训练的时间和算力

参数共享

ALBERT风格的参数共享
MoE混合专家，激活部分参数
LoRA等轻量级适配器
需要特定架构支持

组合策略

量化 + 剪枝：叠加效果
蒸馏 + 量化：小模型再量化
逐步迭代：先应用简单的，再复杂的
每步都验证效果，确保可接受

03架构优化

模型大小选择

够用就好

不要盲目用最大的模型

实际测试

在业务数据上对比不同大小模型

小模型优势

快、省、易部署

高效架构

技术	说明	效果
FlashAttention	IO优化的注意力	提速+显存降
MQA/GQA	多查询/分组查询	KV缓存省
MoE	混合专家	相同效果更省
RoPE	旋转位置编码	推理更高效

专用模型

特定任务训练小模型，比通用大模型更好
垂直领域模型，参数量小但效果好
模型级联：先用小模型处理，难的用大模型
缓存和重用：相似请求直接返回或复用

投入顺序建议

1. 选择合适大小的模型（最高ROI）
2. INT8量化（简单有效）
3. INT4量化（追求极致）
4. 知识蒸馏（需要投入但效果持久）
5. 架构优化（需要重新训练）

上一篇

← 利用率提升

下一篇

能源优化 →

----