模型优化
模型优化是成本效益最高的优化方式,在保证效果的前提下显著降低算力需求。
成本优化·阅读时间:约15分钟
01量化
成本收益
| 方案 | 显存节省 | 速度提升 | 精度损失 |
|---|---|---|---|
| FP16 | 基准 | 基准 | 无 |
| INT8 | 50% | 1.5-2x | 轻微 |
| INT4 | 75% | 2-4x | 可接受 |
量化方法选择
高精度要求
INT8量化,或AWQ/GPTQ的INT4
成本敏感
INT4量化,追求极致节省
生产环境
充分验证后再上线
ROI分析
投入产出
量化工作可能需要几天,但带来的算力节省可能持续数月,ROI极高。
02压缩技术
剪枝
| 方法 | 说明 | 成本收益 |
|---|---|---|
| 非结构化剪枝 | 移除不重要的权重 | 显存降速,加速有限 |
| 结构化剪枝 | 移除整个头/层 | 显存+速度双降 |
| 量级剪枝 | 减少层数/维度 | 大幅降低成本 |
知识蒸馏
- 原理:用大模型教小模型
- 成本收益:小模型推理成本大幅降低
- 适用:有大模型,需要部署到边缘或降成本
- 投入:需要蒸馏训练的时间和算力
参数共享
- ALBERT风格的参数共享
- MoE混合专家,激活部分参数
- LoRA等轻量级适配器
- 需要特定架构支持
组合策略
- 量化 + 剪枝:叠加效果
- 蒸馏 + 量化:小模型再量化
- 逐步迭代:先应用简单的,再复杂的
- 每步都验证效果,确保可接受
03架构优化
模型大小选择
够用就好
不要盲目用最大的模型
实际测试
在业务数据上对比不同大小模型
小模型优势
快、省、易部署
高效架构
| 技术 | 说明 | 效果 |
|---|---|---|
| FlashAttention | IO优化的注意力 | 提速+显存降 |
| MQA/GQA | 多查询/分组查询 | KV缓存省 |
| MoE | 混合专家 | 相同效果更省 |
| RoPE | 旋转位置编码 | 推理更高效 |
专用模型
- 特定任务训练小模型,比通用大模型更好
- 垂直领域模型,参数量小但效果好
- 模型级联:先用小模型处理,难的用大模型
- 缓存和重用:相似请求直接返回或复用
投入顺序建议
- 1. 选择合适大小的模型(最高ROI)
- 2. INT8量化(简单有效)
- 3. INT4量化(追求极致)
- 4. 知识蒸馏(需要投入但效果持久)
- 5. 架构优化(需要重新训练)