能源优化
能源成本是数据中心运营成本的重要组成部分,能源优化同时实现降本和环保双重目标。
成本优化·阅读时间:约12分钟
01PUE优化
什么是PUE
PUE = 总设施用电量 / IT设备用电量
- PUE = 1.0:理想状态,无额外能耗
- PUE < 1.2:优秀
- PUE 1.2-1.5:一般
- PUE > 1.5:有较大优化空间
PUE优化方向
降低冷却能耗
冷却通常占额外能耗的大部分
优化电源效率
减少电力转换损耗
智能运维
根据负载动态调整
云服务的PUE
选择考量
主要云厂商都公布PUE数据,可以作为选择参考。
02冷却优化
冷却技术
| 技术 | 说明 | 能效 |
|---|---|---|
| 传统风冷 | 空调冷却空气 | 一般 |
| 水冷 | 冷水循环 | 较好 |
| 直接液冷 | 液体直接接触芯片 | 优秀 |
| 浸没式 | 服务器浸没在冷却液 | 最优 |
自然冷却
- 新风冷却:外部气温低时直接用新风
- 间接自然冷却:热交换,不引入外部空气
- 水侧自然冷却:冷却塔自然冷却
- 地理选择:寒冷地区可大幅节能
气流组织
- 冷热通道分离
- 密封机柜,减少混风
- 合理的通风设计
- 动态风量控制
03电源管理
电源效率
高效电源
80PLUS钛金、白金认证电源
负载优化
电源在50%-80%负载效率最高
减少转换
减少电压转换次数
动态功耗管理
| 技术 | 说明 | 适用 |
|---|---|---|
| DVFS | 动态电压频率调整 | 负载变化场景 |
| 核心休眠 | 空闲核心降电 | 低利用率时 |
| 功率封顶 | 限制最大功率 | 电力受限场景 |
| 工作负载调度 | 整合负载,关空闲机器 | 云/集群场景 |
GPU功耗优化
- 功率限制:适当降频,功耗/性能曲线最优
- 利用率优化:提高利用率,减少待机功耗
- 量化加速:用INT8/INT4更快完成,省电
- 任务调度:集中任务,不用的GPU关电
可再生能源
- 选择有绿色能源的区域和云厂商
- 在可再生能源充沛时运行任务
- 碳足迹追踪和抵消
- 参与绿色电力市场
总结
- 能源成本可观,优化有价值
- PUE是重要指标,目标<1.2
- 冷却是关键优化方向
- 动态功耗管理可以显著省电
- 兼顾降本和环保双重收益