寒武纪AI芯片

寒武纪是国内领先的AI芯片企业,专注于智能处理器架构和芯片设计。 本文将介绍寒武纪的产品线、技术架构和生态建设。

预计阅读时间:50分钟·难度:中级·更新时间:2024年4月

寒武纪概述

寒武纪成立于2016年,是全球智能芯片领域的先行者, 致力于打造云边端一体的智能处理器。

寒武纪发展历程

时间里程碑
2016公司成立,发布首款深度学习处理器架构
2018发布MLU100云端智能芯片
2019发布MLU270,提升训练能力
2020科创板上市
2021发布思元290智能芯片
2023发布MLU370系列

产品线

寒武纪产品覆盖云端、边缘端和终端,形成完整的智能计算解决方案。

MLU290(思元290)

MLU290规格参数

参数规格
架构MLUarch03
工艺7nm
INT8算力512 TOPS
FP16算力256 TFLOPS
显存32GB HBM2
显存带宽1.2TB/s
功耗250W

MLU370(思元370)

MLU370规格参数

参数规格
架构MLUarch05
工艺7nm
INT8算力256 TOPS
FP16算力128 TFLOPS
显存24GB LPDDR5
功耗75W

芯片架构

寒武纪智能处理器架构

MLUarch架构特点:
┌─────────────────────────────────────────┐
│           控制单元                      │
│  ┌─────────────────────────────────┐   │
│  │     指令获取、译码、分发        │   │
│  └─────────────────────────────────┘   │
├─────────────────────────────────────────┤
│           计算单元                      │
│  ┌──────────┐  ┌──────────┐            │
│  │ 张量单元 │  │ 向量单元 │            │
│  │ (NPU)    │  │ (VPU)    │            │
│  └──────────┘  └──────────┘            │
├─────────────────────────────────────────┤
│           存储层次                      │
│  ┌──────────┐  ┌──────────┐            │
│  │ 片上缓存 │  │ 外部显存 │            │
│  │ (SRAM)   │  │ (HBM)    │            │
│  └──────────┘  └──────────┘            │
└─────────────────────────────────────────┘

核心特点:
├── 专用张量计算单元
├── 稀疏计算优化
├── 混合精度支持
└── 灵活的存储架构

软件生态

寒武纪软件栈

寒武纪软件生态:
┌─────────────────────────────────────────┐
│           应用层                        │
│  PyTorch │ TensorFlow │ 飞桨 │ 自研框架 │
├─────────────────────────────────────────┤
│           推理/训练引擎                 │
│  ┌─────────────────────────────────┐   │
│  │         BANG推理引擎            │   │
│  │         Neuware软件栈           │   │
│  └─────────────────────────────────┘   │
├─────────────────────────────────────────┤
│           驱动层                        │
│  ┌─────────────────────────────────┐   │
│  │        CNDRV驱动程序            │   │
│  └─────────────────────────────────┘   │
├─────────────────────────────────────────┤
│           硬件层                        │
│  ┌─────────────────────────────────┐   │
│  │         MLU芯片                 │   │
│  └─────────────────────────────────┘   │
└─────────────────────────────────────────┘
Neuware软件栈

提供完整的开发、调试和部署工具链

BANG语言

专用编程语言,用于开发高性能算子

框架适配

支持PyTorch、TensorFlow等主流框架

性能对比

与主流GPU性能对比(推理)

芯片INT8算力功耗能效比
寒武纪MLU290512 TOPS250W2.0 TOPS/W
寒武纪MLU370256 TOPS75W3.4 TOPS/W
NVIDIA A100624 TOPS400W1.6 TOPS/W
NVIDIA T4130 TOPS70W1.9 TOPS/W

应用场景

智慧城市

视频分析、智能交通、安防监控

智能推荐

电商推荐、内容推荐、广告投放

自然语言处理

文本分类、机器翻译、语义理解

科学计算

分子动力学、流体力学模拟

发展挑战

当前面临的挑战

  • 软件生态相对薄弱,开发者社区规模有限
  • 与CUDA生态的兼容性需要持续改进
  • 高端工艺受限,影响性能提升
  • 市场认可度有待提升

发展机遇

机遇说明
国产替代政策推动国产芯片应用
大模型需求AI大模型带来算力需求增长
定制化需求特定场景的定制化解决方案
----