寒武纪AI芯片
寒武纪是国内领先的AI芯片企业,专注于智能处理器架构和芯片设计。 本文将介绍寒武纪的产品线、技术架构和生态建设。
预计阅读时间:50分钟·难度:中级·更新时间:2024年4月
寒武纪概述
寒武纪成立于2016年,是全球智能芯片领域的先行者, 致力于打造云边端一体的智能处理器。
寒武纪发展历程
| 时间 | 里程碑 |
|---|---|
| 2016 | 公司成立,发布首款深度学习处理器架构 |
| 2018 | 发布MLU100云端智能芯片 |
| 2019 | 发布MLU270,提升训练能力 |
| 2020 | 科创板上市 |
| 2021 | 发布思元290智能芯片 |
| 2023 | 发布MLU370系列 |
产品线
寒武纪产品覆盖云端、边缘端和终端,形成完整的智能计算解决方案。
MLU290(思元290)
MLU290规格参数
| 参数 | 规格 |
|---|---|
| 架构 | MLUarch03 |
| 工艺 | 7nm |
| INT8算力 | 512 TOPS |
| FP16算力 | 256 TFLOPS |
| 显存 | 32GB HBM2 |
| 显存带宽 | 1.2TB/s |
| 功耗 | 250W |
MLU370(思元370)
MLU370规格参数
| 参数 | 规格 |
|---|---|
| 架构 | MLUarch05 |
| 工艺 | 7nm |
| INT8算力 | 256 TOPS |
| FP16算力 | 128 TFLOPS |
| 显存 | 24GB LPDDR5 |
| 功耗 | 75W |
芯片架构
寒武纪智能处理器架构
MLUarch架构特点: ┌─────────────────────────────────────────┐ │ 控制单元 │ │ ┌─────────────────────────────────┐ │ │ │ 指令获取、译码、分发 │ │ │ └─────────────────────────────────┘ │ ├─────────────────────────────────────────┤ │ 计算单元 │ │ ┌──────────┐ ┌──────────┐ │ │ │ 张量单元 │ │ 向量单元 │ │ │ │ (NPU) │ │ (VPU) │ │ │ └──────────┘ └──────────┘ │ ├─────────────────────────────────────────┤ │ 存储层次 │ │ ┌──────────┐ ┌──────────┐ │ │ │ 片上缓存 │ │ 外部显存 │ │ │ │ (SRAM) │ │ (HBM) │ │ │ └──────────┘ └──────────┘ │ └─────────────────────────────────────────┘ 核心特点: ├── 专用张量计算单元 ├── 稀疏计算优化 ├── 混合精度支持 └── 灵活的存储架构
软件生态
寒武纪软件栈
寒武纪软件生态: ┌─────────────────────────────────────────┐ │ 应用层 │ │ PyTorch │ TensorFlow │ 飞桨 │ 自研框架 │ ├─────────────────────────────────────────┤ │ 推理/训练引擎 │ │ ┌─────────────────────────────────┐ │ │ │ BANG推理引擎 │ │ │ │ Neuware软件栈 │ │ │ └─────────────────────────────────┘ │ ├─────────────────────────────────────────┤ │ 驱动层 │ │ ┌─────────────────────────────────┐ │ │ │ CNDRV驱动程序 │ │ │ └─────────────────────────────────┘ │ ├─────────────────────────────────────────┤ │ 硬件层 │ │ ┌─────────────────────────────────┐ │ │ │ MLU芯片 │ │ │ └─────────────────────────────────┘ │ └─────────────────────────────────────────┘
Neuware软件栈
提供完整的开发、调试和部署工具链
BANG语言
专用编程语言,用于开发高性能算子
框架适配
支持PyTorch、TensorFlow等主流框架
性能对比
与主流GPU性能对比(推理)
| 芯片 | INT8算力 | 功耗 | 能效比 |
|---|---|---|---|
| 寒武纪MLU290 | 512 TOPS | 250W | 2.0 TOPS/W |
| 寒武纪MLU370 | 256 TOPS | 75W | 3.4 TOPS/W |
| NVIDIA A100 | 624 TOPS | 400W | 1.6 TOPS/W |
| NVIDIA T4 | 130 TOPS | 70W | 1.9 TOPS/W |
应用场景
智慧城市
视频分析、智能交通、安防监控
智能推荐
电商推荐、内容推荐、广告投放
自然语言处理
文本分类、机器翻译、语义理解
科学计算
分子动力学、流体力学模拟
发展挑战
当前面临的挑战
- 软件生态相对薄弱,开发者社区规模有限
- 与CUDA生态的兼容性需要持续改进
- 高端工艺受限,影响性能提升
- 市场认可度有待提升
发展机遇
| 机遇 | 说明 |
|---|---|
| 国产替代 | 政策推动国产芯片应用 |
| 大模型需求 | AI大模型带来算力需求增长 |
| 定制化需求 | 特定场景的定制化解决方案 |