华为的盘古大模型主要运行在华为自研的昇腾(Ascend)AI计算平台上,其服务器基础设施基于华为Atlas系列硬件,具体包括以下关键组件和技术:
1. 硬件平台:Atlas服务器
- Atlas 900:华为旗舰级AI训练集群,专为超大规模模型训练设计。
- 计算核心:搭载数千颗昇腾910B AI芯片(早期可能使用昇腾910),提供强大的半精度(FP16)算力(单卡256 TFLOPS以上)。
- 网络互联:采用华为自研的Ascend-Cluster架构,通过高速RoCE网络或华为CloudEngine交换机实现低延迟、高带宽互联(集群规模可达数千卡)。
- Atlas 800:用于推理或中等规模训练任务,支持昇腾芯片的模块化部署。
2. 昇腾(Ascend)AI芯片
- 昇腾910B(当前主流):7nm工艺,支持全场景AI计算,典型功耗310W,算力远超传统GPU(如对标NVIDIA A100)。
- 昇腾310:用于边缘推理,部分场景可能辅助盘古模型的边缘部署。
3. 软件栈:CANN与MindSpore
- CANN(Compute Architecture for Neural Networks):华为昇腾芯片的底层驱动和算子库,优化模型并行计算。
- MindSpore:华为自研AI框架,支持盘古大模型的分布式训练(如自动并行、流水线并行等技术)。
4. 网络与存储
- 华为OceanStor存储:高性能分布式存储系统,支持海量训练数据(如PB级语料库)的低延迟访问。
- 高性能网络:依托华为数据中心网络解决方案(如25G/100G RDMA),减少多节点训练时的通信开销。
5. 云端部署
- 盘古大模型通过华为云提供服务,云上资源可能采用弹性伸缩的Atlas集群,用户可通过ModelArts平台调用盘古API。
对比其他大模型基础设施
- 与英伟达方案的差异:盘古避免依赖CUDA生态,通过昇腾+MindSpore实现全栈自主可控。
- 能效比:华为强调昇腾芯片在单位功耗下的算力优势,适合大规模部署。
如需更详细的技术参数(如具体集群规模或能耗数据),需参考华为官方白皮书或昇腾社区披露的信息。
云服务器