奋斗
努力

盘古大模型所使用的服务器?

云计算

华为的盘古大模型主要运行在华为自研的昇腾(Ascend)AI计算平台上,其服务器基础设施基于华为Atlas系列硬件,具体包括以下关键组件和技术:


1. 硬件平台:Atlas服务器

  • Atlas 900:华为旗舰级AI训练集群,专为超大规模模型训练设计。
    • 计算核心:搭载数千颗昇腾910B AI芯片(早期可能使用昇腾910),提供强大的半精度(FP16)算力(单卡256 TFLOPS以上)。
    • 网络互联:采用华为自研的Ascend-Cluster架构,通过高速RoCE网络华为CloudEngine交换机实现低延迟、高带宽互联(集群规模可达数千卡)。
  • Atlas 800:用于推理或中等规模训练任务,支持昇腾芯片的模块化部署。

2. 昇腾(Ascend)AI芯片

  • 昇腾910B(当前主流):7nm工艺,支持全场景AI计算,典型功耗310W,算力远超传统GPU(如对标NVIDIA A100)。
  • 昇腾310:用于边缘推理,部分场景可能辅助盘古模型的边缘部署。

3. 软件栈:CANN与MindSpore

  • CANN(Compute Architecture for Neural Networks):华为昇腾芯片的底层驱动和算子库,优化模型并行计算。
  • MindSpore:华为自研AI框架,支持盘古大模型的分布式训练(如自动并行、流水线并行等技术)。

4. 网络与存储

  • 华为OceanStor存储:高性能分布式存储系统,支持海量训练数据(如PB级语料库)的低延迟访问。
  • 高性能网络:依托华为数据中心网络解决方案(如25G/100G RDMA),减少多节点训练时的通信开销。

5. 云端部署

  • 盘古大模型通过华为云提供服务,云上资源可能采用弹性伸缩的Atlas集群,用户可通过ModelArts平台调用盘古API。

对比其他大模型基础设施

  • 与英伟达方案的差异:盘古避免依赖CUDA生态,通过昇腾+MindSpore实现全栈自主可控。
  • 能效比:华为强调昇腾芯片在单位功耗下的算力优势,适合大规模部署。

如需更详细的技术参数(如具体集群规模或能耗数据),需参考华为官方白皮书或昇腾社区披露的信息。

未经允许不得转载:云服务器 » 盘古大模型所使用的服务器?