全国高校最强“全华班”算力:上海交大“致远一号”平台搭载 1024 张华为昇腾 910B 加速卡

上海交通大学“致远一号”智算平台全面建成启用,作为全国高校最大的国产智算算力基础设施,配备了1024张华为昇腾910B加速卡,峰值算力达313P,并部署了包括DeepSeek在内的8款主流大模型。平台硬件配置包括101台CPU节点、128台Atlas 800T A2昇腾服务器,总存储容量13.6PB,网络架构分为参数面、业务面和样本面。机房建设采用52个47U加高机柜,供电系统额定功率960kW,PUE约1.3。该平台是上海交大高性能计算中心“交我算”品牌的最新成果,标志着国产化智算能力的重大突破。

12 月 23 日消息,上海交通大学“致远一号”于今日全面建成启用,是全国高校最大的国产智算算力基础设施,本地部署了包含 DeepSeek 在内的 8 款主流大模型。

根据上海交通大学高性能计算中心介绍,“致远一号”平台硬件配置包括 1024 张华为昇腾 910B 加速卡,FP16 峰值算力 313P,配合 Pacific 分布式存储与 BurstBuffer 架构,总存储容量 13.6PB。

计算方面,“致远一号”配备 101 台 CPU 节点,形成 5000+ vCPU 的通用计算池;云服务支持 IaaS、PaaS、SaaS 全栈功能,具备异构算力调度与云化弹性部署,能够满足教学、科研和管理等多样化需求。

“致远一号”的网络与算力资源由智算集群区、云平台区和存储区构成:

  • 智算集群区部署 128 台 Atlas 800T A2 昇腾服务器,共 1024 张 NPU 卡,峰值算力 320P,每机柜安装 5 台,单柜功率 30kW。网络架构分为参数面(200GE RoCE,1:1 收敛,32 台 CE9855 Leaf + 16 台 CE9855 Spine)、业务面(100GE,SDI 智能网卡,8 台 CE8850 Leaf + 2 台 CE9865-4C Spine)和样本面(25GE RoCE,1:1 收敛,8 台 CE6865E Leaf + 4 台 CE8850 Spine)。
  • 云平台区基于 HCSO 和 ModelArts,配置 101 台鲲鹏 Taishan 200 2280 V2 服务器及 60 台网络设备,并提供 2PB 云对象存储、1PB 云块存储和 1.6PB 云文件存储。
  • 存储区采用全闪与混闪架构,全闪 Pacific 9950 提供 43 节点、6.5PB 容量,混闪 Pacific 9550 提供 12 节点、2.5PB 容量,为并行计算与大规模模型训练提供高效数据支撑。

机房建设方面,该平台共设 52 个 47U 加高机柜,分布在 3 组封闭微模块中,其中 34 个用于智能计算服务器(单柜功率 30kW),18 个用于存储和网络服务器(单柜功率 20kW)。

“致远一号”的供电系统额定功率 960kW,机房配电总功率 1380kW,采用小母线架构,每个机柜配备双路 PDU,存储和网络机柜还接入 UPS,断电可维持 15 分钟不间断供电。

“致远一号”的制冷系统配置 30 台风冷列间精密空调,单台 60kW,按“N+2”冗余方案部署,总制冷功率 1440kW,并采用氟泵双循环自然冷却技术,全年综合 PUE(IT之家注:数据中心消耗的所有能源与 IT 负载消耗的能源的比值,越接近 1 表明能效越高)约 1.3

类型设备参数数量
计算CPU 节点CPU: 2*Kunpeng 920

Mem:

2048GB DDR5(4800MHZ)

512GB DDR5(4800MHZ)

1024GB DDR5(4800MHZ)
101
NPU 节点CPU:4*Kunpeng 920
NPU: 8 * 昇腾 AI 处理器
128
存储高性能分布式存储节点可用容量:2.5PB
型号:OceanStor Pacific 9950
主存盘:7.68T NVMe SSD*10
43
高容量分布式存储节点可用容量:6.5PB
型号:OceanStor Pacific 9550
主存盘:16T SATA HDD *50
12
云存储总可用容量:4.6PB1
网络参数面高性能交换机主型号:CE9855-32DQ
端口:32 x 400GE + 2 x 10GE
交换容量:25.6Tbps
包转发率:8000Mpps
48
样本面高性能交换机主型号:CE8850-64CQ-EI
端口:64 x 100 GE
交换容量:12.8Tbps / 204.8Tbps
包转发率:4,482Mpps
24

上海交通大学官方介绍显示,该校于 2012 年成立高性能计算中心,2013 年建成“交我算”的第一个集群 π1.0,再到今天“致远一号”平台全面落地,“交我算”品牌已经有 10 多年的发展历程。

上一代“思源一号”高性能计算平台建于 2021 年,总算力 6 PFLOPS(每秒六千万亿次浮点运算):

  • CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 938 个计算节点;
  • GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。
  • 采用联想第五代温水冷技术,与通用风冷计算设备相比,节省电力和减少二氧化碳排放 42%;
  • 计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB;
  • 集群额定功率 900kW,其中 IT 设备额定功率 800kW,制冷、配电设备额定功率 100kW;
  • 单机柜(水冷)额定功率 55kW,机柜总数 18 个,PUE 约 1.10。

图片

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...