12 月 23 日消息,上海交通大学“致远一号”于今日全面建成启用,是全国高校最大的国产智算算力基础设施,本地部署了包含 DeepSeek 在内的 8 款主流大模型。

根据上海交通大学高性能计算中心介绍,“致远一号”平台硬件配置包括 1024 张华为昇腾 910B 加速卡,FP16 峰值算力 313P,配合 Pacific 分布式存储与 BurstBuffer 架构,总存储容量 13.6PB。
计算方面,“致远一号”配备 101 台 CPU 节点,形成 5000+ vCPU 的通用计算池;云服务支持 IaaS、PaaS、SaaS 全栈功能,具备异构算力调度与云化弹性部署,能够满足教学、科研和管理等多样化需求。
“致远一号”的网络与算力资源由智算集群区、云平台区和存储区构成:
- 智算集群区部署 128 台 Atlas 800T A2 昇腾服务器,共 1024 张 NPU 卡,峰值算力 320P,每机柜安装 5 台,单柜功率 30kW。网络架构分为参数面(200GE RoCE,1:1 收敛,32 台 CE9855 Leaf + 16 台 CE9855 Spine)、业务面(100GE,SDI 智能网卡,8 台 CE8850 Leaf + 2 台 CE9865-4C Spine)和样本面(25GE RoCE,1:1 收敛,8 台 CE6865E Leaf + 4 台 CE8850 Spine)。
- 云平台区基于 HCSO 和 ModelArts,配置 101 台鲲鹏 Taishan 200 2280 V2 服务器及 60 台网络设备,并提供 2PB 云对象存储、1PB 云块存储和 1.6PB 云文件存储。
- 存储区采用全闪与混闪架构,全闪 Pacific 9950 提供 43 节点、6.5PB 容量,混闪 Pacific 9550 提供 12 节点、2.5PB 容量,为并行计算与大规模模型训练提供高效数据支撑。
机房建设方面,该平台共设 52 个 47U 加高机柜,分布在 3 组封闭微模块中,其中 34 个用于智能计算服务器(单柜功率 30kW),18 个用于存储和网络服务器(单柜功率 20kW)。
“致远一号”的供电系统额定功率 960kW,机房配电总功率 1380kW,采用小母线架构,每个机柜配备双路 PDU,存储和网络机柜还接入 UPS,断电可维持 15 分钟不间断供电。
“致远一号”的制冷系统配置 30 台风冷列间精密空调,单台 60kW,按“N+2”冗余方案部署,总制冷功率 1440kW,并采用氟泵双循环自然冷却技术,全年综合 PUE(IT之家注:数据中心消耗的所有能源与 IT 负载消耗的能源的比值,越接近 1 表明能效越高)约 1.3。

| 类型 | 设备 | 参数 | 数量 |
|---|---|---|---|
| 计算 | CPU 节点 | CPU: 2*Kunpeng 920 Mem: 2048GB DDR5(4800MHZ) 512GB DDR5(4800MHZ) 1024GB DDR5(4800MHZ) | 101 |
| NPU 节点 | CPU:4*Kunpeng 920 NPU: 8 * 昇腾 AI 处理器 | 128 | |
| 存储 | 高性能分布式存储节点 | 可用容量:2.5PB 型号:OceanStor Pacific 9950 主存盘:7.68T NVMe SSD*10 | 43 |
| 高容量分布式存储节点 | 可用容量:6.5PB 型号:OceanStor Pacific 9550 主存盘:16T SATA HDD *50 | 12 | |
| 云存储 | 总可用容量:4.6PB | 1 | |
| 网络 | 参数面高性能交换机 | 主型号:CE9855-32DQ 端口:32 x 400GE + 2 x 10GE 交换容量:25.6Tbps 包转发率:8000Mpps | 48 |
| 样本面高性能交换机 | 主型号:CE8850-64CQ-EI 端口:64 x 100 GE 交换容量:12.8Tbps / 204.8Tbps 包转发率:4,482Mpps | 24 |
上海交通大学官方介绍显示,该校于 2012 年成立高性能计算中心,2013 年建成“交我算”的第一个集群 π1.0,再到今天“致远一号”平台全面落地,“交我算”品牌已经有 10 多年的发展历程。
上一代“思源一号”高性能计算平台建于 2021 年,总算力 6 PFLOPS(每秒六千万亿次浮点运算):
- CPU 采用双路 Intel Xeon ICX Platinum 8358 32 核,主频 2.6GHz,共 938 个计算节点;
- GPU 采用 NVIDIA HGX A100 4-GPU,共 23 个计算节点。
- 采用联想第五代温水冷技术,与通用风冷计算设备相比,节省电力和减少二氧化碳排放 42%;
- 计算节点之间使用 Mellanox 100 Gbps Infiniband HDR 高速互联,并行存储的聚合存储能力达 10 PB;
- 集群额定功率 900kW,其中 IT 设备额定功率 800kW,制冷、配电设备额定功率 100kW;
- 单机柜(水冷)额定功率 55kW,机柜总数 18 个,PUE 约 1.10。
