中国电信广东公司联合阿里云在广东韶关数据中心上线了粤港澳大湾区首个基于国产“真武”芯片的万卡智算集群,宣称实现从芯片、云平台到模型应用的全链路自主研发。技术上通过卡间RoCE高性能组网、双平面多轨通信等,使集群端到端网络时延降至4微秒、网络峰值利用率超95%,可满足大模型训练中的AllReduce、AlltoAll等超大流量通信需求,支持千亿参数级大模型的预训练与推理。生态方面,“真武”芯片及自研软件栈兼容主流模型、框架与算子库,提供统一编程接口以降低迁移成本。该算力资源同步在“广东电信算力超市”以按卡、按小时方式对中小企业开放,未来计划扩容至十万卡规模,服务更多科研、企业与政务机构。
4 月 8 日消息,中国电信广东公司联合阿里云宣布在广东韶关数据中心集群上线“粤港澳大湾区首个基于‘真武’芯片的万卡智算集群”,该集群实现了从芯片、云平台到模型应用的全链路自主研发。
IT之家获悉,该集群在技术层面实现了多项关键突破。通过卡间 RoCE 高性能组网、双平面多轨通信等技术创新,集群端到端网络时延低至 4 微秒,网络峰值利用率超过 95%,能够高效满足大模型训练过程中 AllReduce、AlltoAll 等超大流量通信需求,稳定承载千亿参数级大模型的预训练与推理任务。

▲ 图源中国电信广东公司
在生态兼容方面,“真武”芯片全面适配主流 AI 生态,自研软件栈高效适配各类主流模型、框架、算子库及操作系统,具备统一的编程接口,可端到端支持用户自主业务落地与扩展,大幅降低客户迁移成本。
为进一步推动算力普惠,该集群资源同步在“广东电信算力超市”上线,通过集约运营,面向中小企业提供按卡、按小时计费的算力零售服务。同时,集群未来预计持续扩容至十万卡规模,惠及大湾区更多科研机构、企业政务部门以更低成本、更高效率使用算力资源。