摩尔线程 × 中国移动：国产 GPU 支撑央企大模型，S5000 完成九天 35B 适配

4月28日消息，中国移动将在第九届数字中国建设峰会上发布其自研的九天35B通用大模型。摩尔线程宣布基于旗舰级AI训推一体GPU MTT S5000，并依托自研MUSA软件栈与高性能推理引擎，已完成对九天35B模型的全流程适配与推理验证，能在标准推理场景下稳定支撑高并发请求。文章同时列举了MTT S5000的硬件规格（单卡AI算力最高可达1000 TFLOPS、80GB显存、1.6TB/s显存带宽、784GB/s卡间互联）及软件栈（MUSA C、muDNN、MATE等）在注意力机制与长序列推理上的优化。

4 月 28 日消息，中国移动自主研发的九天 35B 通用大模型将在第九届数字中国建设峰会上正式发布。摩尔线程官方昨晚宣布，其基于旗舰级 AI 训推一体全功能 GPU MTT S5000，依托成熟的 MUSA 软件栈与高性能算子优化，已率先完成九天 35B 模型的全流程适配与推理验证。

据介绍，本次适配中，摩尔线程基于自研 MUSA 软件栈与 SGLang-MUSA 高性能推理引擎，深度打通九天 35B 模型推理全链路。

MTT S5000 基于第四代 MUSA“平湖”架构打造，单卡 AI 稠密算力可达 1000 TFLOPS，支持从 FP8 到 FP64 全精度计算，匹配九天 35B 大模型在长文本处理与高并发响应方面的核心需求。

摩尔线程通过 MUSA C 开发框架、muDNN 计算库与 MATE 开源算子库的全栈优化，针对九天 35B 模型特有的注意力机制与长序列推理进行深度适配，确保模型在 MTT S5000 上高效执行。在标准推理场景下，MTT S5000 可稳定支撑九天 35B 模型的高并发请求。

IT之家注：MTT S5000 是专为大模型训练、推理及高性能计算而设计的全功能 GPU 智算卡，基于第四代 MUSA 架构“平湖”打造。其单卡 AI 算力最高可达 1000 TFLOPS，配备 80GB 显存，显存带宽达到 1.6TB/s，卡间互联带宽为 784GB/s，完整支持从 FP8 到 FP64 的全精度计算。