华为昇腾 0 Day 支持 MiniMax M2.7 模型,推理部署提供全流程支持

本文报道 MiniMax 开源其首个自我深度迭代模型 MiniMax M2.7,华为昇腾实现 0 Day 适配并在 Atlas 800 A3、Atlas 800I A2 系列上基于 vllm Ascend 提供推理部署全流程支持。M2.7 可构建复杂 Agent Harness、基于 Agent Teams 与多种 skills(含 Tool Search)完成高度复杂的生产力任务,并通过自我强化学习更新 memory、优化训练与 Harness,实现模型自我进化。模型在软件工程、专业办公与互动娱乐等领域表现提升(SWE-Pro 56.22% 与 GPT-5.3-Codex 持平;SWE Multilingual 76.5;Multi SWE Bench 52.7;GDPval-AA 开源最高;40 个复杂 skills 遵循率 97%),并提供 OpenRoom Agent 交互系统。昇腾在通信与算子层面做了包括 FlashComm 序列切分、ReduceScatter/AllGather、前序全链路融合 Attention 与 MoE 大融合算子、自适应 DP 负载均衡等深度优化以提升推理吞吐与并发性能。

4 月 13 日消息,据昇腾 AI 开发者公众号,4 月 12 日,MiniMax 正式开源其第一个自我深度迭代的模型 MiniMax M2.7。昇腾一直同步支持 MiniMax M2 系列模型,此次 M2.7 模型一经开源发布,昇腾 AI 基础软硬件即实现 0 Day 适配,可基于 vllm Ascend 在 Atlas 800 A3、Atlas 800I A2 系列产品上为该模型的推理部署提供全流程支持

IT之家从官方介绍获悉,MiniMax M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search Tool 等能力,完成高度复杂的生产力任务。在研发过程中,MiniMax 基于模型构建强化学习 Harness 中的数十个复杂的 skills,更新自己的 memory,驱动模型自身的强化学习,并基于结果优化强化学习过程和 Harness,开启模型的自我进化。

昇腾持续加速算子和基础软硬件创新,匹配 MiniMax M2.7 模型创新的 FlashComm 序列切分,AllReduce 换成 ReduceScatter 和 AllGather 通信加速;深度优化的 Transformer Attention 前序全链路融合算子和 MoE 大融合算子,彻底消除中间张量读写和多算子调度开销;同时在多 DP 并发场景下,自适应 DP 域负载均衡,大幅降低 prefill 对 decode 的抢断,显著提升重载忙时的吞吐性能,让广大用户和开发者畅享 MiniMax M2.7 新体验。

**构建模型自我进化智能体:**MiniMax 团队在开发过程中,研究员将 M2 的早期版本引导为一个研究型 Agent Harness 来参与下一代模型的迭代循环,它能够与不同的研究项目组进行交互和协作,研究员在每一层引导方向,模型在每一层负责构建,研究员只需在关键决策和讨论时介入。通过 Agent 驱动,大幅加速了问题发现和实验迭代,从而更快地交付模型。部分 RL 场景下,M2.7 能够胜任 30-50% 的工作流。

**软件工程领域:**M2.7 更深入地打磨了真实软件工程所需的编程能力,覆盖日志分析与 Bug 定位、代码重构、代码安全、机器学习、安卓开发等方向。在涵盖多种编程语言的基准测试 SWE-Pro 中 M2.7 以 56.22% 的正确率追平 GPT-5.3-Codex;而在更贴近真实工程场景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展现出更显著优势。

**专业办公领域:**M2.7 模型提升了专业知识和任务交付能力,在 GDPval-AA 得分为开源最高;并且具备与复杂环境交互的能力,在 40 个复杂 skills (>2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。

**互动娱乐领域:**M2.7 构建了一个 Agent 交互系统 OpenRoom,它将 AI 互动置入一个万物皆可互动的 Web GUI 空间,极大加强了人设保持和对话能力,并且能够随着模型 Agentic 能力的提升和社区共建持续进化。

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...