寒武纪 Day 0 适配 DeepSeek-V4,发布当日即稳定运行

寒武纪基于 vLLM 推理框架完成对深度求索开源模型 285B DeepSeek‑V4‑flash 与 1.6T DeepSeek‑V4‑pro 的 Day 0 适配并已开源代码。文中介绍了通过自研算子库 Torch‑MLU‑Ops 与 BangC 对 Compressor、mHC、稀疏/压缩 Attention、GroupGemm 等模块进行专项优化,结合 vLLM 中的 TP/PP/SP/DP/EP 五维混合并行、低精度量化与 PD 分离部署等策略,提升分布式推理的词元吞吐与端到端效率;并利用 MLU 硬件特性加速稀疏结构和降低通信开销。文章还提到 DeepSeek‑V4 预览版已上线,支持百万字超长上下文,可通过官网或 API(model_name deepseek-v4-pro/flash)访问。

4 月 24 日消息,寒武纪今日宣布,已基于 vLLM 推理框架完成对深度求索公司最新开源模型 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的 Day 0 适配,模型发布当日即可实现稳定运行,适配代码已开源到 GitHub 社区。

针对 DeepSeek-V4 的新结构,寒武纪通过自研高性能融合算子库 Torch-MLU-Ops,对 Compressor、mHC 等模块进行专项加速;利用 BangC 高性能编程语言,编写稀疏 / 压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel,充分释放硬件底层性能。

在推理框架优化层面,寒武纪在 vLLM 中全面支持 TP / PP / SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。

硬件特性同样被深度挖掘:利用 MLU 访存与排序加速能力,有效加速稀疏 Attention、Indexer 等结构;高互联带宽与低通信延时,将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。

IT之家注意到,今天上午,DeepSeek-V4 模型预览版正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。即日起登录官网 chat.deepseek.com 或官方 App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。API 服务已同步更新,通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...