华为云首发适配 DeepSeek-V4,提供免部署、一键调用 API 的 Tokens 服务

文章报道了 DeepSeek-V4 预览版开源上线及华为云首发适配,华为云 MaaS 提供免部署、一键调用的 DeepSeek-V4-Flash Tokens API,并针对 V4 实现了分层注意力压缩、KVCache 高效管理、10 余种昇腾高性能融合算子及框架级优化,支持原生 100 万 Token 的超长上下文高性能推理。V4 系列包含 MoE 架构的 DeepSeek-V4-Pro(总参数 1.6 万亿,激活参数 490 亿)和 DeepSeek-V4-Flash(总参数 2840 亿,激活参数 130 亿),通过 CSA/HCA 混合注意力、mHC 替代残差连接和 Muon 优化器等技术显著降低 FLOPs 与 KV 占用并加速训练与推理;官方披露在多项基准与智能体测试中表现优异,但仍落后于 GPT-5.4 与 Gemini-3.1-Pro,生态厂商(昇腾、寒武纪等)已开始适配与支持。

4 月 24 日消息,备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。

随后,华为云官方宣布为 DeepSeek-V4 提供首发适配,华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。

在适配过程中,华为云针对 V4 模型的特性,首发适配了模型分层注意力压缩机制,实现了 V4 注意力机制下 KVCache 的高效分配管理,提供了 TopK、SWA、CFA 等 10 余种昇腾高性能融合算子,搭配框架异步调度、MTP 多步投机等框架优化,支持原生 100 万 Token 长上下文的高性能推理。

DeepSeek 方面已经确认,受限于高端算力,目前 Pro 版本的服务吞吐较为有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格还将大幅下调。IT之家此前报道,昇腾超节点全系列产品也已全面支持 DeepSeek-V4 系列模型。

本次发布的 V4 系列包含两个 MoE 架构版本:旗舰版 DeepSeek-V4-Pro 总参数 1.6 万亿、激活参数 490 亿,经济型 DeepSeek-V4-Flash 总参数 2840 亿、激活参数 130 亿,两者均原生支持 100 万 Token 的超长上下文。

在技术架构层面,DeepSeek-V4 并未单纯依靠增加硬件投入,而是设计了全新的混合注意力机制,包含压缩稀疏注意力(CSA)与重压缩注意力(HCA)两大组件,在 Token 维度对 KV 缓存进行压缩并结合 DSA 稀疏注意力技术,大幅降低了长上下文场景下的计算和显存需求。

据官方技术报告,在 100 万 Token 上下文设置下,V4-Pro 的单 Token 推理 FLOPs 仅为前代 V3.2 的 27%,KV 缓存占用降至 10%;V4-Flash 更为极致,两项指标分别压低至 10% 和 7%。此外,V4 还引入了流形约束超连接(mHC)替代传统残差连接,使用 Muon 优化器提升训练收敛速度,整个模型在超过 32 万亿 Token 上完成了预训练。

性能方面,DeepSeek 官方表示 V4-Pro 在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先。在知识与推理类基准测试中,V4-Pro-Max 模式(最大推理强度模式)在 Apex Shortlist(90.2%)和 Codeforces(Rating 3206)两项硬核推理与编程任务中拔得头筹。

智能体能力方面,DeepSeek 在 Terminal Bench 2.0(67.9%)和 Toolathlon(51.8%)两项工具调用与复杂指令执行测试中表现突出。官方给出的定位是:V4-Pro 的使用体验优于 Anthropic Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍存在一定差距。

同时官方明确表示,V4 的能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型 3 至 6 个月。V4-Flash 则定位为经济型模型,推理能力接近 Pro 版,世界知识储备稍逊一筹,在简单 Agent 任务上与 Pro 版旗鼓相当,但在高难度任务上仍有差距。

相关阅读:

  • 《华为:昇腾超节点系列产品全面支持 DeepSeek V4》
  • 《寒武纪 Day 0 适配 DeepSeek-V4,发布当日即稳定运行》
  • 《迈入百万上下文普惠时代:DeepSeek-V4 模型预览版正式上线并同步开源》

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...