华为云首发适配 DeepSeek-V4，提供免部署、一键调用 API 的 Tokens 服务

文章报道了 DeepSeek-V4 预览版开源上线及华为云首发适配，华为云 MaaS 提供免部署、一键调用的 DeepSeek-V4-Flash Tokens API，并针对 V4 实现了分层注意力压缩、KVCache 高效管理、10 余种昇腾高性能融合算子及框架级优化，支持原生 100 万 Token 的超长上下文高性能推理。V4 系列包含 MoE 架构的 DeepSeek-V4-Pro（总参数 1.6 万亿，激活参数 490 亿）和 DeepSeek-V4-Flash（总参数 2840 亿，激活参数 130 亿），通过 CSA/HCA 混合注意力、mHC 替代残差连接和 Muon 优化器等技术显著降低 FLOPs 与 KV 占用并加速训练与推理；官方披露在多项基准与智能体测试中表现优异，但仍落后于 GPT-5.4 与 Gemini-3.1-Pro，生态厂商（昇腾、寒武纪等）已开始适配与支持。

4 月 24 日消息，备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。

随后，华为云官方宣布为 DeepSeek-V4 提供首发适配，华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。

在适配过程中，华为云针对 V4 模型的特性，首发适配了模型分层注意力压缩机制，实现了 V4 注意力机制下 KVCache 的高效分配管理，提供了 TopK、SWA、CFA 等 10 余种昇腾高性能融合算子，搭配框架异步调度、MTP 多步投机等框架优化，支持原生 100 万 Token 长上下文的高性能推理。

DeepSeek 方面已经确认，受限于高端算力，目前 Pro 版本的服务吞吐较为有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格还将大幅下调。IT之家此前报道，昇腾超节点全系列产品也已全面支持 DeepSeek-V4 系列模型。

本次发布的 V4 系列包含两个 MoE 架构版本：旗舰版 DeepSeek-V4-Pro 总参数 1.6 万亿、激活参数 490 亿，经济型 DeepSeek-V4-Flash 总参数 2840 亿、激活参数 130 亿，两者均原生支持 100 万 Token 的超长上下文。

在技术架构层面，DeepSeek-V4 并未单纯依靠增加硬件投入，而是设计了全新的混合注意力机制，包含压缩稀疏注意力（CSA）与重压缩注意力（HCA）两大组件，在 Token 维度对 KV 缓存进行压缩并结合 DSA 稀疏注意力技术，大幅降低了长上下文场景下的计算和显存需求。

据官方技术报告，在 100 万 Token 上下文设置下，V4-Pro 的单 Token 推理 FLOPs 仅为前代 V3.2 的 27%，KV 缓存占用降至 10%；V4-Flash 更为极致，两项指标分别压低至 10% 和 7%。此外，V4 还引入了流形约束超连接（mHC）替代传统残差连接，使用 Muon 优化器提升训练收敛速度，整个模型在超过 32 万亿 Token 上完成了预训练。

性能方面，DeepSeek 官方表示 V4-Pro 在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先。在知识与推理类基准测试中，V4-Pro-Max 模式（最大推理强度模式）在 Apex Shortlist（90.2%）和 Codeforces（Rating 3206）两项硬核推理与编程任务中拔得头筹。

智能体能力方面，DeepSeek 在 Terminal Bench 2.0（67.9%）和 Toolathlon（51.8%）两项工具调用与复杂指令执行测试中表现突出。官方给出的定位是：V4-Pro 的使用体验优于 Anthropic Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍存在一定差距。

同时官方明确表示，V4 的能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro，发展轨迹大约滞后前沿闭源模型 3 至 6 个月。V4-Flash 则定位为经济型模型，推理能力接近 Pro 版，世界知识储备稍逊一筹，在简单 Agent 任务上与 Pro 版旗鼓相当，但在高难度任务上仍有差距。

相关阅读：

《华为：昇腾超节点系列产品全面支持 DeepSeek V4》
《寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行》
《迈入百万上下文普惠时代：DeepSeek-V4 模型预览版正式上线并同步开源》