阿里发布千问旗舰推理模型 Qwen3-Max-Thinking：总参数超万亿，号称性能媲美 GPT-5.2

阿里发布了千问旗舰推理模型Qwen3-Max-Thinking，该模型在多个关键维度上实现了显著提升，包括事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力。其性能在19项权威基准测试中媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型。Qwen3-Max-Thinking总参数超万亿，通过自适应工具调用能力和测试时扩展技术，显著提升了推理性能。模型现已上线Qwen Chat，并开放API。

1 月 26 日消息，北京时间今天晚间，阿里发布千问旗舰推理模型 Qwen3-Max-Thinking。根据官方介绍，其在多个关键维度上实现了显著提升，包括事实知识、复杂推理、指令遵循、人类偏好对齐以及智能体能力。在 19 项权威基准测试中，其性能可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等顶尖模型。

千问新模型总参数超万亿，进行了更大规模的强化学习后训练，并通过推理技术的系列创新，最终完成模型性能的大幅飞跃。在多项关键性能基准测试中，Qwen3-Max-Thinking 还大幅增强了自主调用工具的原生 Agent 能力，模型可像专业人士一样边用工具边思考，回答更合用户心意、更智能、更流畅。同时，模型幻觉也大为降低，为解决真实复杂任务打下基础。

根据官方介绍，Qwen3-Max-Thinking 刷新了数项最佳表现（SOTA）纪录，特别在科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项关键性能基准测试中表现优异，达到国际领先水平。

Qwen3-Max-Thinking 现已上线 Qwen Chat，用户可直接与模型及其自适应工具调用功能进行交互。同时，Qwen3-Max-Thinking 的 API（模型名称为 qwen3-max-2026-01-23）也已开放。

IT之家附体验链接：

**Qwen Chat：**chat.qwen.ai
**阿里云百炼：**https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

据悉，Qwen3-Max-Thinking 拥有两项核心创新。

自适应工具调用能力，可按需调用搜索引擎和代码解释器，现已上线 Qwen Chat；
测试时扩展技术（Test-Time Scaling），显著提升推理性能，在关键推理基准上超越 Gemini 3 Pro。

官方对此的介绍如下：

自适应工具调用能力
与早期需要用户手动选择工具的方法不同，Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。该能力源于专门设计的训练流程：在完成初步的工具使用微调后，模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明，搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。
测试时拓展技术
测试时扩展是指在推理阶段分配额外计算资源以提升模型性能的技术。我们提出了一种经验累积式、多轮迭代的测试时扩展策略。不同于简单增加并行推理路径数量 N（这往往导致冗余推理），我们限制 N 并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。该机制从过往推理轮次中提炼关键洞见，使模型避免重复推导已知结论，转而聚焦于未解决的不确定性。关键在于，相比直接引用原始推理轨迹，该机制实现了更高的上下文利用效率，在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下，该方法持续优于标准的并行采样与聚合方法：GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。