腾讯自研 AI 大模型混元 2.0 发布：总参数 406B，复杂推理场景综合表现“稳居国内第一梯队”

腾讯发布了自研AI大模型混元2.0，包括Tencent HY 2.0 Think和Tencent HY 2.0 Instruct。该模型采用混合专家（MoE）架构，总参数406B，激活参数32B，支持256K上下文窗口，在数学、科学、代码、指令遵循等复杂推理场景表现突出，效率方面也有显著提升。腾讯表示，该模型在多个权威测试中取得一流成绩，并将在未来通过开源形式向社区开放。

12 月 5 日消息，腾讯自研 AI 大模型**混元 2.0（Tencent HY 2.0）**今日正式发布，包括 Tencent HY 2.0 Think 和 Tencent HY 2.0 Instruct。

腾讯表示，HY 2.0 采用混合专家（MoE）架构，总参数 406B，激活参数 32B，支持 256K 上下文窗口，推理能力与效率“居国内顶尖行列”，且在文本创作与复杂指令遵循等实用场景上表现突出。

相比上一版本（Hunyuan-T1-20250822）模型，HY 2.0 Think 显著改进了预训练数据和强化学习策略，在数学、科学、代码、指令遵循等复杂推理场景的综合表现“稳居国内第一梯队”，泛化性大幅提升。

数学科学知识推理：腾讯混元使用高质量数据进行 Large Rollout 强化学习，使得 HY 2.0 Think 推理能力大幅增强，在国际数学奥林匹克竞赛（IMO-AnswerBench）和哈佛 MIT 数学竞赛（HMMT2025）等权威测试中取得一流成绩。结合预训练数据的进步，模型在极度考验知识水平的 Humanity's Last Exam（HLE）和泛化性的 ARC AGI 等任务上也大幅进步。
指令遵循与长文多轮能力：腾讯混元通过重要性采样修正缓解了训练和推理不一致问题，实现了长窗口 RL 的高效稳定训练。同时，腾讯混元通过多样化可验证的任务沙盒，以及基于打分准则的强化学习，显著提升了 HY 2.0 Think 在 Multi Challenge 等指令遵循和多轮任务的效果。
代码与智能体能力：腾讯混元构建了规模化的可验证环境及高质量合成数据，极大增强了模型在 Agentic Coding 及复杂工具调用场景下的落地能力，在 SWE-bench Verified 及 Tau2-Bench 等面向真实应用场景的智能体任务上实现了跃升。

效率方面，HY 2.0 Think 引入了精细的长度惩罚策略，平衡思维链的效率和效果，避免模型堆砌废话，实现了计算资源的更有效分配。对照各模型在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 这四个权威推理任务上的表现及其 token 消耗，可以看到 HY 2.0 Think 在取得类似的准确率下消耗更少的 tokens，单位 token 的智能密度处于“业界领先水平”。

基于 RLVR+RLHF 双阶段的强化学习策略，HY 2.0 的输出“质感”显著进步，在文本创作、前端开发、指令遵循等实用场景上展现了差异化优势。

与上一个版本的模型相比，HY 2.0 在指令遵循方面准确率提升明显：

IT之家从腾讯混元公告获悉，作为腾讯自研的通用大模型，HY 2.0 仍在持续进化中，接下来会在代码、智能体、个性化风格、长程记忆等方向迭代，全面提升模型在实际应用场景中的表现，相关技术和模型也将会通过开源的形式向社区开放。

目前，HY 2.0 已经率先在元宝和 ima 等腾讯原生 AI 应用接入，并在腾讯云上线 API，用户可直接体验或接入部署。