OpenAI 最强 AI 模型:GPT-5.6 系列登场,编程跑分超 Claude Mythos 5

OpenAI 于 6月27日发布 GPT-5.6 系列(Sol、Terra、Luna),目前因应美国政府要求仅向少数“可信合作伙伴”预览。三款模型定位与计费不同(Sol 为旗舰、Terra 为均衡、Luna 主打速度与成本),并优化提示词缓存以降低重复调用成本。GPT-5.6 引入 Max 推理强度和基于子智能体的 Ultra 模式,在编程(Terminal-Bench)、生物学(GeneBench)和网络安全(ExploitBench)等基准上表现优异;同时采用多层安全防护与差异化访问策略以应对高风险场景。OpenAI 计划在未来几周逐步公开上线,并将在7月于 Cerebras 上线 Sol 以提升吞吐速度(最高约750 token/s)。

6 月 27 日消息,OpenAI 公司今天(6 月 27 日)正式发布 GPT-5.6 系列模型,不过暂未全面开放,应美国政府要求,现阶段仅向少数“可信合作伙伴”提供预览权限。

在模型方面,IT之家援引博文介绍,OpenAI 本次共发布 3 档模型:

  • 旗舰版 Sol:每 100 万 Tokens 输入 5 美元(现汇率约合 34 元人民币),每 100 万 Tokens 输出 30 美元(现汇率约合 204.3 元人民币)
  • 均衡版 Terra:每 100 万 Tokens 输入 2.5 美元(现汇率约合 17 元人民币),每 100 万 Tokens 输出 15 美元(现汇率约合 102.1 元人民币)
  • 主打速度和成本的 Luna:每 100 万 Tokens 输入 1 美元(现汇率约合 6.8 元人民币),每 100 万 Tokens 输出 6 美元(现汇率约合 40.9 元人民币)

此外 OpenAI 表示优化提示词缓存机制,在调用过程中出现重复提示词,会更加便宜、更加可以预测。

在模型能力方面,OpenAI 称 GPT-5.6 Sol 为该公司最强模型,并引入新的 Max 推理强度,以及借助子智能体加速复杂任务的 Ultra 模式。

在编程场景中,Sol 在 Terminal-Bench 2.1 上刷新最佳成绩,标准模式下得分 88.8%,超过 Claude Mythos 5(88.0%),在开启 Ultra 模式后更是达到 91.9%。

在生物学 GeneBench v1 测试任务中,该模型消耗更少 token,不过性能表现比 GPT-5.5 更强。

网络安全方面,GPT-5.6 Sol 在漏洞研究和利用等长链路安全任务上提升明显。在 ExploitBench 中,它用约 1/3 输出 token 即可达到与 Mythos Preview 相近的表现。

安全设计上,OpenAI 表示 GPT-5.6 Sol、Terra 和 Luna 采用分层防护体系,包括模型内置拒答、生成过程实时分类器、账户级风险审查、差异化访问、监控和执法机制。对于高风险情况,系统可暂停生成,并交由更大推理模型复核;若判定违规,内容会在展示前被拦截。

在开放进度方面,OpenAI 表示计划在未来几周内公开上线 GPT-5.6 Sol、Terra 和 Luna。

OpenAI 还计划于 7 月在 Cerebras 上线 GPT-5.6 Sol,速度最高可达每秒 750 token,初期仅向部分客户开放。

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...