2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

报道介绍智元发布的世界模型 Genie Envisioner-Sim 2.0（GE 2.0），该模型在 WorldArena Track1（世界模型感知与动作响应赛道）评测中登顶。GE 2.0 为约20亿参数的轻量模型，未经专项赛题设计仅做基础微调就实现长时序生成、多视角与本体状态生成、近实时推理和奖励判别等能力的覆盖，长时序稳定性优于行业基线，并通过逐案对比与混淆矩阵等验证与真实世界高度相关；结合奖励模型可将高质量闭环数据回流策略模型，提升策略性能。文中还提到 GE 2.0 在与英伟达 DreamDojo、Ctrl-World 等大模型竞争中取得领先，强调轻量化模型在机器人应用中的适配优势。

5 月 30 日消息，“智元 AGIBOT”官方公众号 29 日发文宣布：具身领域热门榜单 WorldArena Track1（世界模型感知与动作响应赛道）最新评测结果揭晓，智元自研的世界模型 Genie Envisioner-Sim 2.0（IT之家注：以下简称 GE 2.0）登顶榜单。

所谓“世界模型”，简单来说就是能理解物理世界规律的 AI 大模型。机器人若具备“世界模型”能力，就能知道杯子掉地上会碎、水往低处流、积木搭太高会倒等常识。

在该赛道评测中，智元团队使用了原生的世界模型 GE 2.0，并未针对赛题进行特殊设计优化，仅基于榜单数据进行了基础微调（Finetune）。

根据介绍，GE 2.0 在功能上首次全面覆盖了长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节，构建了世界模拟器完整的技术能力闭环。

在长时序推理任务中，GE 2.0 表现出极强的稳定性，画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演 40-50 秒的长视频片段时，其生成质量依然超越了基线模型前 10 秒内的表现。

团队验证了大量闭环评测结果，证明 GE 2.0 在多项任务上均与真实世界保持着强相关 **性。**这种相关性不止步于宏观统计意义上的“成功率一致”，团队还进行了逐案（Case-by-case）的 rollout 结果对比分析，并通过混淆矩阵（Confusion Matrix）提供了严谨的量化佐证，进一步证明了 GE 2.0 作为策略评测器的可靠性。

在奖励模型（Reward Model）的加持下，GE 2.0 能够对闭环评测的 rollout 过程进行自动化筛选，**将世界模型中产出的有效高质量数据精准回流给策略模型（Policy Model）。**实验证明，这一机制在多项任务上均助力策略模型实现了显著的性能涨点。

此外，据上观新闻报道，智元 GE 2.0 此次与英伟达最新模型 DreamDojo、清华联合斯坦福的 Ctrl-World 团队等国内外 AI 顶尖团队直接竞争，并最终夺冠。GE 2.0 仅用 20 亿（2B）参数的模型，结果比英伟达、微软等超大参数的旗舰模型效果更优秀，也验证了在人形机器人应用方面，轻量化模型的适配性不逊于超大参数模型。