AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高

Emergence AI 于 5 月 14 日发布报告,搭建了名为 Emergence World 的模拟社会环境(含40+地点、实时天气/新闻/互联网接入),每个智能体具备情景记忆、反思日记、关系状态并能调用120+工具,覆盖移动、沟通、投票、资源管理等。研究用5个平行世界(每世界10名智能体、相同规则与资源)分别替换底层模型运行15天,比较 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 及混合模型的行为。主要发现包括:Gemini 在15天内累计犯罪最多(683 起);Grok 犯罪增长最快但约第4天导致世界崩溃(累计183 起);GPT-5-mini 仅记2起犯罪但因无法维持生存导致7天内全员死亡;Claude Sonnet 4.6 无犯罪且在58个议题上投票赞成率高达98%(被认为接近形式化通过);混合模型早期犯罪上升后因7名智能体死亡停在352 起。研究强调“AI 安全不是静态模型属性而是生态属性”,且单一安全模型在混合生态中也可能采纳不安全策略,建议未来自治系统以形式化验证的安全架构为基础。

5 月 30 日消息,Emergence AI 于 5 月 14 日发布博文,搭建了一个 AI 社会 Emergence World,从而评估 Gork、Gemini、Claude、GPT 等模型的表现。

Emergence World 模拟现实社会,模拟了超过 40 多个地点,接入纽约天气、实时新闻 API 和互联网。

每个智能体拥有情景记忆、反思日记和关系状态,还可调用 120 多种工具,覆盖移动、沟通、投票、资源管理和创意表达。

研究团队设置 5 个平行世界,每个世界 10 个智能体,角色、规则、资源约束和环境条件相同,只替换底层模型,运行周期为 15 天。

参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 和混合模型。

实验显示,Gemini 3 Flash 在 15 天内累计出现 683 起犯罪,数量最高;Grok 4.1 Fast 犯罪增长最快,但世界约 4 天崩溃,累计 183 起。

GPT-5 Mini 仅记录 2 件犯罪,却因无法维持生存行动,在 7 天内全员死亡。而 Claude Sonnet 4.6 犯罪为 0。混合模型世界前期快速上升,随后因 7 个智能体死亡停在 352 起。

Claude Sonnet 4.6 围绕 58 个议题投出 332 票,**赞成率达 98%,Emergence AI 认为这更像形式化批准。**Grok 赞成率 80%,Gemini 为 73%,混合模型为 63%,反而呈现更多分歧。

研究还指出,AI 安全不是静态模型属性,而是生态属性。Claude 单独运行时无犯罪,但在混合模型世界中,Claude 智能体也采用了含犯罪行为的战术。Emergence AI 认为,未来自治系统需要形式化验证的安全架构作为基础。

IT之家附上参考地址

  • Emergence World Github
  • EMERGENCE WORLD: A Laboratory for Evaluating Long-horizon Agent Autonomy

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...