网站首页 文章专栏 首个 AI 冠军:Gemini 2.5 Pro 大模型直播通关《宝可梦蓝》,谷歌 CEO 第一时间官宣
Gemini 2.5 Pro 在直播中成功通关《宝可梦蓝》,成为首个 AI 冠军,谷歌 CEO 及时官宣,展示了大模型在游戏中的表现和思考过程。
就在刚刚,Gemini 2.5 Pro 在直播中通关了《宝可梦蓝》。谷歌 CEO 劈柴哥第一时间兴奋官宣,放出通关时刻珍贵影像。
大模型这一小步,把网友们也整嗨了。
满屏画风皆是:泰!酷!辣!
这回,Gemini 的自我介绍里可以多一条了:首个成为宝可梦联盟冠军、登入《宝可梦蓝》名人堂的大模型。(doge)
要知道,一年前的旧模 Claude 3.5 还只能勉强走出新手村到达常磐森林,2 个月前,Claude 3.7 倒是终于能击败道馆主了,但也并未通关宝可梦。
游戏已通关,但直播仍继续。画面是酱婶的:
有一说一,过程看上去是有那么点无聊,因为每动一步 Gemini 都要深思熟虑……
左边的文本框里显示了 Gemini 每个行动背后的详细思考过程。
在上面这个片段中,Gemini 的主要目标是探索华蓝洞穴,寻找和捕获超梦。
直播中可以看到,在完成了一长串行动,走到了目标位置之后,Gemini 2.5 Pro 足足思考了 40 多秒,消耗 76011 个 token,才开启下一步的行动规划。
(因为有点迷路,Gemini 后面还想了很久很久……)
不过从这些思考过程中,可以清晰地看到大模型是怎么理解宝可梦游戏的。总结起来,Gemini 玩宝可梦的基本步骤如下:
我们很容易理解(游戏中)的建筑物就是建筑物,是无法穿过的。
这对 Claude 来说却相当有挑战性。
另外,模型上下文的限制也影响了它们在游戏中的表现。不过,在游戏中偏文本的部分,此前 Claude 就已经有惊艳表现。比如,在宝可梦对战中,当游戏提示电属性宝可梦的攻击对岩石属性对手“效果不佳”时,Claude 能马上 get 到其中的意思,并在此后将这些知识整合到自己的战斗策略里。
现在,谷歌率先实现了新的突破,并表示还将在这个有趣的挑战中进行更多探索(直播将至少持续数天)。或许真的像网友所说:
以后测试大模型的基准要变成谁能更快通关宝可梦了。
参考链接: