谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频

2026 年谷歌 I/O 上,Google 发布了多模态大模型 Gemini Omni(意为“全能”),由 DeepMind 负责人哈萨比斯介绍为 Gemini 家族中能力最全面的版本。该模型能够处理文字、图像、视频、音频等多种模态,并声称可“从任何输入生成任何输出”,支持一句话对视频进行对话式编辑(如修改角色或背景)。会中还推出了首款可用型号 Gemini Omni Flash,即日起在 Gemini App、Google Flow 和 YouTube Shorts 可用,未来将开放 API。

5 月 20 日消息,在今日的 2026 谷歌 I/O 开发者大会上,谷歌正式发布了 Gemini Omni 模型。

诺贝尔物理学奖获得者、Google DeepMind 负责人哈萨比斯(Demis Hassabis)表示,Gemini Omni 是 Gemini 模型家族迄今为止能力最为全面的版本。“Omni”意指“全能”,该模型在处理文字、图像、视频、音频等多种模态信息时,展示出前所未有的流畅性与深度。

Gemini Omni 宣称能“从任何输入生成任何输出”,支持对话式编辑,用户可一句话改变视频中的角色、背景等元素。

IT之家从大会获悉,谷歌还宣布推出 Gemini Omni 家族首款模型 Gemini Omni Flash,即日起可在 Gemini App、Google Flow、YouTube Shorts 可用,未来将推 API 服务。

2026 谷歌 I/O 开发者大会专题

版权声明:本站文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

评论加载中...