Google Introduces Gemini Omni, a Multimodal AI That Knows the World
谷歌谷歌(US:GOOG) CNET·2026-05-20 02:44

公司产品发布 - 谷歌在I/O大会上发布了最新AI产品Gemini Omni 该产品能够接收几乎任何输入来创建逼真、栩栩如生的视频 与现有的文本到视频产品不同[1] - Gemini Omni基于Gemini建模架构构建 是一个真正的多模态输入输出系统 允许从文本、图像和现有视频创建视频[2] - 在发布时 用户能够使用上述输入创建视频 但图像和文本生成功能将在未来更新中提供[2] 产品技术特性 - 该产品以Gemini为核心 能够处理和解释多种类型的输入 以产生一致且精细的最终产品 通过集成Gemini智能 在谷歌现有产品基础上构建[2] - 谷歌认为Omni是构建能够建模和模拟现实世界AI的“下一个重大步骤” 它是一个具有先进推理能力的世界模型 能够生成基于当今我们所知世界的视频[3] - Omni展示了先进的物理能力 使其能够创建逼真的视频输出[3] 产品功能细节 - Omni拥有先进的视频编辑功能 用户可以将生成的视频反馈给工具 仅通过提示即可进行令人印象深刻的修改或合并其他媒体[4] - 用户可以上传自己的视频 更改或替换其中的单个元素 这提供了一种前所未有的全新视频编辑方式[4] - 任何来自Omni的输出都将自动包含谷歌的SynthID水印 以标识内容已被AI修改[5] 产品接入与分发 - 用户可以通过多种方式体验Gemini Omni 它是新重新设计的Gemini应用中的一个突出功能 用户可一键将内置模板添加到相机胶卷[6] - 用户能够创建外观和声音都像自己的自定义头像 并将其添加到视频中[6] - 对于部分付费订阅用户 Omni将于发布日(周二)在Google Flow和YouTube Shorts上提供[7] - 未来几周内 Omni将通过API向开发者和企业客户推出 以支持自定义集成[7] 产品版本规划 - 与大多数Gemini模型类似 Omni将分为Flash和Pro版本 不过初期将提供前者[8] - 谷歌正在开发一个更强大的模型Omni Pro 该模型将在未来推出[8]

Alphabet-Google Introduces Gemini Omni, a Multimodal AI That Knows the World - Reportify