Alphabet-Google Introduces Gemini Omni, a Multimodal AI That Knows the World

公司产品发布 - 谷歌在I/O大会上发布了最新AI产品Gemini Omni 该产品能够接收几乎任何输入来创建逼真、栩栩如生的视频与现有的文本到视频产品不同[1] - Gemini Omni基于Gemini建模架构构建是一个真正的多模态输入输出系统允许从文本、图像和现有视频创建视频[2] - 在发布时用户能够使用上述输入创建视频但图像和文本生成功能将在未来更新中提供[2] 产品技术特性 - 该产品以Gemini为核心能够处理和解释多种类型的输入以产生一致且精细的最终产品通过集成Gemini智能在谷歌现有产品基础上构建[2] - 谷歌认为Omni是构建能够建模和模拟现实世界AI的“下一个重大步骤” 它是一个具有先进推理能力的世界模型能够生成基于当今我们所知世界的视频[3] - Omni展示了先进的物理能力使其能够创建逼真的视频输出[3] 产品功能细节 - Omni拥有先进的视频编辑功能用户可以将生成的视频反馈给工具仅通过提示即可进行令人印象深刻的修改或合并其他媒体[4] - 用户可以上传自己的视频更改或替换其中的单个元素这提供了一种前所未有的全新视频编辑方式[4] - 任何来自Omni的输出都将自动包含谷歌的SynthID水印以标识内容已被AI修改[5] 产品接入与分发 - 用户可以通过多种方式体验Gemini Omni 它是新重新设计的Gemini应用中的一个突出功能用户可一键将内置模板添加到相机胶卷[6] - 用户能够创建外观和声音都像自己的自定义头像并将其添加到视频中[6] - 对于部分付费订阅用户 Omni将于发布日（周二）在Google Flow和YouTube Shorts上提供[7] - 未来几周内 Omni将通过API向开发者和企业客户推出以支持自定义集成[7] 产品版本规划 - 与大多数Gemini模型类似 Omni将分为Flash和Pro版本不过初期将提供前者[8] - 谷歌正在开发一个更强大的模型Omni Pro 该模型将在未来推出[8]