Gemini Omni Flash 模型发布与能力 - 谷歌正式向开发者开放多模态视频生成模型Gemini Omni Flash的API [9] - 该模型能基于文本、图像和视频输入生成高质量视频并进行编辑 [9] - 每秒视频输出成本为0.10美元,与Veo 3.1 Fast持平 [12] - 模型定位为轻量版视频生成模型,强调利用Gemini的世界知识 [13] Gemini Omni Flash 核心功能 - 支持对话式视频编辑,可用自然语言修改和精修视频 [16] - 具备多模态参考能力,可组合图像、文本、视频输入以保持场景一致性 [16] - 能调用Gemini在历史、生物、叙事逻辑等方面的世界知识来构建视频 [16] - 可将文字和图形通过简单提示词直接连接到视频动作 [16] Gemini Omni Flash 当前局限 - 目前仅支持生成10秒视频,后续会支持更长时长 [17] - 暂不支持音频参考上传和场景扩展功能 [17] - API支持最长3秒的视频作为参考素材,但模型目前还无法正确处理此类输入 [17] - 在场景切换和运镜时,人物的一致性仍存在局限 [17] Nano Banana 2 Lite 模型发布与定位 - 谷歌发布Nano Banana 2 Lite,定位为最快、最经济高效的Gemini图像模型 [5] - 该模型针对对延迟极度敏感的实时应用场景优化,如电商素材批量生成、广告创意快速迭代 [18] - 生成一张图仅需约4秒,是Nano Banana 2速度的五分之一(后者约20秒) [6][29] - 生成一张1K分辨率图像成本约0.034美元,是Nano Banana 2的一半,Nano Banana Pro的四分之一 [6][29] Nano Banana 2 Lite 核心优势 - 在速度与价格大幅优化的同时,图像生成与编辑能力未明显缩水 [19] - 保持了出色的文字渲染效果,在benchmark上与Grok等模型处于同一水平线 [19] - 谷歌建议仍在用初代Nano Banana的用户更换,因Lite版在各项关键指标上已全方位碾压 [21] 多模态工作流整合应用 - 谷歌展示了将Nano Banana 2 Lite与Gemini Omni Flash串联使用的创新工作流 [24][26] - 可先用Nano Banana 2 Lite高速生成图像,再将其作为参考素材输入Gemini Omni Flash一键转化为视频 [27] - 该整合实现了图像生成与视频创作的无缝衔接,避免了反复上传文件的麻烦 [26] 整合工作流具体演示案例 - Anywhere:快速生成景点图像,再通过Omni Flash将静态景点变为动态短片,实现端到端的“赛博旅游” [28][30][31] - Space Lift:上传房间照片,NB2 Lite生成各种装修风格方案,Omni Flash可将其转化为电影级空间漫游视频 [32][33] - Omni product studio:为产品白底图生成各种场景化商品图,再转化为电商短视频,实现从产品到广告素材的全链路自动化 [34][35][36] 多模态战略意义与行业影响 - 谷歌的多模态模型能赋能其旗下产品,如Stitch、Pixel内置的P图功能、NotebookLM等 [39] - 新模型展示了多模态在电商、装修、短视频等垂直场景落地的巨大潜力,这些业务需求真实且商业化前景明确 [40] - 凭借安卓生态的加持,谷歌在多模态领域的商业化前景被看好 [41] - 尽管在Coding能力上可能暂时落后,但在多模态领域,谷歌被认为是唯一能组齐一套完整技术牌的玩家 [42]
视频版Nano Banana来了!内置Gemini世界知识;原版香蕉出图仅需4秒