Workflow
瞄准 Sora 2,谷歌发布 Veo 3.1,功能大更新,但硬刚还差点儿
Founder Park·2025-10-16 11:52

产品发布与定位 - 谷歌深夜发布了最新的AI视频生成模型Veo 3.1 [2] - 此次更新是在2025年5月发布的Veo 3基础上进行的升级 [7] 功能与技术升级 - Veo 3.1相比前代版本带来了更丰富的音频、叙事控制以及更逼真的质感还原 [3] - 模型进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 增强了对对话、环境音效以及其他音频效果的支持,在Flow的多个核心功能中已支持原生音频生成 [7][8] - 引入了对多种输入类型的支持,可接受文本提示、图像以及视频片段作为输入,并支持参考图像(最多三张)、首帧与末帧插值以及场景延展 [13] - 新功能包括插入(向场景中添加物体)和移除(删除元素或角色),但并非所有功能都能通过Gemini API即时使用 [14] - 新功能带来了对主体与环境的更精确控制,企业用户上传产品图片后,模型能在整个视频中保持其外观特征与风格一致性 [19] 性能与输出规格 - 模型支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [16] - 基础生成时长为8秒,但可以延长至30秒甚至1分钟以上,使用Extend功能最长可扩展至148秒(超过两分半) [9][11][22] - 在视频延长时会产生音频不连贯问题,导致延长部分几乎不可用 [4] 市场评价与竞争对比 - 第三方测试显示,Veo 3.1在模型质量上相比前代提升不大,画面感觉更“油腻”和虚假 [4] - 此次更新更多体现在功能的增加上,核心模型质量并无质的飞跃,离竞争对手Sora2还有一段距离 [4] 部署与商业化 - 模型可通过谷歌旗下多项现有AI服务访问,包括Flow、Gemini API和Vertex AI [17] - Veo 3.1模型目前处于预览阶段,仅在Gemini API的付费层级中可用,收费结构与Veo 3保持一致 [15] - 标准模型收费为每秒视频0.40美元,快速模型收费为每秒视频0.15美元 [18] - 目前尚无免费层级,且仅在视频成功生成后才会计费 [15] 行业应用前景 - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,这些能力以往只能通过后期制作实现 [12] - 在企业场景中,这种高层次的控制有望减少独立音频制作流程的需求,便于制作培训内容、营销视频或数字体验作品 [12] - 对品牌一致性的控制能力有助于简化创意生产流程,特别适用于零售、广告以及虚拟内容制作等需要视觉延续性的团队 [19]