瞄准 Sora 2，谷歌发布 Veo 3.1，功能大更新，但硬刚还差点儿

产品发布与定位 - 谷歌深夜发布了最新的AI视频生成模型Veo 3.1 [2] - 此次更新是在2025年5月发布的Veo 3基础上进行的升级 [7] 功能与技术升级 - Veo 3.1相比前代版本带来了更丰富的音频、叙事控制以及更逼真的质感还原 [3] - 模型进一步提升了提示词遵循度，并在以图生视频时提供更高的视听质量 [3] - 增强了对对话、环境音效以及其他音频效果的支持，在Flow的多个核心功能中已支持原生音频生成 [7][8] - 引入了对多种输入类型的支持，可接受文本提示、图像以及视频片段作为输入，并支持参考图像（最多三张）、首帧与末帧插值以及场景延展 [13] - 新功能包括插入（向场景中添加物体）和移除（删除元素或角色），但并非所有功能都能通过Gemini API即时使用 [14] - 新功能带来了对主体与环境的更精确控制，企业用户上传产品图片后，模型能在整个视频中保持其外观特征与风格一致性 [19] 性能与输出规格 - 模型支持输出720p或1080p分辨率的视频，帧率为24帧/秒 [16] - 基础生成时长为8秒，但可以延长至30秒甚至1分钟以上，使用Extend功能最长可扩展至148秒（超过两分半） [9][11][22] - 在视频延长时会产生音频不连贯问题，导致延长部分几乎不可用 [4] 市场评价与竞争对比 - 第三方测试显示，Veo 3.1在模型质量上相比前代提升不大，画面感觉更“油腻”和虚假 [4] - 此次更新更多体现在功能的增加上，核心模型质量并无质的飞跃，离竞争对手Sora2还有一段距离 [4] 部署与商业化 - 模型可通过谷歌旗下多项现有AI服务访问，包括Flow、Gemini API和Vertex AI [17] - Veo 3.1模型目前处于预览阶段，仅在Gemini API的付费层级中可用，收费结构与Veo 3保持一致 [15] - 标准模型收费为每秒视频0.40美元，快速模型收费为每秒视频0.15美元 [18] - 目前尚无免费层级，且仅在视频成功生成后才会计费 [15] 行业应用前景 - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调，这些能力以往只能通过后期制作实现 [12] - 在企业场景中，这种高层次的控制有望减少独立音频制作流程的需求，便于制作培训内容、营销视频或数字体验作品 [12] - 对品牌一致性的控制能力有助于简化创意生产流程，特别适用于零售、广告以及虚拟内容制作等需要视觉延续性的团队 [19]