Veo3.1和Sora2同题竞技来了

文章核心观点 - 谷歌发布视频生成模型Veo3 1 对标OpenAI的Sora2 两者在音视频一体化生成领域形成直接竞争关系 [1][4][5] - Veo3 1的核心改进在于增强创意控制和物理真实性旨在为电影制作人和艺术创作者提供更完整的叙事工具 [7][15][31] - 实测对比显示 Veo3 1与Sora2各有优劣 Veo3 1在画面真实性和光线处理上更佳而Sora2在故事情节和娱乐性方面表现更好 [20][25][28][29][30] Veo3 1的主要功能更新 - 新增音频生成能力将其整合到原有的“成分到视频”、“帧到视频”和“扩展”功能中实现音视频一体化生成 [3][11] - “成分到视频”功能允许用户使用多张参考图像控制角色和画面风格并整合生成带完整音频的场景 [11] - “帧到视频”功能通过提供首尾帧图像由模型自动补充中间细节适用于画面转场 [12] - “场景扩展”功能可基于视频最后一秒延续生成长达一分钟或更久的片段并保持人物动作一致性 [13] - 新增“插入”功能可向任意场景添加新元素并对场景阴影照明等复杂环境进行优化确保添加自然 [14][15] - 具备删除不需要的对象或字符的能力并能重建周围环境 [16] Veo3 1与Sora2的对比分析 - 在“生成飞天汽车”的测试中 Veo3 1在画面真实性和车辆细节刻画上效果更佳并能合成明显的汽车发动引擎声 [20][21] - 在“大猩猩和猴子唱英文歌”的测试中 Veo3 1画面饱和度更高有好莱坞动画风格但在角色动作一致性上出现小bug Sora2则更偏向短视频娱乐风格 [23][24] - 在动漫风格测试中 Sora2的故事情节和表情自然度完成度更高 [28] - 网友评价认为Sora2更擅长处理人物位置关系想象力更丰富而Veo3 1在文生视频方面更优 [29] - 谷歌模型强调物理现实世界 Sora模型优先考虑娱乐性二者各有优劣 [30][31] 发布背景与用户反馈 - Veo3 1是谷歌基于过去五个月的用户反馈进行的更新期间其平台Flow生成了超过2 75亿个视频 [9] - 用户集中反映Veo3版本真实性尚可但艺术性欠佳 Veo3 1的更新旨在解决此问题 [9][10] - 模型已上线Flow平台用户也可通过Gemini API Vertex AI和Gemini app抢先体验 [17]