Workflow
Veo3.1和Sora2同题竞技来了
量子位·2025-10-16 17:34

文章核心观点 - 谷歌发布视频生成模型Veo3 1 对标OpenAI的Sora2 两者在音视频一体化生成领域形成直接竞争关系 [1][4][5] - Veo3 1的核心改进在于增强创意控制和物理真实性 旨在为电影制作人和艺术创作者提供更完整的叙事工具 [7][15][31] - 实测对比显示 Veo3 1与Sora2各有优劣 Veo3 1在画面真实性和光线处理上更佳 而Sora2在故事情节和娱乐性方面表现更好 [20][25][28][29][30] Veo3 1的主要功能更新 - 新增音频生成能力 将其整合到原有的“成分到视频”、“帧到视频”和“扩展”功能中 实现音视频一体化生成 [3][11] - “成分到视频”功能允许用户使用多张参考图像控制角色和画面风格 并整合生成带完整音频的场景 [11] - “帧到视频”功能通过提供首尾帧图像 由模型自动补充中间细节 适用于画面转场 [12] - “场景扩展”功能可基于视频最后一秒延续生成长达一分钟或更久的片段 并保持人物动作一致性 [13] - 新增“插入”功能 可向任意场景添加新元素 并对场景阴影 照明等复杂环境进行优化 确保添加自然 [14][15] - 具备删除不需要的对象或字符的能力 并能重建周围环境 [16] Veo3 1与Sora2的对比分析 - 在“生成飞天汽车”的测试中 Veo3 1在画面真实性和车辆细节刻画上效果更佳 并能合成明显的汽车发动引擎声 [20][21] - 在“大猩猩和猴子唱英文歌”的测试中 Veo3 1画面饱和度更高 有好莱坞动画风格 但在角色动作一致性上出现小bug Sora2则更偏向短视频娱乐风格 [23][24] - 在动漫风格测试中 Sora2的故事情节和表情自然度完成度更高 [28] - 网友评价认为Sora2更擅长处理人物位置关系 想象力更丰富 而Veo3 1在文生视频方面更优 [29] - 谷歌模型强调物理现实世界 Sora模型优先考虑娱乐性 二者各有优劣 [30][31] 发布背景与用户反馈 - Veo3 1是谷歌基于过去五个月的用户反馈进行的更新 期间其平台Flow生成了超过2 75亿个视频 [9] - 用户集中反映Veo3版本真实性尚可但艺术性欠佳 Veo3 1的更新旨在解决此问题 [9][10] - 模型已上线Flow平台 用户也可通过Gemini API Vertex AI和Gemini app抢先体验 [17]