产品核心定位与差异化 - 产品为音画同步视频生成模型GAGA-1,专注于打磨“声音+表演”能力,核心竞争力在于“说话和表演” [3][23][29] - 与追求全能的多模态模型形成差异化,清晰聚焦于“嘴功”和“表演感”,将音画同步的台词生成体验打磨得异常扎实、实用 [3][23][30] - 平台提供从图像生成到视频合成的全链路流程,内置NanoBanana模型,用户可在一个平台内完成从图到视频的全部操作 [7][8] 产品功能与用户体验 - 平台无需邀请码即可免费使用,用户体验门槛低 [4] - 核心功能Gaga Actor操作简便,用户上传一张图片并输入提示词,AI角色即可实现“对嘴开演” [5][7] - 在免费前提下,生成的视频分辨率表现优秀,人物表情、动作自然,嘴型和台词同步效果较好 [11][12] 技术能力评估:优势领域 - 模型在口型同步、语速自然度及台词节奏把控上表现精准,例如梵高视频中能生成符合角色设定的“emo式声线”且手部保持不动 [15][16] - 对于单角色、台词驱动的场景,其神态演绎和提示词理解能力到位,被评价为“优等生” [16][18][23] 技术能力评估:当前局限 - 在处理复杂场景时存在局限,如多角色互动场景下角色动作易脱节、面部形象不稳定、剧情逻辑易断裂 [20][21][23] - 镜头调度能力有待加强,例如未能根据提示词成功切换至观众席镜头 [14][15] - 在动作生成方面表现较弱,测试中多角色(如打麻将的猫、吃火锅的动物)未能产生有效互动,更像静态写真 [20][21][22] 团队背景与实力 - 开发团队Sand.ai实力雄厚,其创始人曹越为清华特奖获得者,博士毕业于清华大学软件学院,并以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖” [1][26][27] - 团队此前已发布实现顶级画质输出的自回归视频生成模型Magi-1,技术积累深厚 [24][25]
实测“清华特奖版Sora”:一图一prompt直接生成视频,堪称嘴强王者
量子位·2025-10-12 10:05