实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

产品核心定位与差异化 - 产品为音画同步视频生成模型GAGA-1，专注于打磨“声音+表演”能力，核心竞争力在于“说话和表演” [3][23][29] - 与追求全能的多模态模型形成差异化，清晰聚焦于“嘴功”和“表演感”，将音画同步的台词生成体验打磨得异常扎实、实用 [3][23][30] - 平台提供从图像生成到视频合成的全链路流程，内置NanoBanana模型，用户可在一个平台内完成从图到视频的全部操作 [7][8] 产品功能与用户体验 - 平台无需邀请码即可免费使用，用户体验门槛低 [4] - 核心功能Gaga Actor操作简便，用户上传一张图片并输入提示词，AI角色即可实现“对嘴开演” [5][7] - 在免费前提下，生成的视频分辨率表现优秀，人物表情、动作自然，嘴型和台词同步效果较好 [11][12] 技术能力评估：优势领域 - 模型在口型同步、语速自然度及台词节奏把控上表现精准，例如梵高视频中能生成符合角色设定的“emo式声线”且手部保持不动 [15][16] - 对于单角色、台词驱动的场景，其神态演绎和提示词理解能力到位，被评价为“优等生” [16][18][23] 技术能力评估：当前局限 - 在处理复杂场景时存在局限，如多角色互动场景下角色动作易脱节、面部形象不稳定、剧情逻辑易断裂 [20][21][23] - 镜头调度能力有待加强，例如未能根据提示词成功切换至观众席镜头 [14][15] - 在动作生成方面表现较弱，测试中多角色（如打麻将的猫、吃火锅的动物）未能产生有效互动，更像静态写真 [20][21][22] 团队背景与实力 - 开发团队Sand.ai实力雄厚，其创始人曹越为清华特奖获得者，博士毕业于清华大学软件学院，并以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖” [1][26][27] - 团队此前已发布实现顶级画质输出的自回归视频生成模型Magi-1，技术积累深厚 [24][25]