Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。
数字生命卡兹克·2025-10-10 09:33

文章核心观点 - 公司推出的AI视频模型GAGA-1在人物表演领域表现出色,尤其在台词同步和情感表达上达到较高水准,为短剧、互动影游等内容创作提供了新的低成本工具 [3][19][20][59][60] - 该模型目前处于免费使用阶段,其定价策略预计将远低于Sora2和Veo3等竞争对手,具备市场普及潜力 [12][55][57] - 作为国产模型,GAGA-1的上线标志着AI视频领域的技术进步,尽管在复杂动作、多语言支持及工作流集成方面仍有优化空间 [52][53][61] 产品功能与性能 - 模型核心功能为“Gaga Actor”,专注于生成带台词的人物表演视频,支持5秒和10秒两种固定时长,建议台词字数不超过20个 [16][17][18][21] - 生成视频需结合输入图片和文本提示词,一次生成耗时约3至4分钟,支持最多5条并发生成 [22][28] - 在人物神情、头发细节、牙齿等细微之处表现优异,表演真实度被评价为接近影视级别,尤其在短剧和影游级应用上效果良好 [20][21][30] 技术优势与特点 - 模型能够准确识别并表现复杂的表演动作和情绪,如叹气、咬嘴唇、哭泣、歇斯底里等,并能展现不同的表演层次 [32][34][35][39] - 支持图片中多人物互动,能分别处理不同角色的神态和语音表现 [46] - 具备一定的唱歌功能,尽管音调表现尚不完善 [48][50] - 能够识别角色国籍并调整语言表现,例如识别外国角色并使用蹩脚普通话 [44] 当前局限性 - 对大幅度、复杂运动支持不佳,例如手部动作容易出现变形 [52] - 台词生成能力相较于表演层次稍弱,念白较为平淡,且长提示词可能导致吞字现象 [35][36][42] - 多语言支持不均衡,日文表现诡异,其他语言支持程度不明 [53] - 缺乏音色ID固定和自定义音频上传功能,导致每次生成的音色不一致,影响工作流集成 [53] 市场定位与定价策略 - 产品目前完全免费开放使用,无需邀请码或排队,旨在吸引用户体验和积累用户 [12][55] - 公司明确表示未来定价将远低于Sora2和Veo3,但具体收费时间和方案尚未确定 [56][57] - 模型定位为降低视频创作门槛,目标应用场景包括短剧、互动影游NPC对话、小说角色可视化等 [59]