太猛了！终于有人来管管 AI 视频的语音和表演了：GAGA AI 实测

模型核心能力 - 专注于人物对话表演，在人物细微表演对话方面表现最强，表演能力甚至超过Sora2 [1] - 模型具备泛化智能，能自主推导并生成未在提示词中明确指定的细微表情和动作，如叹气、点头、挑眉等 [2][5] - 支持声音和画面同步生成，即使侧面视角下唇形同步也非常到位，语音音效俱全 [4] - 在复杂情绪表现上极为出色，能精准演绎羞耻、自责、绝望、恳求等细微情绪变化及语音配合 [9][10] 技术规格与性能 - 支持图生视频，单次生成最长10秒，分辨率为720P但细节丰富 [4] - 支持双人场景演绎，能很好理解提示词中不同人物的语音和互动，但超过双人表现会下降 [4][11][16] - 支持多语言输出，包括英语、日语、西班牙语，并可实现多语言混合输出，各语言表现标准如母语者 [6][7][8] - 目前仅支持16:9横屏比例，后续将支持9:16竖屏比例 [16] 应用场景与提示词使用 - 提示词编写可先描述情绪变化，再说明语气和内容，停顿可用波折号或省略号表达 [16] - 在复杂场景（如雨天、车内隔窗对话）中能自动添加环境音（雨声）和应景背景音乐（钢琴BGM），增强氛围渲染 [10] - 需避免复杂精细的手部运动提示词，手部动作可能存在瑕疵；图生时也应避免过多肢体或全身露出 [6][16] - 对于短对话（如十字以内）可选择5秒生成时长，长对话可选择10秒 [16] 行业发展趋势 - AI视频模型发展进入新阶段，重点从复杂动态、物理表现转向情绪表达、表演以及音效语音的端到端多模态一体化输出 [16] - 模型开始内化世界知识和智能，具备视觉推理、分镜脚本编排和剪辑能力，这部分能力原被认为需由Agent完成 [16][17]