Workflow
AI视频模型
icon
搜索文档
太猛了!终于有人来管管 AI 视频的语音和表演了:GAGA AI 实测
歸藏的AI工具箱· 2025-10-10 18:03
模型核心能力 - 专注于人物对话表演,在人物细微表演对话方面表现最强,表演能力甚至超过Sora2 [1] - 模型具备泛化智能,能自主推导并生成未在提示词中明确指定的细微表情和动作,如叹气、点头、挑眉等 [2][5] - 支持声音和画面同步生成,即使侧面视角下唇形同步也非常到位,语音音效俱全 [4] - 在复杂情绪表现上极为出色,能精准演绎羞耻、自责、绝望、恳求等细微情绪变化及语音配合 [9][10] 技术规格与性能 - 支持图生视频,单次生成最长10秒,分辨率为720P但细节丰富 [4] - 支持双人场景演绎,能很好理解提示词中不同人物的语音和互动,但超过双人表现会下降 [4][11][16] - 支持多语言输出,包括英语、日语、西班牙语,并可实现多语言混合输出,各语言表现标准如母语者 [6][7][8] - 目前仅支持16:9横屏比例,后续将支持9:16竖屏比例 [16] 应用场景与提示词使用 - 提示词编写可先描述情绪变化,再说明语气和内容,停顿可用波折号或省略号表达 [16] - 在复杂场景(如雨天、车内隔窗对话)中能自动添加环境音(雨声)和应景背景音乐(钢琴BGM),增强氛围渲染 [10] - 需避免复杂精细的手部运动提示词,手部动作可能存在瑕疵;图生时也应避免过多肢体或全身露出 [6][16] - 对于短对话(如十字以内)可选择5秒生成时长,长对话可选择10秒 [16] 行业发展趋势 - AI视频模型发展进入新阶段,重点从复杂动态、物理表现转向情绪表达、表演以及音效语音的端到端多模态一体化输出 [16] - 模型开始内化世界知识和智能,具备视觉推理、分镜脚本编排和剪辑能力,这部分能力原被认为需由Agent完成 [16][17]
Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。
数字生命卡兹克· 2025-10-10 09:33
文章核心观点 - 公司推出的AI视频模型GAGA-1在人物表演领域表现出色,尤其在台词同步和情感表达上达到较高水准,为短剧、互动影游等内容创作提供了新的低成本工具 [3][19][20][59][60] - 该模型目前处于免费使用阶段,其定价策略预计将远低于Sora2和Veo3等竞争对手,具备市场普及潜力 [12][55][57] - 作为国产模型,GAGA-1的上线标志着AI视频领域的技术进步,尽管在复杂动作、多语言支持及工作流集成方面仍有优化空间 [52][53][61] 产品功能与性能 - 模型核心功能为“Gaga Actor”,专注于生成带台词的人物表演视频,支持5秒和10秒两种固定时长,建议台词字数不超过20个 [16][17][18][21] - 生成视频需结合输入图片和文本提示词,一次生成耗时约3至4分钟,支持最多5条并发生成 [22][28] - 在人物神情、头发细节、牙齿等细微之处表现优异,表演真实度被评价为接近影视级别,尤其在短剧和影游级应用上效果良好 [20][21][30] 技术优势与特点 - 模型能够准确识别并表现复杂的表演动作和情绪,如叹气、咬嘴唇、哭泣、歇斯底里等,并能展现不同的表演层次 [32][34][35][39] - 支持图片中多人物互动,能分别处理不同角色的神态和语音表现 [46] - 具备一定的唱歌功能,尽管音调表现尚不完善 [48][50] - 能够识别角色国籍并调整语言表现,例如识别外国角色并使用蹩脚普通话 [44] 当前局限性 - 对大幅度、复杂运动支持不佳,例如手部动作容易出现变形 [52] - 台词生成能力相较于表演层次稍弱,念白较为平淡,且长提示词可能导致吞字现象 [35][36][42] - 多语言支持不均衡,日文表现诡异,其他语言支持程度不明 [53] - 缺乏音色ID固定和自定义音频上传功能,导致每次生成的音色不一致,影响工作流集成 [53] 市场定位与定价策略 - 产品目前完全免费开放使用,无需邀请码或排队,旨在吸引用户体验和积累用户 [12][55] - 公司明确表示未来定价将远低于Sora2和Veo3,但具体收费时间和方案尚未确定 [56][57] - 模型定位为降低视频创作门槛,目标应用场景包括短剧、互动影游NPC对话、小说角色可视化等 [59]
告别抽卡!全能&高度可控|藏师傅教你用即梦数字人 1.5
歸藏的AI工具箱· 2025-09-29 18:10
产品核心升级 - 数字人Omnihuman 1.5版本在Web端上线,相较于1.0版本,其控制能力大幅提升,用户可定义视频中人物的表演和运动方式,解决了以往AI视频在人物表现方面的难点 [1] - 新增动作描述提示词输入功能,极大拓展数字人的使用场景,可控制画面内容、人物、情绪、音色以及运动和运镜方式,使其成为自定义程度极高的工具 [2] - 模型升级使数字人不再死板,可通过动作控制让镜头和人物动起来,包括主角和背景人物,实现如先抬头调整角度再开始说话,同时镜头旋转、背景人物行走等复杂动作,这是纯唇形同步模型无法做到的 [4] 技术能力突破 - 模型在多风格化及非人形生物的唇形同步上效果自然,平面插画的眼睛、嘴部和面部运动生动,并可搭配抬手、走动等动作,镜头平移时新画面风格与原有部分保持一致 [5] - 对表情和表演的响应显著提升,能够精准遵循复杂提示词,如从平静到讽刺再到温和的16秒长视频中,稳定保持人像ID不变并实现精准的提示词遵循,这在市场上较为罕见 [6] - 新增控制同一场景多人对话和表现的功能,可指定发声角色,实现两人对唱、多人对话剧情,搭配图像编辑能力调整镜头重点,超越固定镜头的表现限制 [7] - 解决了以往模型夸张嘴型问题,模型会根据声音内容和提示词调整嘴部动作,表现自然度大幅提升 [8] 操作流程与教程 - 制作视频需准备三部分内容:首帧图片、音频、对应的动作和情绪提示词,建议使用表格规划每个分镜的这三个部分,通过切分镜头和音频使画面更生动,避免超长镜头的生成时间和ID保持问题 [9][29] - 音频处理支持选择推荐音色或克隆自定义音色(仅需5秒音频),上传音频后角色说话内容将基于音频,多角色画面中可选择单个或全部角色发声 [12][14] - 动作描述提示词模板建议包含镜头运动、说话角色情绪、说话状态、具体动作及可选背景事件或其他角色动作,强调清晰、不矛盾、少否定、多具体内容 [16] - 利用图像模型生成和编辑分镜图片,如生成黑色背景的乔布斯图片、苹果风格PPT的拖鞋产品图,并通过图像编辑能力修改背景和添加元素,实现多镜头连贯视频 [19][21][23][25][27] 行业影响与定位 - Omnihuman 1.5将创作从“玄学”变为“工程学”,首帧画面相当于场景设定、音频内容相当于台词剧本、动作提示相当于分镜脚本、多角色控制相当于群戏调度,为具备导演思维的用户提供更精准的工具 [30] - 新模型将于9月30日同步上线手机端,用户更新即梦app即可体验,标志着AI视频工具在移动端的进一步普及 [30]
可灵2.5Turbo实测|顶尖AI视频模型,真能打平CG吗?
歸藏的AI工具箱· 2025-09-23 18:37
可灵2.5 Turbo模型性能提升 - 模型提示词理解能力显著增强,尤其擅长处理包含复杂因果和时间关系的指令 [1] - 在超高速战斗和复杂运镜场景下,视频生成稳定性更高 [1] - 图生视频功能风格保持相当稳定,生成视频的风格一致性更强 [1] - 高品质模式5秒视频生成价格从35积分降至25积分,降价幅度约29% [1] 复杂动作与时序理解能力 - 模型能够准确执行复杂提示词序列,如规定运镜方式后连续完成伸手攻击、怪物扑咬等动作 [2][3] - 在执行复杂动作如人物转身时,主体角色完全避免变形或溶解等问题 [3] - 能够根据首帧图片不清晰的怪物形象,脑补并生成后续画面中清晰完整的怪物形象 [3] - 处理服装平滑变换等复杂时序提示词时过渡顺滑,服装变化采用生长动画和蒙版等自然方式 [6][7] 与世界顶级CG渲染作品对比 - 在还原世界渲染大赛Top 5作品时,模型能把握照明弹触发场景变亮的核心亮点,并丰富水晶生长等细节 [10][11] - 对于固定机位的复杂战斗场景,模型能准确分析画面视觉元素,使所有应该运动的物体都在运动,并模仿原始CG运镜 [11][12] - 在人物奔跑、躲避攻击等动作表现上相当自然流畅,甚至能主动添加提示词未要求的"踉跄"步伐以符合物理逻辑 [13][17] - 变狼形生物的动作处理几乎与CG同步,人物和狼的运动及动作切换无误,背景元素运动自然 [14][17] - 在处理龙骑士航拍镜头时,尽管首帧龙身不全导致龙形态变化,但在镜头调度和运动表现上甚至优于原CG [15][17] - 追车场景还原度最高,汽车落地后模型自动添加甩尾漂移动作,镜头跟随表现突出 [16][17] AI视频模型的技术突破意义 - 模型开始理解动作背后的"为什么",表现出对真实物理世界的底层理解,如对"失衡-恢复"逻辑的自发补全 [17] - 内化了"材质-运动"的关联规则,如公主长裙的变化遵循布料重力下垂的渐进式展开而非粗暴形变 [17] - 在形变瞬间的镜头模糊和肌肉膨胀帧率完全同步,显示对"形变需要信息补偿"的隐性认知 [18] - AI模型的思考和创作方式更接近人类,在CG解微分方程时,AI已学会"凭感觉"进行创作 [18]
实测可灵AI的新视频模型,它生成的动作戏酷到封神。
数字生命卡兹克· 2025-09-22 09:33
产品能力提升 - 可灵2.5在动作和表演方面实现显著进化 包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化 能够丝滑衔接多个动作 如下落、奔跑、骑摩托等 并注重真实感细节 如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化 能够准确表达多层次情绪 如从愤怒到克制的转变 以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升 仅靠提示词即可生成至少一半的案例 无需首尾帧 [10][55] - 理解能力有巨幅提升 解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳 而2.1只能保持人物基本不崩坏 环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实 而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变 而2.1表演没层次 表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头 如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞 如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景 如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头 并做出急迫感 如猛然加速追逐 [14]
终于有AI视频模型,解决了体操难题。
数字生命卡兹克· 2025-06-19 03:08
视频模型技术突破 - MiniMax发布Hailuo 02视频模型,首次实现杂技动作生成能力,肢体表演和动作幅度远超Veo3等竞品[1][4] - 该模型攻克了AI视频领域的"体操难题",能生成包含两次空中旋转的高杠体操动作,且形体保持完整[6][7][21] - 在杂技类动作表现上显著领先,如小丑抛球倒立、双杠倒立等复杂动作完成度远超Runway Gen4等模型[23][24][26] 技术性能对比 - 对比一年前Luma AI生成的体操视频(四肢扭曲变形),Hailuo 02展现出质的飞跃[6] - 与主流视频模型对比测试显示:Veo3生成的运动员触垫后形体碎裂,Runway Gen4出现"面条人"变形,即梦模型产生双头怪等异常[9][11][13][15] - 在跳马测试中,Hailuo 02实现助跑、起跳、谢幕全流程动作,镜头运动自然流畅[19][21] 产品特性与商业化 - 支持原生1080P视频生成,新人赠送500免费积分,768p/6秒视频仅需25积分,1080p视频80积分[45] - 具备多动作连续生成能力,可配合镜头运动指令,如"摄影机快速摇摄并倾斜捕捉轨迹"[7][45] - 在物理效果模拟上实现突破,能准确表现玻璃破碎、物体坠落等动态场景[37][38] 行业影响 - 该模型标志着AI视频技术进入新阶段,解决了运动捕捉和物理规律模拟等核心难题[23][46] - 在表演领域延续优势,情绪表达和复杂动作结合产生"登峰造极"效果,如机甲降落、消防员破窗等场景[34][35][38] - 价格策略具有竞争力,以"便宜又大碗"形成市场差异化优势[45]
从案例分析到提示词写作,手把手教你制作最火爆的AI视频
歸藏的AI工具箱· 2025-06-18 14:57
AI视频制作趋势 - AI生成视频在社交媒体平台获得高互动量 包括国内外市场 即使内容看似简单但具有强吸引力 [1][2][3] - AI视频已渗透广告营销领域 案例显示某牙医诊所广告改用"大脚男孩"主题后播放量从数千跃升至56万次 [4] Veo3技术突破 - Veo3显著降低AI视频制作成本 仅需两次生成与简单合并即可完成作品 大幅简化流程 [6] - 模型支持从创意构思到提示词生成的全程自动化 人类仅需筛选点子与复制提示词 [6] - 技术突破跳过传统视频制作的图片生成 语音合成 唇形同步等复杂环节 减少90%工作量 [35] 爆款视频核心要素 - 反差感引擎:通过现代形式呈现古老/虚构内容 或让严肃角色展现生活化特质 制造喜剧效果 [11][14] - 伪纪实手法:模拟真实拍摄增强沉浸感 如采访/Vlog形式强化荒诞性 [12][14] - 共同认知基石:利用历史事件 流行文化IP或文化迷因降低观众理解成本 [13][14] - 情感共鸣点:将宏大叙事转化为普通人吐槽 如暴风兵抱怨"混蛋老板"引发打工人共情 [23] 创意生产方法论 - 使用NotebookLM交叉分析多个爆款视频 提取分镜结构 台词内容及爆火原因 [8][9][10] - 通过Gemini生成新创意 需包含8秒分镜的详细环境 角色 台词描述 优先选择现实题材 [17][18][21] - 提供两类标准化提示词模板:第一人称Vlog强调主观镜头 虚构采访侧重权威角色与金融黑话反差 [29][30][32][33] 视频生成流程优化 - 推荐使用Gemini Pro会员或FLOW工具 后者需切换至Veo3 Fast模型控制成本 [37][40] - 后期仅需基础剪辑拼接 可添加台标 滚动文字等元素增强伪纪实感 [44] - 支持1080P超分输出提升画质 未来视频类Agent有望进一步简化字幕等包装工作 [45][46] 行业影响 - Veo3推动AI视频制作门槛降低 每日新增爆款视频覆盖多品类 验证技术应用潜力 [44][46] - 每减少一个制作环节可拓展10倍创作者基数 技术普及将释放潜在内容生产力 [44][46]