Omnihuman 1.5
搜索文档
告别抽卡!全能&高度可控|藏师傅教你用即梦数字人 1.5
歸藏的AI工具箱· 2025-09-29 18:10
产品核心升级 - 数字人Omnihuman 1.5版本在Web端上线,相较于1.0版本,其控制能力大幅提升,用户可定义视频中人物的表演和运动方式,解决了以往AI视频在人物表现方面的难点 [1] - 新增动作描述提示词输入功能,极大拓展数字人的使用场景,可控制画面内容、人物、情绪、音色以及运动和运镜方式,使其成为自定义程度极高的工具 [2] - 模型升级使数字人不再死板,可通过动作控制让镜头和人物动起来,包括主角和背景人物,实现如先抬头调整角度再开始说话,同时镜头旋转、背景人物行走等复杂动作,这是纯唇形同步模型无法做到的 [4] 技术能力突破 - 模型在多风格化及非人形生物的唇形同步上效果自然,平面插画的眼睛、嘴部和面部运动生动,并可搭配抬手、走动等动作,镜头平移时新画面风格与原有部分保持一致 [5] - 对表情和表演的响应显著提升,能够精准遵循复杂提示词,如从平静到讽刺再到温和的16秒长视频中,稳定保持人像ID不变并实现精准的提示词遵循,这在市场上较为罕见 [6] - 新增控制同一场景多人对话和表现的功能,可指定发声角色,实现两人对唱、多人对话剧情,搭配图像编辑能力调整镜头重点,超越固定镜头的表现限制 [7] - 解决了以往模型夸张嘴型问题,模型会根据声音内容和提示词调整嘴部动作,表现自然度大幅提升 [8] 操作流程与教程 - 制作视频需准备三部分内容:首帧图片、音频、对应的动作和情绪提示词,建议使用表格规划每个分镜的这三个部分,通过切分镜头和音频使画面更生动,避免超长镜头的生成时间和ID保持问题 [9][29] - 音频处理支持选择推荐音色或克隆自定义音色(仅需5秒音频),上传音频后角色说话内容将基于音频,多角色画面中可选择单个或全部角色发声 [12][14] - 动作描述提示词模板建议包含镜头运动、说话角色情绪、说话状态、具体动作及可选背景事件或其他角色动作,强调清晰、不矛盾、少否定、多具体内容 [16] - 利用图像模型生成和编辑分镜图片,如生成黑色背景的乔布斯图片、苹果风格PPT的拖鞋产品图,并通过图像编辑能力修改背景和添加元素,实现多镜头连贯视频 [19][21][23][25][27] 行业影响与定位 - Omnihuman 1.5将创作从“玄学”变为“工程学”,首帧画面相当于场景设定、音频内容相当于台词剧本、动作提示相当于分镜脚本、多角色控制相当于群戏调度,为具备导演思维的用户提供更精准的工具 [30] - 新模型将于9月30日同步上线手机端,用户更新即梦app即可体验,标志着AI视频工具在移动端的进一步普及 [30]