Omnihuman 1.5 - 财报，业绩电话会，研报，新闻

Omnihuman 1.5

搜索文档

歸藏的AI工具箱· 2025-09-29 18:10

产品核心升级 - 数字人Omnihuman 1.5版本在Web端上线，相较于1.0版本，其控制能力大幅提升，用户可定义视频中人物的表演和运动方式，解决了以往AI视频在人物表现方面的难点 [1] - 新增动作描述提示词输入功能，极大拓展数字人的使用场景，可控制画面内容、人物、情绪、音色以及运动和运镜方式，使其成为自定义程度极高的工具 [2] - 模型升级使数字人不再死板，可通过动作控制让镜头和人物动起来，包括主角和背景人物，实现如先抬头调整角度再开始说话，同时镜头旋转、背景人物行走等复杂动作，这是纯唇形同步模型无法做到的 [4] 技术能力突破 - 模型在多风格化及非人形生物的唇形同步上效果自然，平面插画的眼睛、嘴部和面部运动生动，并可搭配抬手、走动等动作，镜头平移时新画面风格与原有部分保持一致 [5] - 对表情和表演的响应显著提升，能够精准遵循复杂提示词，如从平静到讽刺再到温和的16秒长视频中，稳定保持人像ID不变并实现精准的提示词遵循，这在市场上较为罕见 [6] - 新增控制同一场景多人对话和表现的功能，可指定发声角色，实现两人对唱、多人对话剧情，搭配图像编辑能力调整镜头重点，超越固定镜头的表现限制 [7] - 解决了以往模型夸张嘴型问题，模型会根据声音内容和提示词调整嘴部动作，表现自然度大幅提升 [8] 操作流程与教程 - 制作视频需准备三部分内容：首帧图片、音频、对应的动作和情绪提示词，建议使用表格规划每个分镜的这三个部分，通过切分镜头和音频使画面更生动，避免超长镜头的生成时间和ID保持问题 [9][29] - 音频处理支持选择推荐音色或克隆自定义音色（仅需5秒音频），上传音频后角色说话内容将基于音频，多角色画面中可选择单个或全部角色发声 [12][14] - 动作描述提示词模板建议包含镜头运动、说话角色情绪、说话状态、具体动作及可选背景事件或其他角色动作，强调清晰、不矛盾、少否定、多具体内容 [16] - 利用图像模型生成和编辑分镜图片，如生成黑色背景的乔布斯图片、苹果风格PPT的拖鞋产品图，并通过图像编辑能力修改背景和添加元素，实现多镜头连贯视频 [19][21][23][25][27] 行业影响与定位 - Omnihuman 1.5将创作从“玄学”变为“工程学”，首帧画面相当于场景设定、音频内容相当于台词剧本、动作提示相当于分镜脚本、多角色控制相当于群戏调度，为具备导演思维的用户提供更精准的工具 [30] - 新模型将于9月30日同步上线手机端，用户更新即梦app即可体验，标志着AI视频工具在移动端的进一步普及 [30]

AI视频模型

Artificial Intelligence

Artificial Intelligence

Omnihuman 1.5

即梦图片 4.0

iFlip One