OmniAvatar - 财报，业绩电话会，研报，新闻

All-In-One AI Solutions

Agent Platform

OceanDoc

All-In-One AI Solutions

Agent Platform

OceanDoc

Virtual Humans Everywhere: iFLYTEK Brings AI Service into Real-World Scenarios at MWC26

Globenewswire· 2026-03-05 23:58

文章核心观点 - 公司在MWC26大会上展示了其全面的虚拟人技术产品线这些技术由公司整合的AI基础设施驱动使虚拟人能够在现实世界中感知、移动、交互和服务旨在将AI融入各行业的真实服务场景提升服务效率并使人机交互更自然、更易获取 [1][12] 产品与解决方案 - **核心产品GuideX**：针对高流量公共环境的智能虚拟人解决方案例如在机场场景中可管理单个航站楼的全流程乘客服务从问候、答疑到值机协助和登机口引导将分散的功能整合至单一界面从而简化旅客流程并提升运营效率 [3][4] - **GuideX功能特性**：系统支持多模态交互包括语音、触控、手势和视觉识别能够理解口语问题、解读用户线索并自然回应其定位是智能服务中心而非基础对话形象 [5] - **GuideX应用场景**：作为24/7服务助手除机场外还适用于火车站、酒店、购物中心、展览场馆和指挥中心等多种服务场景 [5] - **移动数字人**：结合多模态交互与自主导航及避障功能适用于需要移动性的环境如展厅、博物馆和企业园区通过伴随访客移动并进行实时情景解说将虚拟人服务从固定点延伸至动态空间 [7] - **个人数字身份平台OmniAvatar**：一个虚拟人创建平台能够快速克隆声音和外观以创建定制化的服务化身和数字主持人 [8] - **OmniAvatar社会与商业应用**：与中国残疾人联合会合作帮助失声或失去行动能力的个体创建个性化化身和合成语音同时也能为媒体专业人士和内容创作者创建数字分身实现用于IP创作的个性化虚拟主持人 [9] - **具身智能机器人iFLYTEK Guide01**：一款具身AI服务机器人以其现场生动的舞蹈演示吸引人群凭借灵活的移动性和集成的AI感知能力赋予AI在现实环境中有形的物理存在 [10] 技术基础与战略定位 - 公司的虚拟人技术由其整合的AI基础设施提供支持 [1] - 公司强调其技术旨在跨行业集成到真实服务场景中帮助各类组织提供高效服务同时使日常工作和生活中的人机交互更加自然和易于获取 [12]

科大讯飞(SZ:002230)

Virtual Human Technologies

Virtual Human Technologies

夸克、浙大开源OmniAvatar，一张图+一段音，就能生成长视频

机器之心· 2025-07-25 12:29

模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型，仅需输入一张图片和一段音频即可生成视频，显著提升唇形同步细节和全身动作流畅性，并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源，提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先，平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型，采用LoRA微调方法引入音频特征，保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略：通过Wav2Vec2提取音频特征并压缩映射至潜在空间，实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计，将音频信息嵌入DiT模块第二层至中间层，避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化，确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题，通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试，需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]

夸克AI实验室与浙大联合开源OmniAvatar：音频驱动全身视频生成新突破

观察者网· 2025-07-25 12:16

技术突破 - 夸克AI技术团队与浙江大学合作开源音频驱动全身视频生成模型OmniAvatar，实现从面部到全身驱动的技术跨越 [1] - 模型仅需输入一张图片和一段音频即可生成视频，显著提升唇形同步细节和全身动作流畅性 [1] - 通过提示词可精准控制人物姿势、情绪、场景等要素，突破传统技术难以精确控制的局限 [1] 核心技术 - 采用基于像素的音频嵌入策略，使音频特征以像素级方式融入模型潜在空间，生成更协调的身体动作 [1] - 运用多层级音频嵌入策略，将音频信息嵌入DiT模块不同阶段，保持各层次独立学习路径 [1] - 提出基于LoRA的平衡微调策略，在不改变底层模型容量情况下高效学习音频特征，兼顾视频质量与细节 [2] 技术挑战 - 通过参考图像嵌入策略和帧重叠技术解决长视频连续生成的难点，确保视频连贯性和人物身份一致性 [1] - 当前模型在实验数据集上已验证初步效果，但尚未达到产品级应用水平 [2] 未来发展 - 未来将重点提升复杂指令处理能力和多角色交互能力 [2] - 计划扩大模型在更多场景中的应用范围 [2]