Workflow
OmniAvatar
icon
搜索文档
iFLYTEK Showcases All-In-One AI Solutions at MWC26, Bringing Private, Customizable AI to Industry
Globenewswire· 2026-03-06 00:25
公司产品与解决方案 - 公司在MWC26上展示其All-In-One AI解决方案 这是一个集成的软硬件系统 用于私有AI计算和模型部署 [1] - All-In-One AI解决方案提供完全集成的软硬件系统 帮助组织通过AI优化和自动化核心业务流程 [2] - 该解决方案专为具有严格安全需求的行业打造 包括媒体 电信 政府和金融 支持私有的本地化部署 确保对数据和运营的完全控制 [2] - 系统由本地计算和双大模型引擎驱动 提供稳定性能并完全离线运行 以满足高安全标准和监管合规要求 [3] - 公司的Agent平台能够帮助组织快速将现有工作流程转化为AI驱动的应用 而无需从零开始 [7] 平台功能与技术特点 - Agent平台提供无代码和低代码工具 使团队无需复杂编程即可快速构建和部署AI应用 [8] - 平台支持多模态交互 允许智能体通过丰富的语音和视觉化身与用户互动 实现更自然的沟通 [8] - 用户可以用自然语言描述任务以触发RPA自动化 从而无需手动编写脚本即可运行复杂流程 [8] - 在MWC26上 公司展示了30多个精选的超级智能体 其平台生态系统现已包含超过130万个智能体 [9] 应用案例与市场成效 - 解决方案已在多个行业投入使用 例如帮助媒体团队处理不同口音和嘈杂音频 实现快速低延迟的转录 [4] - 在实际应用中 转录准确率提升了85% 转录效率提高了两倍 同时降低了总体成本并确保敏感数据在组织内部安全处理 [4] - OceanDoc是一款AI文档解决方案 能在几秒钟内生成带图表的专业结构化报告 在全球拥有超过800万用户 涵盖企业和消费市场 [9] - OmniAvatar是一款企业级AI数字人内容创作解决方案 支持低成本创建多语言营销视频 帮助组织为全球受众扩展内容 [9] 公司战略与行业定位 - 公司将All-In-One AI解决方案定位为构建主权AI的实用基础 [5] - 公司高管表示 AI只有在能够被大规模部署 信任和使用时才能创造价值 [11] - 公司通过结合本地AI基础设施 智能体和成熟应用 帮助企业将AI转化为实际生产力 [11]
Virtual Humans Everywhere: iFLYTEK Brings AI Service into Real-World Scenarios at MWC26
Globenewswire· 2026-03-05 23:58
文章核心观点 - 公司在MWC26大会上展示了其全面的虚拟人技术产品线 这些技术由公司整合的AI基础设施驱动 使虚拟人能够在现实世界中感知、移动、交互和服务 旨在将AI融入各行业的真实服务场景 提升服务效率并使人机交互更自然、更易获取 [1][12] 产品与解决方案 - **核心产品GuideX**:针对高流量公共环境的智能虚拟人解决方案 例如在机场场景中 可管理单个航站楼的全流程乘客服务 从问候、答疑到值机协助和登机口引导 将分散的功能整合至单一界面 从而简化旅客流程并提升运营效率 [3][4] - **GuideX功能特性**:系统支持多模态交互 包括语音、触控、手势和视觉识别 能够理解口语问题、解读用户线索并自然回应 其定位是智能服务中心而非基础对话形象 [5] - **GuideX应用场景**:作为24/7服务助手 除机场外 还适用于火车站、酒店、购物中心、展览场馆和指挥中心等多种服务场景 [5] - **移动数字人**:结合多模态交互与自主导航及避障功能 适用于需要移动性的环境 如展厅、博物馆和企业园区 通过伴随访客移动并进行实时情景解说 将虚拟人服务从固定点延伸至动态空间 [7] - **个人数字身份平台OmniAvatar**:一个虚拟人创建平台 能够快速克隆声音和外观 以创建定制化的服务化身和数字主持人 [8] - **OmniAvatar社会与商业应用**:与中国残疾人联合会合作 帮助失声或失去行动能力的个体创建个性化化身和合成语音 同时也能为媒体专业人士和内容创作者创建数字分身 实现用于IP创作的个性化虚拟主持人 [9] - **具身智能机器人iFLYTEK Guide01**:一款具身AI服务机器人 以其现场生动的舞蹈演示吸引人群 凭借灵活的移动性和集成的AI感知能力 赋予AI在现实环境中有形的物理存在 [10] 技术基础与战略定位 - 公司的虚拟人技术由其整合的AI基础设施提供支持 [1] - 公司强调其技术旨在跨行业集成到真实服务场景中 帮助各类组织提供高效服务 同时使日常工作和生活中的人机交互更加自然和易于获取 [12]
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心· 2025-07-25 12:29
模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型,仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性,并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源,提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先,平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型,采用LoRA微调方法引入音频特征,保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略:通过Wav2Vec2提取音频特征并压缩映射至潜在空间,实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计,将音频信息嵌入DiT模块第二层至中间层,避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化,确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题,通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试,需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]
夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破
观察者网· 2025-07-25 12:16
技术突破 - 夸克AI技术团队与浙江大学合作开源音频驱动全身视频生成模型OmniAvatar,实现从面部到全身驱动的技术跨越 [1] - 模型仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性 [1] - 通过提示词可精准控制人物姿势、情绪、场景等要素,突破传统技术难以精确控制的局限 [1] 核心技术 - 采用基于像素的音频嵌入策略,使音频特征以像素级方式融入模型潜在空间,生成更协调的身体动作 [1] - 运用多层级音频嵌入策略,将音频信息嵌入DiT模块不同阶段,保持各层次独立学习路径 [1] - 提出基于LoRA的平衡微调策略,在不改变底层模型容量情况下高效学习音频特征,兼顾视频质量与细节 [2] 技术挑战 - 通过参考图像嵌入策略和帧重叠技术解决长视频连续生成的难点,确保视频连贯性和人物身份一致性 [1] - 当前模型在实验数据集上已验证初步效果,但尚未达到产品级应用水平 [2] 未来发展 - 未来将重点提升复杂指令处理能力和多角色交互能力 [2] - 计划扩大模型在更多场景中的应用范围 [2]
泡泡玛特王宁回应饥饿营销争议;马斯克预警特斯拉未来季度艰难
21世纪经济报道· 2025-07-25 10:57
泡泡玛特 - 泡泡玛特创始人王宁回应饥饿营销争议,表示每月销售1000万只LABUBU,供应链产能逐月翻倍但仍无法满足需求 [2] - LABUBU成为世界级IP,需求远超供应链增长 [2] 特斯拉 - 特斯拉股价大跌8.9%,市值蒸发6843亿元人民币 [2] - 第二季度营收同比下降12%,净利润同比减少20.7% [2] - 马斯克预警未来季度将面临艰难时期,受电动汽车税收抵免政策变化和关税冲击 [2] - Robotaxi试点项目推进中,目标年底覆盖美国约一半人口 [2] - 人形机器人Optimus计划五年内实现百万年产量 [2] OpenAI - OpenAI预计8月推出GPT-5模型 [3] - GPT-5将集成多项技术,包括o3推理能力 [3] TikTok - TikTok 2024年营收230亿美元,同比增长42.8% [5] - 成为全球营收规模第四大社交应用 [5] - 字节跳动海外业务收入同比增长63%,占总收入四分之一 [5] 充电宝行业 - 市场监管总局启动为期三个月的充电宝质量安全集中整治 [6] - 重点包括强化CCC认证监管、质量监督抽查、查处未经认证行为等 [6] 商汤科技 - "1+X"架构调整后,6家生态企业完成约18亿元融资 [7] - 生态企业+被投企业股权价值累计约100亿元 [7] 京东 - 京东洽谈收购德国Ceconomy AG,估值约22亿欧元 [7] - 潜在报价较周三收盘价溢价23% [7] 英伟达 - 机构预测Blackwell架构GPU今年出货将占英伟达高阶GPU出货比例80%以上 [8] - GB200 Rack、HGX B200等新平台产品逐步放量 [8] AMD - 台积电美国厂芯片成本比台湾生产的高出5%至20% [9] - AMD预计年底前获得台积电美国厂第一批芯片 [9] IBM - 第二季度软件业务营收低于预期 [10] - 股价收跌7.62% [10] Alphabet - 第二季度营收964.28亿美元,同比增长14% [11] - 净利润281.96亿美元,同比增长19% [11] 融资动态 - 具身智能企业加速进化完成超亿元A+轮融资 [12] - 本智激活完成数千万元种子轮融资 [13] 机器人技术 - 机器人"交警"亮相上海外滩,处于研发阶段 [14] - 傲鲨智能发布VIATRIX增程动力外骨骼机器人 [17] 大模型 - 北电数智的骄阳·工业大模型登顶工业大模型榜单 [15] - 夸克与浙大联合开源音频驱动全身视频生成模型OmniAvatar [16]
音频驱动全身视频生成模型 夸克与浙江大学联合开源OmniAvatar
快讯· 2025-07-25 09:27
技术创新 - 阿里旗下夸克技术团队与浙江大学联合开源OmniAvatar模型 这是一个创新的音频驱动全身视频生成模型 [1] - 该模型仅需输入一张图片和一段音频即可生成相应视频 显著提升人物唇形同步细节和全身动作流畅性 [1] - 模型支持通过提示词精准控制人物姿势 情绪 场景等要素 [1] 行业应用 - 该技术突破在视频生成领域具有潜在应用价值 可提升虚拟数字人 在线教育 娱乐等内容创作效率 [1]