OmniAvatar

搜索文档
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心· 2025-07-25 12:29
模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型,仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性,并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源,提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先,平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型,采用LoRA微调方法引入音频特征,保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略:通过Wav2Vec2提取音频特征并压缩映射至潜在空间,实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计,将音频信息嵌入DiT模块第二层至中间层,避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化,确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题,通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试,需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]
夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破
观察者网· 2025-07-25 12:16
技术突破 - 夸克AI技术团队与浙江大学合作开源音频驱动全身视频生成模型OmniAvatar,实现从面部到全身驱动的技术跨越 [1] - 模型仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性 [1] - 通过提示词可精准控制人物姿势、情绪、场景等要素,突破传统技术难以精确控制的局限 [1] 核心技术 - 采用基于像素的音频嵌入策略,使音频特征以像素级方式融入模型潜在空间,生成更协调的身体动作 [1] - 运用多层级音频嵌入策略,将音频信息嵌入DiT模块不同阶段,保持各层次独立学习路径 [1] - 提出基于LoRA的平衡微调策略,在不改变底层模型容量情况下高效学习音频特征,兼顾视频质量与细节 [2] 技术挑战 - 通过参考图像嵌入策略和帧重叠技术解决长视频连续生成的难点,确保视频连贯性和人物身份一致性 [1] - 当前模型在实验数据集上已验证初步效果,但尚未达到产品级应用水平 [2] 未来发展 - 未来将重点提升复杂指令处理能力和多角色交互能力 [2] - 计划扩大模型在更多场景中的应用范围 [2]
泡泡玛特王宁回应饥饿营销争议;马斯克预警特斯拉未来季度艰难
21世纪经济报道· 2025-07-25 10:57
泡泡玛特 - 泡泡玛特创始人王宁回应饥饿营销争议,表示每月销售1000万只LABUBU,供应链产能逐月翻倍但仍无法满足需求 [2] - LABUBU成为世界级IP,需求远超供应链增长 [2] 特斯拉 - 特斯拉股价大跌8.9%,市值蒸发6843亿元人民币 [2] - 第二季度营收同比下降12%,净利润同比减少20.7% [2] - 马斯克预警未来季度将面临艰难时期,受电动汽车税收抵免政策变化和关税冲击 [2] - Robotaxi试点项目推进中,目标年底覆盖美国约一半人口 [2] - 人形机器人Optimus计划五年内实现百万年产量 [2] OpenAI - OpenAI预计8月推出GPT-5模型 [3] - GPT-5将集成多项技术,包括o3推理能力 [3] TikTok - TikTok 2024年营收230亿美元,同比增长42.8% [5] - 成为全球营收规模第四大社交应用 [5] - 字节跳动海外业务收入同比增长63%,占总收入四分之一 [5] 充电宝行业 - 市场监管总局启动为期三个月的充电宝质量安全集中整治 [6] - 重点包括强化CCC认证监管、质量监督抽查、查处未经认证行为等 [6] 商汤科技 - "1+X"架构调整后,6家生态企业完成约18亿元融资 [7] - 生态企业+被投企业股权价值累计约100亿元 [7] 京东 - 京东洽谈收购德国Ceconomy AG,估值约22亿欧元 [7] - 潜在报价较周三收盘价溢价23% [7] 英伟达 - 机构预测Blackwell架构GPU今年出货将占英伟达高阶GPU出货比例80%以上 [8] - GB200 Rack、HGX B200等新平台产品逐步放量 [8] AMD - 台积电美国厂芯片成本比台湾生产的高出5%至20% [9] - AMD预计年底前获得台积电美国厂第一批芯片 [9] IBM - 第二季度软件业务营收低于预期 [10] - 股价收跌7.62% [10] Alphabet - 第二季度营收964.28亿美元,同比增长14% [11] - 净利润281.96亿美元,同比增长19% [11] 融资动态 - 具身智能企业加速进化完成超亿元A+轮融资 [12] - 本智激活完成数千万元种子轮融资 [13] 机器人技术 - 机器人"交警"亮相上海外滩,处于研发阶段 [14] - 傲鲨智能发布VIATRIX增程动力外骨骼机器人 [17] 大模型 - 北电数智的骄阳·工业大模型登顶工业大模型榜单 [15] - 夸克与浙大联合开源音频驱动全身视频生成模型OmniAvatar [16]
音频驱动全身视频生成模型 夸克与浙江大学联合开源OmniAvatar
快讯· 2025-07-25 09:27
技术创新 - 阿里旗下夸克技术团队与浙江大学联合开源OmniAvatar模型 这是一个创新的音频驱动全身视频生成模型 [1] - 该模型仅需输入一张图片和一段音频即可生成相应视频 显著提升人物唇形同步细节和全身动作流畅性 [1] - 模型支持通过提示词精准控制人物姿势 情绪 场景等要素 [1] 行业应用 - 该技术突破在视频生成领域具有潜在应用价值 可提升虚拟数字人 在线教育 娱乐等内容创作效率 [1]