Workflow
Anole
icon
搜索文档
创智刘鹏飞、Sand.ai曹越,两大AI青年学者团队联手,开源音视频基座模型
机器之心· 2026-03-23 12:03
模型发布与核心突破 - 开源多模态生成领域迎来架构级底层突破,daVinci-MagiHuman作为演绎级人像音视频的开源基座模型正式发布,解决了开源界在音视频联合同步生成领域的三重局限[1] - 模型以150亿参数的单流Transformer为核心,实现了文本、视频、音频在统一骨干网络下的联合建模,彻底告别了跨注意力和模态专属分支[1][5] - 模型尤其擅长以人物为中心的生成任务,能生成富有表现力的面部表情与自然语音,并实现精确的音视频同步,覆盖语音与口型协调、表情驱动、动作表现等场景[5] 研发团队背景 - 该成果由上海创智学院(SII)GAIR实验室与Sand.ai联合研发完成[2] - SII GAIR实验室由刘鹏飞博士领导,聚焦生成式AI前沿研究,已构建从多模态生成、视觉推理到实时交互的完整研究链条,并产出一系列代表性工作[2] - Sand.ai由马尔奖得主曹越博士创立,专注于开发视频生成大模型,以推动通用人工智能(AGI)为目标,此前已发布多个突破性视频生成模型[3] 技术架构与创新 - 模型采用简洁的150亿参数单流Transformer架构,统一建模文本、视频与音频,降低了系统复杂度,使训练与推理优化更直接统一[5][11] - 核心技术包括:Sandwich式主干网络、无显式timestep条件注入、Attention-Head门控以及统一条件接口,在模态特化与深层融合间取得平衡[15] - 模型采用DMD-2技术对去噪网络进行蒸馏,实现了在推理阶段仅去噪8步即可获得良好音视频生成效果[16] 性能优化与效率 - 模型结合单流骨干网络、隐空间超分辨率与Turbo VAE解码器,在单张H100上仅需2秒即可生成5秒256p视频[8] - 采用两阶段流水线:底模生成低分辨率音视频隐变量,再通过隐空间超分进行细化,整个过程在隐空间完成,避免额外VAE编解码开销[12] - 在视频编解码阶段使用更轻量的Turbo VAE解码器替换原始解码器以降低延迟,并集成自研全图PyTorch编译器MagiCompiler,在H100上带来约1.2倍的加速[13][14] 多语言能力与评测表现 - 模型具备较强的多语言泛化能力,支持中文(普通话与粤语)、英文、日文、韩文、德文、法文等多种语言的音视频生成[5] - 在与LTX-2.3、Ovi 1.1的全面对比中,daVinci-MagiHuman在成对人工评测中取得了70.5%的综合胜率[8] - 在客观基准评测中,模型在VideoScore2的视觉质量(4.80)、视频-文本一致性(4.18)上领先于LTX2.3,物理一致性(4.52)大致相当;在TalkVid-Bench的音频质量(WER 14.60%)上远优于LTX2.3(19.23%)与OVI 1.1(40.45%)[19][20] 开源影响与未来 - 此次模型栈完整开源,包括生成模型、超分模型以及推理代码,旨在为开源社区提供更简单、可扩展且易于优化的音视频生成基础系统[22] - 该发布有望持续降低音画同出大模型的开发与部署门槛,为AI社区贡献“开箱即用”的性能红利[22]