Multimodal Generation - 财报，业绩电话会，研报，新闻

Multimodal Generation

搜索文档

机器之心· 2026-03-23 12:03

模型发布与核心突破 - 开源多模态生成领域迎来架构级底层突破，daVinci-MagiHuman作为演绎级人像音视频的开源基座模型正式发布，解决了开源界在音视频联合同步生成领域的三重局限[1] - 模型以150亿参数的单流Transformer为核心，实现了文本、视频、音频在统一骨干网络下的联合建模，彻底告别了跨注意力和模态专属分支[1][5] - 模型尤其擅长以人物为中心的生成任务，能生成富有表现力的面部表情与自然语音，并实现精确的音视频同步，覆盖语音与口型协调、表情驱动、动作表现等场景[5] 研发团队背景 - 该成果由上海创智学院（SII）GAIR实验室与Sand.ai联合研发完成[2] - SII GAIR实验室由刘鹏飞博士领导，聚焦生成式AI前沿研究，已构建从多模态生成、视觉推理到实时交互的完整研究链条，并产出一系列代表性工作[2] - Sand.ai由马尔奖得主曹越博士创立，专注于开发视频生成大模型，以推动通用人工智能（AGI）为目标，此前已发布多个突破性视频生成模型[3] 技术架构与创新 - 模型采用简洁的150亿参数单流Transformer架构，统一建模文本、视频与音频，降低了系统复杂度，使训练与推理优化更直接统一[5][11] - 核心技术包括：Sandwich式主干网络、无显式timestep条件注入、Attention-Head门控以及统一条件接口，在模态特化与深层融合间取得平衡[15] - 模型采用DMD-2技术对去噪网络进行蒸馏，实现了在推理阶段仅去噪8步即可获得良好音视频生成效果[16] 性能优化与效率 - 模型结合单流骨干网络、隐空间超分辨率与Turbo VAE解码器，在单张H100上仅需2秒即可生成5秒256p视频[8] - 采用两阶段流水线：底模生成低分辨率音视频隐变量，再通过隐空间超分进行细化，整个过程在隐空间完成，避免额外VAE编解码开销[12] - 在视频编解码阶段使用更轻量的Turbo VAE解码器替换原始解码器以降低延迟，并集成自研全图PyTorch编译器MagiCompiler，在H100上带来约1.2倍的加速[13][14] 多语言能力与评测表现 - 模型具备较强的多语言泛化能力，支持中文（普通话与粤语）、英文、日文、韩文、德文、法文等多种语言的音视频生成[5] - 在与LTX-2.3、Ovi 1.1的全面对比中，daVinci-MagiHuman在成对人工评测中取得了70.5%的综合胜率[8] - 在客观基准评测中，模型在VideoScore2的视觉质量（4.80）、视频-文本一致性（4.18）上领先于LTX2.3，物理一致性（4.52）大致相当；在TalkVid-Bench的音频质量（WER 14.60%）上远优于LTX2.3（19.23%）与OVI 1.1（40.45%）[19][20] 开源影响与未来 - 此次模型栈完整开源，包括生成模型、超分模型以及推理代码，旨在为开源社区提供更简单、可扩展且易于优化的音视频生成基础系统[22] - 该发布有望持续降低音画同出大模型的开发与部署门槛，为AI社区贡献“开箱即用”的性能红利[22]

Multimodal Generation

Artificial Intelligence

Generative AI

Artificial Intelligence

daVinci-MagiHuman

Anole

Multimodal Generation

Artificial Intelligence

Generative AI

Artificial Intelligence

daVinci-MagiHuman

Anole

刚刚，AI视频的天花板被掀翻！测完SkyReels后飘了：我亦有成为专业导演的潜质

机器之心· 2025-11-04 11:45

行业背景与公司定位 - AI视频生成赛道竞争激烈，国外如OpenAI推出Sora 2、谷歌更新Veo 3.1，国内如生数科技推出Vidu Q2，均在视频质量、时长（如20秒）方面有显著提升[1] - 国内厂商倾向于打造覆盖图像、音视频、数字人、Agent的全模态内容共创平台，通过模板化和流程化降低创作门槛，突破AI视频应用边界[1] - 昆仑万维采用“模型+平台”并行演进模式，新上线的一站式多模态AI视频创作平台SkyReels集中体现了这一思路，旨在加速AI视频创作普及[1] SkyReels平台核心功能 - 平台集成多模态视频生成模型SkyReels V3，并提供无限画布、数字人口播、多模板生成与Agent等多种创作模式[2] - 无限画布作为核心亮点，集成全部AI功能和全球顶尖AI模型，是图片、视频、音乐等多模态的融合载体，支持实时交互和效果呈现[8][9] - 通过画布可实现多模态融合创作，例如将静态《清明上河图》拖拽至图生视频功能，几秒内生成动态视频，并可进一步通过Super Agent对话激发灵感生成4K分辨率陶土风格版本[10][12][14][16] - Agent模块包括Super Agent（全能创意助手）和28位Expert Agents（行业专家），覆盖市场营销、电子商务、虚拟形象塑造等领域，用户仅需简单指令即可自动完成多步骤复杂任务，生成可直接交付的成果[17][19][21][22][24][26][28] - 模板库全面升级，收录近10大类、150余种专业模板，覆盖海报设计、电商服装图、商品演示视频等主流场景，可一键提升普通图片质感，支持多件服饰同时试穿和品牌广告模板[29][30][32][34][36][38][41][42] - 数字人功能实现全场景对口型生成，支持单人驱动和单镜头多人多轮对话，最长可生成4分钟连续视频，内置32种运镜组合与丰富配音资源库，极大降低多镜头拍摄与后期成本[42][43][45][46][47][48][50][52][53] - 视频编辑功能支持视频延长和风格化，提供Cut-In、Cut-Out等多种切镜方式，生成片段在叙事逻辑与视觉连贯性上高度一致[54][56] SkyReels V3模型技术优势 - 模型基于多模态上下文学习框架预训练，并通过子任务精调优化，在参考图像一致性（0.6698）、指令遵循能力（27.22）和视觉质量（0.8119）评估中达到业界闭源SOTA水平[60][61][62] - 基于音频参考的视频生成优化音画对齐，业内首次支持单镜头多人多轮对话，通过区域路由机制实现自然流畅多轮对话，并强化运镜控制，支持分钟级高质量视频生成[63][64] - 基于视频参考的视频生成统一支持视频延长、风格化与编辑多任务，在单镜头与切镜延长任务上达到业界SOTA，自研端到端风格化数据生成流程确保艺术可控性[66][67] 公司战略与商业表现 - 昆仑万维自去年8月推出SkyReels后，先后发布并开源SkyReels V1、V2及A1、A2、A3系列模型，形成集图片生成、口播讲解、故事音乐等于一身的AI视频创意矩阵，服务于媒体、电商、教育等多行业[69][73] - AI视频业务与AI智能助手、AI音乐等共同构成公司多元矩阵，成为营收增长重要引擎；2025第三季度报告显示公司前三季度营业收入58亿元，同比增长52%，AI相关业务收入大幅增长[74]

昆仑万维(SZ:300418)

AI Video

Multimodal Generation

Multimodal Generation

AI Video

SkyReels

SkyReels V3