一周六连发！昆仑万维将多模态AI卷到了新高度

技术发布概览 - 一周内连续发布六款多模态AI模型，覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源，包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强"，与腾讯、阿里等并列 [5] 核心模型与技术突破视频生成领域 - SkyReels-A3：支持音频驱动人像视频生成，预设8种运镜参数，可生成60秒单分镜视频，唇形同步指标Sync-C达8.66，超越OmniHuman（8.15）和Hydra（7.70） [8][10][12][14] - 技术原理：基于DiT视频扩散模型+插帧延展+强化学习动作优化，支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - Matrix-Game 2.0：国内首个对标谷歌Genie 3的开源模型，支持25 FPS实时生成分钟级交互视频，数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - Matrix-3D：单图像生成全景视频并还原三维空间，对标李飞飞World Labs，适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - Skywork UniPic 2.0：2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext，联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略：采用渐进式双任务强化策略优化SD3.5-Medium架构，降低硬件门槛 [30][31] 智能体领域 - Skywork Deep Research Agent v2：多模态深度调研智能体整合图片检索与生成，自动插入图文混合文档；浏览器智能体支持社媒多模态分析（如小红书、Instagram） [37][38][44] - 技术手段：端到端强化学习（GRPO算法）、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - Mureka V7.5：中文音乐生成模型在音色、情感表现上超越Suno v4.5，优化ASR技术提升人声真实度 [53][54][57] - MoE-TTS：基于MoE的语音合成框架，通过自然语言描述精准控制声音特征，域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - 战略定力：2023年确立"All in AGI与AIGC"战略，2024年研发费用15.4亿元（同比+59.5%），研发团队占比73.41% [66][67][73] - 垂直领域聚焦：CEO方汉强调垂直Agent与高频应用场景的价值，如数字人直播（国内市场规模近十万亿）、游戏引擎、具身智能等 [70][76] - 开源生态：通过开源建立技术话语权，推动"技术-社区-应用"正向循环，强化行业地位 [78]