三大模态模型全部登顶后,昆仑万维正式披露了 2026 年 AGI 战略
Founder Park·2026-03-30 18:14

公司战略定位与愿景 - 公司是一家难以被简单定义的中国AI公司,虽非传统互联网巨头,但其业务布局和行业地位使其成为跨领域关注的焦点[2] - 2026年,公司频繁站上世界AI舞台中心,其视频大模型SkyReels V4在3月18日登顶全球权威评测平台Artificial Analysis的“文生视频(含音频)”榜首,超越了Google Veo 3.1等一众模型[3] - 2026年3月27日,公司在中关村论坛上系统阐述了其AGI规划,战略升级为“3+1”生态架构:以4个SOTA大模型为底座,支撑中层3大AI原生平台和顶层1个超级智能体,旨在推动大模型从工具时代进化到AI Native平台经济体时代[3] - 公司董事长兼CEO周亚辉在投资领域有成功历史,曾以1亿元投资映客、押注Pony.ai、领投Musicly最后一轮[5] - 公司选择了一条“慢下来,扎下去”的长期发展道路[6] “3+1”生态架构详解 - 公司最新AGI战略是“3+1”生态架构,整个平台由三层构成[8][10] - 底层:四大SOTA大模型作为技术底座[10] - 中层:三大AI原生平台经济体,包括月活跃用户达8000万、覆盖170多个国家、拥有三万多部剧集的“AI版奈飞”DramaWave;主打“AI版Spotify”的Mureka音乐平台;以及可以口述玩游戏的“AI版Roblox”猫森学园2.0[12] - 顶层:Skywork Super Agent操作系统,是三大平台背后通用的操作系统,具备记忆、规划、执行、协同的完整能力闭环,并借助自研Sky Claw架构实现多Agent协同调度,目标是面向全球内容创作者提供“一人公司”的操作系统[12] 核心大模型技术突破 - 公司发布了四大SOTA大模型,构成了其技术底座[11] - Matrix-Game 3.0(游戏世界模型):解决了世界模型长时序生成的记忆一致性问题,其5B参数模型在720P分辨率下能实现40FPS的实时生成效果[16][19][24] - SkyReels V4(视频生成大模型):于2026年3月19日登顶Artificial Analysis文生视频(含音频)赛道榜首,是一款集全模态音视频联合生成、修复与编辑于一体的大一统基础模型[16][28] - Mureka V9(音乐大模型):在段落内文本控制、生成效率、混音质量与整体听感等关键维度持续进化[16] - Skywork 6.0:一款即将发布的、面向全自研OpenClaw架构打造的Agent原生大模型[16] 游戏模型(Matrix-Game 3.0)的技术优势 - Matrix-Game 3.0是一系列物理仿真驱动下的实时交互式世界模型,被行业公认为多模态模型发展的终极目标[18] - 该模型解决了当前交互式世界模型的三大核心痛点:记忆性差、泛化能力弱、实时交互不足[19] - 其技术突破源于三个维度: 1. 工业级无限数据引擎:基于Unreal Engine 5构建了合成数据生成系统Unreal-Gen,并打通了GTA5、荒野大镖客2、赛博朋克2077等多款3A游戏,构建跨游戏自动化数据采集体系[23] 2. 长时序抗漂移机制:在训练中引入Error Buffer机制,并通过统一的DiT框架进行联合建模,保证生成连续性[24] 3. 突破极限的实时推理能力:通过推理优化,在5B参数、720P分辨率下生成速度最高可达40FPS;28B大模型通过独特设计保证了不同视角下的沉浸式体验与高效资源分配[24] - 该模型能够构建具有记忆和推理能力的动态游戏世界,玩家的每次交互都会被记录并影响后续内容,实现了“无剧本的游戏体验”[25][26] 视频模型(SkyReels V4)的竞争地位与技术革新 - 在2026年3月18日Artificial Analysis的评测中,SkyReels V4在“Text to Video (With Audio)”和“Image to Video (With Audio)”赛道登顶,在“Text to Video (No Audio)”赛道位列全球第一梯队[28] - 该模型直面AI视频生成赛道的四大顽疾:音画同步失衡、多模态控制失效、内容缺乏叙事逻辑与物理常识、创作工具碎片化[31] - 公司选择从底层架构重构视频生成逻辑,SkyReels V4是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频生成模型[32] - 其核心技术是自研音画一体双流架构,通过双分支设计从生成起点实现多模态语义深度融合,实现了台词口型、动作音效的毫秒级对齐[32][33] - 模型具备全模态精准控制系统,支持首帧/首尾帧参考、多图参考等多种控制方式,能根据分镜网格图一键生成叙事短片[33] - 通过引入全模态语义Reward体系阶梯式课程学习路径,为AI视频注入了叙事灵魂,让模型从生成视频升级为讲故事[34] - 在商用化方面,实现了1080P分辨率、32FPS帧率、15秒时长的突破,并通过优化策略将计算成本降低了3倍[34] 音乐模型(Mureka V9)的创作能力 - Mureka V9最大的优势在于将推理能力融入音乐创作,借助MusiCoT技术,模型在生成前会先完成一套完整的创作思考,包括情感表达、歌词段落安排、结构递进等[37] - 相比V8版本,V9新增了更细粒度的歌词文本控制能力,能更好理解表达重点与演唱意图[38] - 在混音质量与音色质感上,V9使人声与伴奏关系更协调,听感更通透,并大幅减少了不必要的人声哼唱、模糊唱词等干扰[38] - 在表达多样性上,V9减少了旋律、编排与听感上的重复问题,使同一主题可生成不同版本[38] - Mureka V9使AI音乐从简单生成一首歌,迈向能稳定按创作意图生成好歌,从普通人的玩具升级为专业音乐人的生产级工具[40] 多模态战略的逻辑与生态野心 - 公司选择多模态赛道,是因为行业公认全模态是一个上限更高、可创造价值量更大的市场[41] - 公司认为全模态能降低内容行业门槛和成本,让更多创作者加入,未来全球可能有10亿创作者[41] - 公司的终极目标是构建一个能完整生成可听、可视、可交互、可记忆的多模态全家桶,而非孤立的工具[43] - Mureka、SkyReels、Matrix-Game是构建多模态世界引擎的三块核心拼图,分别负责听觉与情绪表达、视觉与叙事体系、物理规则与交互逻辑,从底层打通形成完整的技术体系[43] - 公司的最终目标是建立生态,以多模态大模型与平台为底座,让开发者封装智能体,让创作者获得一站式AI创作体验,让企业实现从生产到变现的闭环,从而成为AI Native的平台经济体和行业标准制定方[44][45] - 这被类比为一种苹果生态式的野心,即借助爆款产品或模型,销售整套系统和体验[46]

三大模态模型全部登顶后,昆仑万维正式披露了 2026 年 AGI 战略 - Reportify