可视化思维链
搜索文档
Meta 143亿挖角后首个作品来了:Alexandr Wang 推出闭源模型,杨立坤点赞
AI前线· 2026-04-09 11:19
公司发布新一代AI模型 - 公司于深夜正式发布新一代AI模型“Muse Spark”,代号“Avocado”,这是其内部AI组织Meta Superintelligence Labs战略重组后的首个落地产品[5] - 该模型被视为公司迈向“个人超级智能”路线图的起点[5] - 该模型由Alexandr Wang带队研发,是其加入公司9个月后交出的首个作品,公司此前为挖角Alexandr Wang花费了143亿美元[2] 模型定位与核心能力 - Muse Spark被定义为“原生多模态推理模型”,不仅能够处理文本,还能理解图像、环境信息,并在此基础上进行推理、调用工具,甚至与其他智能体协同完成复杂任务[7] - 这种能力组合意味着公司正试图将AI从“对话工具”升级为“行动系统”[8] - 模型的核心突破集中在“多模态推理”,旨在应对科学、数学和健康领域的复杂问题[11] - 不同于传统视觉模型,Muse Spark能够将视觉信息与推理过程深度融合,不仅能“看见”,还能“理解并推导”[13] - 模型支持“可视化思维链”,即将推理过程以可视形式呈现,提升了可解释性,并为复杂任务的人机协作提供了新的交互范式[14] 模型性能表现 - 在多项基准测试中,Muse Spark表现优异。例如,在CharXiv Reasoning Figure Understanding测试中得分为86.4,高于Opus 4.6的65.3、Gemini 3.1 Pro的80.2、GPT 5.4的82.8和Grok 4.2的60.9[6][12] - 在MMMU Pro Multimodal Understanding测试中得分为80.4[6][12] - 在ERQA Embodied Reasoning测试中得分为64.7[6][12] - 在SimpleVQA Visual Factuality测试中得分为71.3[12] - 在ScreenSpot Pro Screenshot Localization - With Python测试中得分为84.1[6][12] - 在HealthBench Hard Open-Ended Health Queries测试中得分为42.8,显著高于Opus 4.6的14.8、Gemini 3.1 Pro的20.6、GPT 5.4的40.1和Grok 4.2的20.3[12] - 在MedXpertQA (MM) Medical Multiple Choice测试中得分为78.4[12] - 公司发布了“思考模式”,可协调多个智能体并行推理,使其能够与Gemini Deep Think和GPT Pro等前沿模型的极限推理模式相媲美[12] - 在“思考模式”下,Muse Spark在“人类最后的考试”任务中取得了58%的完成率,在“前沿科学研究”任务中取得了38%的完成率[12] - 在对比表格中,Muse Spark Contemplating模式在Humanity's Last Exam Multidisciplinary Reasoning (With Tools)测试中得分为58.4,高于Gemini 3.1 Deep Think的53.4,略低于GPT 5.4 Pro的58.7[13] - 在FrontierScience Research Scientific Research测试中,Muse Spark Contemplating得分为38.3,高于Gemini 3.1 Deep Think的23.3,也高于GPT 5.4 Pro的36.7[13] 公司AI战略转向 - Muse Spark的发布是公司AI战略的一次整体转向,从过去开源导向的Llama系列,转向如今强调“超级智能”的闭环系统能力[9] - 核心变化在于不再单纯追求模型能力本身,而是强调“模型 + 工具 + 环境 + 多智能体”的系统级协同[9] - 为支撑这一方向,公司正在对整个技术栈进行重构,包括模型训练、数据管理以及底层基础设施[10] - 名为Hyperion的新一代数据中心被明确点名,成为未来大规模模型扩展的关键支撑[10] 技术优化与效率提升 - 在过去九个月中,团队重构了预训练体系,包括模型架构、优化方法和数据管理流程[16] - 在达到相同性能的前提下,Muse Spark所需的训练计算量相比上一代模型(如Llama 4 Maverick)下降了一个数量级以上[16] - 公司强调通过工程优化提升“单位算力产出”,试图证明性能增长不必完全依赖指数级资源投入[19] - 技术博客详细介绍了从预训练、强化学习和测试时推理三个维度研究和追踪模型的扩展特性[21] - 在预训练阶段,与之前的模型Llama 4 Maverick相比,公司用少一个数量级以上的计算资源就能达到相同的性能[21] - 在强化学习阶段,新技术栈能够带来平稳、可预测的性能提升,且收益具有可预测的泛化能力[23] - 在测试时推理阶段,通过思考时间惩罚和多智能体编排等手段,高效利用推理令牌,在不显著增加延迟的情况下提升性能[25][26] 健康领域应用 - 公司特别强调了Muse Spark在健康领域的应用潜力[15] - 公司与超过1000名医生合作构建训练数据,使模型在健康推理上具备更高的专业性与可靠性[15] - 基于此能力,模型可以生成带交互界面的分析结果,例如食物营养结构的可视化拆解、运动过程中肌肉激活情况的动态展示、个性化饮食建议等[15][18] - 这类能力的本质是将AI从“信息提供者”升级为“决策辅助系统”[15] 安全评估 - 公司表示已在部署前对Muse Spark进行系统性评估,依据其更新后的“高级人工智能扩展框架”,对威胁模型、评估流程及上线标准进行了统一规范[28] - 评估重点覆盖前沿风险、行为一致性以及对抗鲁棒性,并在安全措施实施前后进行对比测试[28] - 结果显示,Muse Spark在涉及高风险内容时表现出明显的拒绝倾向,主要得益于数据过滤、后训练安全对齐及系统级防护的多层机制[28] - 公司指出,在网络攻击或“失控”场景中,当前模型尚不具备执行复杂威胁任务的自主能力[28] 市场反响与社区讨论 - 模型发布在技术社区引发巨大反响,Stability AI创始人Emad Mostaque、公司前首席科学家Yann LeCun、Coinbase联创兼CEO Brian Armstrong等纷纷在X上表示祝贺[31] - 有网友认为模型在排行榜上的表现令人印象深刻,并好奇公司是否会在智能体编码领域展开竞争[32] - 有网友认为模型的多代理编排部分很有意思,能原生处理并行代理协调问题,对于大型代码库的复杂重构来说是一个真正的突破[32] - 有网友认为公司能在短时间内用低10倍的计算能力构建出性能强大的模型,这9个月的基础设施建设工作构成了制胜的护城河[34] - 也有网友将新模型与Opus 4.5进行对比,认为“牛油果”表现逊色于Opus 4.5[36] - 值得注意的是,此次发布的新模型走的是闭源路线,与此前主张的开源模型完全相反,这让一些X用户感到失望[39] - 有网友认为公司这次之所以将模型闭源,是因为此前的一系列开源没有为股东创造足够价值[39] 公司现状与未来计划 - 公司承认Muse Spark目前仍存在明显短板,尤其是在长时程智能体和编码与复杂工作流两个关键领域,未达到真正“代理人级别”的能力[41][42] - 公司尚未在大模型市场取得显著突破,而其在该领域的主要竞争对手已经遥遥领先,OpenAI和Anthropic的估值总和现已超过1万亿美元[41] - 据Grand View Research称,全球生成式人工智能市场预计将以每年40%以上的速度增长,从2025年的约220亿美元增长到2033年的近3250亿美元[41] - 公司正在加大对人工智能基础设施的投入,其2026年与人工智能相关的资本支出将在1150亿美元至1350亿美元之间,几乎是去年的两倍[45] - 公司正在尝试一种新的AI模型盈利模式,即通过API向第三方开发者提供Muse Spark底层技术的访问权限,目前只有部分“特邀合作伙伴”可以访问“私有API预览版”,但计划在未来向更广泛的用户群体提供付费API访问权限[45] - Muse Spark目前已应用于公司独立的Meta AI应用程序和桌面网站中的数字助理功能,并将在未来几周内率先登陆Facebook、Instagram、WhatsApp和Messenger,以及公司与Ray-Ban合作推出的Meta AI眼镜[45] - 公司还计划最终让Muse Spark为Meta AI应用程序中的Vibes AI视频功能提供支持[46]