突然袭击！刚刚，Meta超级智能团队首个大模型来了

Meta AI战略重组与Muse Spark发布背景 - 公司于2025年夏天对AI业务进行彻底重组，成立了全新的内部部门Meta Superintelligence Labs，并任命年仅29岁的前Scale AI联合创始人兼CEO Alexandr Wang为首席AI官，负责领导该部门[4] - 此次重组旨在应对Llama 4发布后评价褒贬不一甚至被曝出存在操纵基准测试的情况，试图在通用智能竞争中重新夺回主动权[4][5] - 公司随后以高薪招募了多位顶级研究员，并经过九个月从零开始重构了包括基础设施、模型架构和数据管线在内的整套AI技术栈，最终推出了全新自研模型Muse Spark[5] Muse Spark模型性能与基准测试表现 - 公司宣称Muse Spark是其迄今发布的最强模型，具备工具调用、视觉思维链以及多智能体协同能力，并成为全新Muse模型家族的起点[7] - 在多项基准测试中，该模型展现出具有竞争力的能力[12] - 在CharXiv Reasoning（图表理解）测试中得分为86.4，高于Opus 4.6 Max的65.3、Gemini 3.1 Pro High的80.2和GPT 5.4 Xhigh的82.8[6] - 在MMMU Pro（多模态理解）测试中得分为80.4，表现优于Opus 4.6 Max的77.4和Grok 4.2 Reasoning的75.2，但略低于Gemini 3.1 Pro High的83.9[6] - 在HealthBench（开放式健康查询）测试中得分为42.8，显著高于Opus 4.6 Max的14.8、Gemini 3.1 Pro High的20.6和Grok 4.2 Reasoning的20.3[6] - 在MedXpertQA（多模态医学选择题）测试中得分为78.4，优于Opus 4.6 Max的64.8和Grok 4.2 Reasoning的65.8[6] - 在DeepSearchQA（智能体搜索）测试中得分为74.8，在SWE-Bench Verified（智能体编码）测试中得分为77.4[6] - 公司还发布了Contemplating（深度思考）模式，该模式可以调度多个智能体并行推理，使其能够对标前沿模型的高强度推理模式[13] - 在Contemplating模式下，Muse Spark在Humanity‘s Last Exam（无工具）测试中达到50.2，在FrontierScience Research（科学研究）测试中达到38.3，后者高于Gemini 3.1 Deep Think的23.3[14][15] Muse Spark的定位、愿景与应用场景 - 该模型的定位并非通用聊天机器人，而是构建个人超级智能的基础，旨在成为能够看见并理解用户周围世界、成为个体能力数字延伸的AI[10] - 其设计强调跨领域、跨工具整合视觉信息，在视觉类STEM问题、实体识别和空间定位等任务上展现出较强能力，可支持生成简单小游戏或通过动态标注帮助用户排查设备问题等交互性应用[18] - 健康领域被视为个人超级智能的重要落地方向，公司与超过1000名医生合作构建训练数据以提升模型在健康推理方面的准确性和完整性，使其能够生成用于解释健康信息的交互式内容[19] - 模型目前暂时仅限于在Meta AI应用和网站中使用，并通过面向部分用户开放的私有API预览提供访问，公司尚未公布该模型的定价信息[10] 模型能力扩展的三大维度 - 为实现个人超级智能，公司从预训练、强化学习和测试时推理三个维度对模型的规模化能力进行研究与跟踪[28] - 在预训练阶段，团队在过去九个月对体系进行了全面重构，涵盖模型架构、优化方法以及数据构建，与此前的Llama 4 Maverick相比，现在可以用超过一个数量级更少的算力达到相同能力水平，显著提升了效率[30] - 在强化学习阶段，模型表现出平稳且可预测的能力提升，随着训练步数的增加，模型在训练数据和独立测试集上的表现均持续改善，表明能力提升具备良好的泛化性[32] - 在测试时推理阶段，公司通过思考时间惩罚来优化token使用效率，并通过多智能体协同在不显著增加响应时间的情况下提升性能，模型能够用更少的tokens完成问题求解，并在压缩后适度延展推理过程以实现效率与性能的动态平衡[35][36] - 通过增加并行协作的智能体数量来解决问题，相比让单个智能体思考更久，可以在保持相近响应速度的同时实现更优的性能表现[38]