Meta亿元天团首个大模型交卷！余家辉宋飏Jason Wei耗时九个月，一雪Llama前耻

Meta发布全新AI模型Muse Spark - Meta超级智能实验室（MSL）在亚历山大王带领下，耗时9个月从零重构了公司的AI技术栈，并发布了其首个主打原生多模态的模型Muse Spark [2] - 模型发布后，市场反应热烈，Meta股价当日整体上涨约6%，盘中一度涨超近10% [4] - 此次发布标志着Meta在第三方测评中重新进入AI第一梯队，一改此前Llama 4带来的落后局面 [7] 模型核心特点与定位 - Muse Spark是一款专注于推理能力的模型，其开发始于9个月前一个用于推理的Llama模型脚本 [5][6] - 模型在多模态理解能力上表现突出，在图表理解、屏幕定位等多项测评中得分位居第一或与Gemini 3.1 Pro、GPT 5.4等顶尖模型不相上下 [13][14] - 模型具备强大的工具调用能力，测评表现与多模态理解能力类似 [21] - 模型医学能力是其强调的重点，通过与1000多名医生合作，在开放式健康问答HealthBench Hard上获得42.8的最高分，在多模态医学问答MedXpertQA MM中也位居前列 [22] - 公司承认模型在编程和长时间自主运行（Agent类任务） 方面仍与竞争对手的顶尖模型存在差距 [8][23] - 模型采用闭源策略，目前仅上线Meta网站和APP，API仅向部分合作伙伴开放，但公司计划未来开源后续版本 [10][11][12] 模型性能测评 - 在CharXiv Reasoning Figure Understanding（图表推理理解）基准测试中，Muse Spark Thinking得分为86.4，高于Opus 4.6 Max的65.3和Gemini 3.1 Pro High的80.2 [13] - 在HealthBench Hard Open-Ended Health Queries（开放式健康问答）基准测试中，Muse Spark得分为42.8，显著高于Opus 4.6 Max的14.8和GPT 5.4 Xhigh的40.1 [13] - 在SWE-Bench Pro Diverse Agentic Coding（多样化智能体编码）基准测试中，Muse Spark得分为52.4，略低于GPT 5.4 Xhigh的57.7 [13] - 公司推出了Contemplating（沉思）模式，通过让多个智能体协作思考来提升复杂推理任务表现，在该模式下，模型在“人类最后的考试”多学科推理（无工具）测试中得分为50.2，高于Gemini 3.1 Deep Think的48.4 [24][25][29] 技术创新与训练细节 - 模型开发的核心是9个月重构一切，包括新的基础设施、架构和数据管道 [38][39] - 在预训练阶段，新模型能够以比Llama 4少10倍以上（10.3倍）的计算量达到相同的性能水平 [41][45] - 强化学习训练展现出平滑且可预测的改进，在训练数据和未见过的任务上均表现出良好的泛化能力和可扩展性 [41][48][49][51] - 在测试时推理阶段，通过引入思考时间惩罚机制，模型学会了“思维压缩”，即用更少的token解决问题，从而在效果与效率间取得平衡 [41][56][59][60] 商业化应用 - 模型无预告直接上线了“购物模式”，该模式会结合用户在Instagram、Facebook、Threads上关注的创作者和品牌偏好，进行个性化购物推荐 [29][30] 市场评价与影响 - 第三方测评机构认为Muse Spark将Meta重新带回了人工智能第一梯队，在关键指标人工智能分析指数上，其得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6 [34][36] - 模型团队汇聚了多位顶尖AI研究人员，包括思维链作者Jason Wei、o1核心贡献者Hyung Won Chung、扩散模型核心人物宋飏等，阵容强大 [5]