Meta发布全新AI模型Muse Spark - Meta超级智能实验室(MSL)在亚历山大王带领下,耗时9个月从零重构了公司的AI技术栈,并发布了其首个主打原生多模态的模型Muse Spark [2] - 模型发布后,市场反应热烈,Meta股价当日整体上涨约6%,盘中一度涨超近10% [4] - 此次发布标志着Meta在第三方测评中重新进入AI第一梯队,一改此前Llama 4带来的落后局面 [7] 模型核心特点与定位 - Muse Spark是一款专注于推理能力的模型,其开发始于9个月前一个用于推理的Llama模型脚本 [5][6] - 模型在多模态理解能力上表现突出,在图表理解、屏幕定位等多项测评中得分位居第一或与Gemini 3.1 Pro、GPT 5.4等顶尖模型不相上下 [13][14] - 模型具备强大的工具调用能力,测评表现与多模态理解能力类似 [21] - 模型医学能力是其强调的重点,通过与1000多名医生合作,在开放式健康问答HealthBench Hard上获得42.8的最高分,在多模态医学问答MedXpertQA MM中也位居前列 [22] - 公司承认模型在编程和长时间自主运行(Agent类任务) 方面仍与竞争对手的顶尖模型存在差距 [8][23] - 模型采用闭源策略,目前仅上线Meta网站和APP,API仅向部分合作伙伴开放,但公司计划未来开源后续版本 [10][11][12] 模型性能测评 - 在CharXiv Reasoning Figure Understanding(图表推理理解)基准测试中,Muse Spark Thinking得分为86.4,高于Opus 4.6 Max的65.3和Gemini 3.1 Pro High的80.2 [13] - 在HealthBench Hard Open-Ended Health Queries(开放式健康问答)基准测试中,Muse Spark得分为42.8,显著高于Opus 4.6 Max的14.8和GPT 5.4 Xhigh的40.1 [13] - 在SWE-Bench Pro Diverse Agentic Coding(多样化智能体编码)基准测试中,Muse Spark得分为52.4,略低于GPT 5.4 Xhigh的57.7 [13] - 公司推出了Contemplating(沉思)模式,通过让多个智能体协作思考来提升复杂推理任务表现,在该模式下,模型在“人类最后的考试”多学科推理(无工具)测试中得分为50.2,高于Gemini 3.1 Deep Think的48.4 [24][25][29] 技术创新与训练细节 - 模型开发的核心是9个月重构一切,包括新的基础设施、架构和数据管道 [38][39] - 在预训练阶段,新模型能够以比Llama 4少10倍以上(10.3倍) 的计算量达到相同的性能水平 [41][45] - 强化学习训练展现出平滑且可预测的改进,在训练数据和未见过的任务上均表现出良好的泛化能力和可扩展性 [41][48][49][51] - 在测试时推理阶段,通过引入思考时间惩罚机制,模型学会了“思维压缩”,即用更少的token解决问题,从而在效果与效率间取得平衡 [41][56][59][60] 商业化应用 - 模型无预告直接上线了“购物模式”,该模式会结合用户在Instagram、Facebook、Threads上关注的创作者和品牌偏好,进行个性化购物推荐 [29][30] 市场评价与影响 - 第三方测评机构认为Muse Spark将Meta重新带回了人工智能第一梯队,在关键指标人工智能分析指数上,其得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6 [34][36] - 模型团队汇聚了多位顶尖AI研究人员,包括思维链作者Jason Wei、o1核心贡献者Hyung Won Chung、扩散模型核心人物宋飏等,阵容强大 [5]
Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻