Workflow
机器之心
icon
搜索文档
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本
机器之心· 2025-10-13 12:21
MoE模型推理挑战 - 现有主流MoE推理框架扩展性差,要求使用大规模同步通信组部署模型,一次性占用大量GPU资源,导致弹性资源伸缩困难,资源供给无法按用户流量精细调整,造成浪费[2] - 传统MoE推理容错性低,采用全局紧耦合架构,各GPU间通过All-to-All等大规模集体通信协同工作,任意节点故障可能导致整个服务集群重启,缺乏容错能力[3] - 负载不均问题突出,MoE专家调用动态稀疏,激活分布随工作负载波动,固定专家映射和资源分配策略难以适应,导致部分GPU过载而其他闲置,资源利用低下[4] EaaS架构创新 - 提出专家即服务架构,将每个专家拆分为独立无状态服务模块,专家不维护会话状态,仅根据请求计算输出,使模型由许多可独立扩展服务组成,支持精细扩展,初始部署可小至16块GPU起步,支持一次增减一块GPU匹配负载需求[7] - 实现Attention层与专家层解耦,二者通过高效通信机制衔接,减少全局同步点,Attention端可异步等待专家结果并处理下一批次计算,提升流水线利用率,且Attention和专家可独立扩展[10] - 研发高性能异步通信库IBGDA,基于InfiniBand GPUDirect Async技术,实现GPU直连网络通信,完全绕过CPU参与,支持单边RDMA操作和灵活缓冲管理,突破NCCL等通信库需整组同步的限制,结合CUDA graph实现CPU-free数据传输[14] - 引入动态负载均衡策略,当监测到某个专家请求频率过高时可动态增添实例分摊流量,对冷门专家减少实例以节省资源[14] 系统性能优势 - 在扩展能力实验中,随GPU节点从32增加到64,EaaS总吞吐量几乎按比例提升,支持任意数量GPU部署组合,打破传统架构对GPU数量整除比要求,实验显示可实现同等性能下最高约37.5%的GPU资源节省[18] - 容错性卓越,模拟故障场景中随机失效GPU节点时,EaaS几乎不中断完成请求处理,吞吐量仅略微下降不到2%,而传统方案任一节点故障都会使整个组停止服务[20] - 实现高吞吐与低延迟兼顾,端到端推理吞吐量与现有最优系统相当,响应延迟稳定,每个token平均生成延迟维持在较低水平,在吞吐-延迟权衡上达到优秀平衡[22] - EaaS通信库通过IBGDA高效通信模式与CPU-free结构支持的CUDA graph带来kernel launch开销overlap,最多将延迟降低49.6%[24] 应用前景 - EaaS细粒度资源调配能力使云服务商可根据实时负载弹性调整MoE模型算力分配,以更低成本提供稳定可靠推理服务,非常契合云计算环境下的多租户和持续交付需求[25] - 服务化架构具有良好的可运营和可演化特性,模块化专家服务便于独立升级维护,通信调度组件可逐步优化迭代,使系统能随模型规模和应用需求变化不断演进[25]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
机器之心· 2025-10-13 12:21
文章核心观点 - Meta公司据信发布了其“Segment Anything”系列模型的最新迭代SAM 3,该模型被定义为“可提示概念分割”,能够根据简单的名词短语或图像范例,在图像或视频中识别并分割出所有指定概念的实例,实现了从手动提示到概念理解的重大升级 [1][3][8][12] 技术进展与定义 - SAM 3的核心任务是“可提示概念分割”,其输入可以是文本(如“红苹果”)和/或图像范例,输出为每个匹配对象的实例掩码和语义掩码,并在视频中保持对象身份一致性 [8] - 与前代产品相比,SAM 3解决了更广泛的任务,即自动找出并分割输入内容中某一概念的所有实例,而SAM 1和SAM 2的重点在于视觉提示(如点、框),文本提示功能未被完全开发 [9][10] - 该模型专注于识别原子视觉概念,将输入文本限制为简单的名词短语,实现了扎根于视觉的极简语言理解 [8] 性能表现 - 在论文提出的新基准SA-Co上,SAM 3的性能比之前系统提升至少2倍,并在多个公开基准测试中达到SOTA水平,例如在LVIS数据集上,其零样本掩码平均精度达到47.0,超越之前最佳纪录38.5 [13] - 模型处理效率高,在单个H200 GPU上处理一张包含超过100个物体的图像仅需30毫秒 [14] - 在小样本自适应设置下,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型如gDino [30] 模型架构与数据 - SAM 3采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块结合可应用于视频领域 [20] - 研究构建了可扩展的人机协同数据引擎用于标注,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集 [21] - 为PCS任务创建了SA-Co基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上 [25] 实验成果 - 在开放词汇SA-Co/Gold数据集上,SAM 3的CGF分数是最强基线OWLv2的两倍,在其他SA-Co子集上的提升更高 [28] - 在物体计数任务中,SAM 3实现了良好的准确率,其平均绝对误差在CountBench上为0.11,准确率达95.6%,并提供了大多数多模态大模型无法提供的对象分割功能 [33] - 在视频分割任务中,SAM 3的表现远超基线,在SA-V基准上CGF1达到27.8,pHOTA达到53.9,在大多数基准测试中比SAM 2有显著改进 [34][35][36]
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
机器之心· 2025-10-13 12:21
大模型在天文奥赛中的卓越表现 - 大型语言模型在国际天文学和天体物理学奥林匹克竞赛中取得金牌级别的成绩,展示了其在复杂科学推理方面的强大能力 [4][5] - GPT-5和Gemini 2.5 Pro两大模型在IOAA基准测试中表现最为突出 [4][12] 评测框架与方法论 - 研究选择IOAA试题作为基准,因其具备更高的生态有效性,能考查复杂推理、创新性问题求解以及多步推导能力 [9][10] - 评估涵盖理论问题(共49个)和数据分析问题(共8个),排除了观测部分 [10] - IOAA题目覆盖广泛的天文主题,包括宇宙学、球面三角、恒星天体物理等,保证了评测的全面性 [10] 理论考试表现 - GPT-5在理论考试中的总体平均得分为84.2% ± 6.1%,Gemini 2.5 Pro为85.6% ± 8.0% [12] - GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)的理论考试中取得最高分 [13] - 模型在物理/数学类问题上的表现(准确率67-91%)明显优于几何/空间类问题(准确率49-78%) [24][26] 数据分析考试表现 - GPT-5在数据分析部分的平均得分为88.5% ± 12.6%,高于其理论考试表现 [12][16] - GPT-5在数据分析考试中展现出更强的多模态理解能力,尤其在图像解析和绘图推理方面错误率显著更低 [16] 与人类参赛者的对比 - 大多数大型语言模型的表现超过IOAA金牌门槛,GPT-5在2022、2023与2025年的表现优于当届最佳学生 [17][18] - 在2025年理论考试中,GPT-5得分相对于中位数的比例为443%,排名第一 [19] - 在2023年数据分析考试中,GPT-5得分为100%,相对于中位数的比例为250%,排名第一 [21] 错误分析与能力局限 - 最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷 [26] - 几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和3D可视化方面尤其吃力 [26] - 在数据分析考试中,主要的故障模式包括绘图和图表/图像阅读,计算错误也比理论考试中更常见 [26]
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
机器之心· 2025-10-12 16:02
文章核心观点 - 谷歌提出名为ReasoningBank的创新记忆框架,使智能体无需微调即可通过闭环经验学习实现自我提升 [1] - 该技术通过从成功和失败经验中提炼结构化记忆项,指导智能体决策,在多项基准测试中展现出显著的有效性和效率优势 [1][11] 技术框架与核心组件 - ReasoningBank框架包含记忆结构、智能体集成、记忆感知的测试时扩展三大关键组件 [5][7][8] - 记忆项采用结构化设计,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性 [7] - 智能体集成过程分为记忆检索、记忆构建、记忆整合三个步骤 [7] - 记忆感知的测试时扩展包含并行扩展和顺序扩展两种互补实现方式 [8][9] 方法论创新 - 采用经验深度扩展策略,通过深入探索单一任务而非增加任务广度来提升智能体能力 [3] - 记忆感知的测试时扩展通过生成多样化探索提供对比信号,使ReasoningBank能合成更具普遍性的记忆 [3][8] - 在记忆与测试时扩展之间建立正反馈循环,高质量记忆引导扩展路径,丰富经验进一步锤炼更强记忆 [3] 实验性能表现 - 在WebArena测试中,ReasoningBank使Gemini-2.5-pro模型成功率从46.7%提升至53.9%,交互步骤从8.8减少至7.4 [12] - 在Mind2Web测试中,Gemini-2.5-pro模型的解决率从54.0%提升至57.4%,步骤从21.1减少至19.8 [13] - 在跨任务、跨网站、跨领域测试中,ReasoningBank均展现出最佳性能,成功率最高提升达34.2%,效率提升16.0% [11][14] - 并行扩展和顺序扩展均能有效提升性能,与ReasoningBank协同效果最好 [14][15]
硅谷CEO们高喊AI威胁论,「5年内失业率飙升至20%」,但95%AI项目赔本赚吆喝
机器之心· 2025-10-12 12:05
AI对就业影响的预测与观点 - 当前AI威胁就业的论调更多是基于技术趋势的预警而非既成事实[2] - Anthropic首席执行官预测未来五年AI可能大规模取代入门级白领工作,失业率可能飙升至10%到20%,尤其在法律、金融和咨询等行业[3] - Stability AI联合创始人声称明年将出现大规模失业,AI能完成复杂工作且不出错,替代风险将影响多个行业[5] - 前谷歌AI团队创始人表示AI能力提升可能使获得法律或医学高级学位变得毫无意义[8] 耶鲁大学关于AGI经济影响的论文核心观点 - AGI普及将导致人类劳动在经济中的地位逐渐消失,由计算资源主导[13] - 工作分为瓶颈工作(推动经济增长的核心任务)和辅助工作(支持性任务)[14][21] - 在AGI经济中,工资基于AI完成相同工作的计算成本决定,大部分收入将由计算资源拥有者获得[15] - 经济政策需解决如何分享由计算资源产生的收入,如通过全民分红方式[16] - 人类劳动不再推动经济进步,如果一半人停止工作,经济依然可以继续运转[16] 历史技术替代案例 - 19世纪英国纺织业机械化浪潮导致手工工人失业激增,引发卢德分子运动[20][22] - 20世纪中期白炽灯普及使点灯人职业退出历史舞台[18] - 19世纪末汽车普及淘汰马车夫职业,尽管出现《红旗法》等抵制措施[23] 当前AI对就业的实际影响 - 微软在2023年5月裁员近6000人,7月又裁员9000人,其CEO透露20%到30%的代码由AI编写[24] - 谷歌、Meta、IBM、普华永道和Chegg等公司出现大规模裁员[24] - 斯坦福大学研究发现AI已导致软件开发人员职位空缺减少[24] - MIT调查报告显示企业在生成式AI上已花费300至400亿美元,但95%的公司未能获得商业回报[29] - 超过80%的组织已探索或试点ChatGPT和Copilot等工具,近40%完成部署,但主要提升个人生产力而非损益表现[29] - 企业级AI系统被悄然弃用,60%的组织进行评估但仅5%投入实际生产[29] 企业AI应用现状与误区 - 仅5%的企业在工作流程中大规模集成AI工具,9大行业中有7个未出现真正结构性变化[30] - 企业对AI采用极为积极,90%已认真考虑购买AI解决方案[30] - 阻碍AI发展的最大原因是工具缺乏学习能力,难以与企业现有系统集成[30] - 内部开发AI工具的失败率是其他方式的两倍[30] - 超过90%的员工定期使用个人AI工具处理工作任务,几乎每位员工都在某种程度上使用LLM[31] - 出现求职者用ChatGPT写申请,HR用AI阅读申请,但无人被录用的现象[31]
LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉
机器之心· 2025-10-12 12:05
JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为 CISPA 教授张阳 。 引言 回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「 答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「 我不会」,却在 后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解 决问题的关键要点时,其得分才较高。老师给分的依据, 在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式 。 可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判 断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。 为了克服这一难题,来自 CISPA 亥姆霍兹信息安全中心、西安交通大学和 Flexera 的 研究人员提出了一个 抓住关键点的通用的越狱评估框架 —— J ...
Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录
机器之心· 2025-10-12 12:05
机器之心报道 编辑:张倩 扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同, DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。 然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。例如,直接训练 DLM 需要在有限的数据集上进行更多 次迭代,才能超越直接训练的 AR 模型。此外,AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。 为了克服这些难点,来自 Radical Numerics(一个新的 AI 初创)的研究团队选择了另一条路: 在现有自回归模型的基础上进行改造,让它具备扩散语言模型的能 力 。 技术报告:Training Diffusion Language Models at Scale using Autoregressive Models 他们刚刚发布的 RND1-Base(Radical Nume ...
RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异
机器之心· 2025-10-12 10:41
研究背景与核心问题 - 视觉-语言-动作大模型面临关键挑战:当前主流的有监督微调训练方式在遇到新环境或任务时容易出错,难以实现类人般的泛化能力 [2] - 研究核心问题:探索强化学习能为VLA带来哪些独特的泛化优势,并与有监督微调进行系统性对比 [2] - 清华大学研究团队在NeurIPS 2025发表文章,首次系统性揭示强化学习在提升VLA泛化能力上的独特优势 [2] 研究方法与实验设计 - 研究团队构建了涵盖多种视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在提升模型泛化性上的表现 [4] - 采用目前SoTA之一的开源OpenVLA模型为基础进行研究,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂行动 [7] - 测试三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [9] 强化学习方法比较结果 - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [11] - PPO优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态,这种非平稳性可能破坏了GRPO的优势估计稳定性 [11] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [11] 高效PPO训练方案 - 共享Actor-Critic架构设计:让Actor和Critic共享同一个主干网络,仅在最后添加轻量级MLP作为价值头,显存占用减少45%,训练速度提升35% [13] - VLA模型预热策略:使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需环境交互次数 [15] - 最小化PPO训练轮次:将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [15] SFT与RL性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和,无论是训练分布内还是分布外新物体/桌面的性能都达到上限 [18] - 强化学习在收敛时训练分布内任务性能与有监督微调相当,但在分布外任务上取得42.6%的性能提升,展现出更强的泛化性 [19] - 基于ManiSkill仿真器构建全面评测基准,从视觉、语义和执行三个维度系统地对泛化能力进行拆解 [21] 泛化能力具体表现 - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [23] - 在执行鲁棒性方面大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,强化学习都展现出显著更强的适应能力 [23] - 在视觉泛化上,两种方法表现相当 [23] 深层差异与影响 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [26] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [26] - 执行轨迹分布差异:强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围 [26] - 强化学习在构建真正通用的具身智能体中具有核心价值,能够通过试错学习、自主适应新环境的能力在复杂多变的应用场景中愈发重要 [25]
曾拒15亿美金,超级天才Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创
机器之心· 2025-10-12 10:41
曾豪拒扎克伯格15亿美元薪酬,最终还是选择重返Meta,是钱的事儿吗? 扎克伯格今年的挖角动作不断。 在今年八月,扎克伯格最具有戏剧性的挖角动作:向 OpenAI 前首席技术官 Mira Murati 创立的公司 Thinking Machines Lab 下手,开出了非常高的价码但都惨遭拒 绝。 当时我们曾报道过这一 「钞能力失效」事件 ,提及 Meta 其中的一份挖人报价多年总额超过了 10 亿美元,掀起了全网讨论热潮。 机器之心报道 机器之心编辑部 根据当时部分媒体的报道以及网络上的讨论,直接锁定了这份报价的主角: Andrew Tulloch。 更加戏剧化的是,他 最终还是没能 拒绝扎 克伯格 。 就在刚刚,华尔街日报独家爆料, Thinking Machine Labs 联合创始人 Andrew Tulloch 离职将加入 Meta。 他于周五在一条信息中向员工宣布了他的离职。Thinking Machine Labs 的发言人向华尔街日报证实了 Tulloch 的离职,并表示他「因个人原因决定走不同的道 路」。 Andrew Tulloch 于 2011 年毕业于悉尼大学,主修数学,是当年理学院 ...
从组件到系统,Agent 的 Evaluation 怎么做?
机器之心· 2025-10-12 09:27
Agent评估范式的演进与挑战 - Agentic AI的兴起将AI系统重心从被动生成文本的大语言模型转向能够自主规划、行动并与数字世界交互的AI Agent,拓宽了AI的应用边界[3] - 相比评估LLM,Agent评估的目标是衡量完整自主系统在动态环境中实现特定目标的端到端成功率、可靠性和效率,其最终表现是架构、LLM、工具及环境交互后涌现的综合属性[5][6] - Agent评估焦点从模型本身转移到模型与环境交互产生的实际效果,必须考察其完整行为过程而不仅仅是单一文本输出质量,传统面向LLM的评估方法无法直接沿用[7] 各代AI评估范式差异 - LLM评估代际的代表性工作包括MMLU、GLUE、TruthfulQA,评估目标为生成能力、零/少试泛化能力,但无法衡量行动能力且知识静态、易被污染[10] - 初代Agent评估的代表性工作包括GAIA、AgentBench、WebArena,评估目标为多步推理、工具熟练度、客观答案,但环境为“只读”、缺乏对动态性和状态变化的感知,无法评估时间敏感性任务[10] - 新一代Agent评估的代表性工作包括GAIA2、MCP-Universe、mcpmark,评估目标为动态/异步环境、状态化交互、通过MCP连接真实工具,但缺乏对长程任务、工具泛化、多智能体协作及效率、安全与成本综合考量等方面的评估[10] Agent评估的技术发展现状 - 业界愈发关注好的Agent评估方法,并涌现了GAIA系列、MCP-universe、MCPMark、MCP-AgentBench等工作[8] - 归因于数据泄露和模型能力快速提升,LLM基准正以越来越快速度被LLMs解决到接近人类水平,甚至无法继续用于验证LLM能力[11] - Agent核心价值体现于它能“做什么”,其定义以自主性、规划和与环境互动实现目标的能力展开,因此面向Agent的评估范式必须能够衡量这些以行动为导向的核心能力[11]