Workflow
机器之心
icon
搜索文档
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
机器之心· 2025-10-14 07:56
对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。 来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法,将独立的链式采样改造为智能体步骤级的树搜索。该方法通过共享前缀、一次扩展 多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。 在 11 个知识密集型、网络搜索问答任务数据集中,Tree-GRPO 在多种模型规模上 更省预算、更高表现 ,显著优于链式 RL 方法,甚至能在 1/4 预算的情况下超越 GRPO 基线,为 Agentic RL 的高效训练提供了新的解决思路。 论文标题:Tree Search for LLM Agent Reinforcement Learning 以「智能体步骤」为节点进行树搜索 树方法相较链方法的区别与优势 论文地址: https://arxiv.org/abs/2509.2 ...
CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?
机器之心· 2025-10-13 17:24
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 01. 帧间一致性不足,CoF 为视频生成和理解模型带来新思路? CoT 只是「语言的表层叙事」,而非真正的推理?CoF 如何把「语言的思维链」转译为「视频的帧链」?... 02 . 帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键? CoF 为何被认为可能成为视频生成模型的「新范式」,它相较传统帧间一致性优化方法的优势如何?从 CoF-Data 到 VChain,研究者如何把「推理链」嵌进每一帧画面?... 03 . CoF 前,视频帧间一致性如何保障? 在 CoF 出现之前,视频模型靠什么维系「帧间一致性」?... 引言 : 延长 CoT 曾在语言模型中显著提升了推理能力,但显式多步推理耗费 token 多、时间长,在高频实时响应的 C 端 agentic 场景中难以满足需求。同时随着 CoT 在提高 语言模型推理能力上的红利逐步释放后,研究者开始尝试将这一思路延伸到视觉领域:CoF(Chain-of-Frames)提供了一种潜在的帧链推理框架,有望进一步改善视频生成 与理解中的帧间一致性 ...
推理速度10倍提升,蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
机器之心· 2025-10-13 17:24
技术突破与性能表现 - 蚂蚁集团开源业界首个高性能扩散语言模型推理框架dInfer,在基准测试中将dLLM推理速度相比Fast-dLLM提升10倍以上[2] - dInfer在关键的单批次推理场景下,作为首个开源框架实现大幅超越高度优化的自回归模型的性能里程碑,在HumanEval上达到1011 tokens/秒的吞吐量[2] - 在与Fast-dLLM对比中,dInfer平均推理速度实现10.7倍提升(681 TPS vs 63.6 TPS),与AR模型Qwen2.5-3B相比,平均推理速度是其2.5倍(681 TPS vs 277 TPS)[29] 技术挑战与解决方案 - 传统自回归生成范式存在固有瓶颈,生成过程依赖前序结果,必须逐词串行生成,导致推理延时难以降低[6] - dLLM高效推理面临三大核心挑战:高昂的多步迭代计算成本、KV缓存技术因双向注意力机制失效、并行解码易引发语义错配[7][12] - dInfer通过四大核心模块(模型接入、KV缓存管理器、扩散迭代管理器、解码策略)集成针对性解决方案,采用模块化与可扩展性设计[9][11][13] 核心优化技术细节 - 采用邻近KV缓存刷新策略,基于语义局部性原理选择性重新计算区块及邻近区域KV,在计算开销和生成质量间取得平衡[15][16][17] - 进行系统优化,包括多卡并行(效率提升超100%)、编译优化(效率提升200%)、循环展开消除迭代间气泡(性能提升5-10%)、早停机制(减少5-40%不必要开销)[18][19] - 提出层级解码与信用解码算法,层级解码以近似对数级复杂度完成多点并行生成,信用解码通过累积信用机制避免冗余计算[18][19] - 引入迭代平滑算法,回收未解码位置信息,使单次迭代解码token数量平均提升30-40%[18][20] 行业影响与生态建设 - dInfer标志着扩散语言模型从理论可行迈向实践高效的关键一步,为开发者提供即刻可用的高效推理框架[3][26] - 该框架支持多种扩散语言模型,并率先支持基于轨迹蒸馏加速去噪过程的LLaDA-MoE-TD模型,推理性能更强[9][20] - 公司希望dInfer成为研究者的标准平台和开发者的加速引擎,邀请全球开发者共建下一代AI推理新生态[28][30]
改变强化学习范式,Meta新作呼应Sutton「经验时代」预言
机器之心· 2025-10-13 14:37
机器之心报道 编辑:张倩、泽南 然而,在许多环境中,基于经验数据使用强化学习来训练智能体仍然面临挑战。一方面,这些环境往往缺乏可验证或密集的奖励信号 —— 尤其是在开放式场景中 (例如网页环境通常不会返回明确的任务反馈);另一方面,智能体可能需要在长时间跨度内进行低效的探索与泛化,例如跨多轮的工具使用或复杂交互流程。 目前大多数语言智能体采用监督微调(SFT)从专家示范中学习,以避免依赖奖励信号。虽然这种方法训练高效,但缺乏环境交互,无法从失败中学习或主动探 索,同时对高质量专家数据依赖强、成本高、泛化性有限。因此,一个关键问题浮出水面: 如何让智能体在没有外部奖励的情况下,从自身经验中学习成长? 上周末,一篇来自 META 超级智能实验室(MSL)、FAIR、俄亥俄州立大学的研究为该问题提供了一种解法。 他们创新性地尝试使用一种介于模仿学习与强化学习之间的中间范式来解决上述问题,它被称为「早期经验」:智能体不仅从人工整理的数据中学习,还从自身 在环境中执行动作后产生的未来状态中学习。这些未来状态代表着智能体的「自身经验」,可以被转化为监督信号,使其能 够直接从行动后果中成 长,而无需依 赖外部奖励。 在这个 ...
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
机器之心· 2025-10-13 14:37
LLaVA 用低成本对齐打通「 视觉编码器 + 大语言模型」起步,LLaVA‑1.5 以更大更干净的数据与高分辨率输入强化理解,LLaVA‑NeXT 拓展 OCR / 数理与多场景 任务;随后分支为 LLaVA‑NeXT‑Video 处理时序视频、多帧推理,及 LLaVA-NeXT-Interleave 支持交替多图文与跨图联推;最终在 LLaVA‑OneVision 汇聚为统一接 口,覆盖图像 / 文档 / 图表 / 多图 / 视频,兼顾效果与效率。 LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「 看图 — 理解 — 对话 」的多模态能力在开放生态中得以普及,明显缩小了 与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。 尽管多模态对齐的接口与架构趋于收敛,真正「 可复现 」的开源路径仍与「 仅开放权重 」存在间距。Qwen2.5‑VL、InternVL3.5 在 OCR、文档理解、数理与跨图 推理上树立高基线,但完整的数据清单、清洗与混合比例,以及对齐 / 采样与训练日程多为部分披露,难以端到端重现。Molmo 以更干净的数据流水线与精细化 设计,在多项评测 ...
NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建
机器之心· 2025-10-13 12:21
技术突破与核心创新 - 提出一种名为GeoSVR的全新显式几何优化框架,旨在解决表面重建中高精度、几何清晰和细节丰富的难题 [2] - 该方法核心在于驯服稀疏体素,通过两大设计克服现有技术瓶颈:解决初始化依赖问题、模糊边界问题以及外部先验难以融合的问题 [4] - 框架基于稀疏体素表达SVRaster,系统化地引入了几何约束与表面正则化设计,确保在高效的同时生成几何精确的表面 [7] 核心技术:几何约束与正则化 - 引入体素不确定性深度约束,通过层级感知的几何不确定性建模,将外部深度损失与不确定性结合,在几何歧义处借助外部信号校正,在可信区域保持体素自身学习 [8][9][10] - 提出稀疏体素表面正则化,包含三种互补策略:体素暂退以迫使模型利用更少体素保持全局一致性;表面修正以强制渲染表面与体素密度边界对齐;体素尺度惩罚以抑制过大体素对几何的错误主导 [14][16][17][18][19][21][22] - 不确定性推导思想可能为其他相关方法提供技术启发,体现了其潜在的技术外溢价值 [11] 性能表现与效率优势 - 在DTU数据集上,GeoSVR的Chamfer距离均值为0.47,显著超越以往SOTA方法,如Geo-NeuS(0.51)、PGSR(0.52)等,显示出更高的几何精度 [23][24] - 训练时间仅需0.8小时,远快于隐式方法Geo-NeuS(>12小时)和Neuralangelo(>128小时),效率媲美3DGS等显式方法 [23][24] - 在Mip-NeRF 360数据集上,以0.56的F1-score成为目前最高精度方法,并在复杂建筑与低纹理区域保持稳定重建,在新视角合成上保持与3DGS相当的高保真度 [25][27][28] 应用前景与行业意义 - 该技术为机器人感知、自动驾驶、数字孪生、虚拟现实等应用提供了三维环境构建及数字资产支持,展示了稀疏体素支撑高质量表面重建的新可能 [32] - 未来研究方向包括进一步增加场景重建规模与复杂光路条件的支持,预示着其在处理更复杂现实场景方面的潜力 [33]
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本
机器之心· 2025-10-13 12:21
MoE模型推理挑战 - 现有主流MoE推理框架扩展性差,要求使用大规模同步通信组部署模型,一次性占用大量GPU资源,导致弹性资源伸缩困难,资源供给无法按用户流量精细调整,造成浪费[2] - 传统MoE推理容错性低,采用全局紧耦合架构,各GPU间通过All-to-All等大规模集体通信协同工作,任意节点故障可能导致整个服务集群重启,缺乏容错能力[3] - 负载不均问题突出,MoE专家调用动态稀疏,激活分布随工作负载波动,固定专家映射和资源分配策略难以适应,导致部分GPU过载而其他闲置,资源利用低下[4] EaaS架构创新 - 提出专家即服务架构,将每个专家拆分为独立无状态服务模块,专家不维护会话状态,仅根据请求计算输出,使模型由许多可独立扩展服务组成,支持精细扩展,初始部署可小至16块GPU起步,支持一次增减一块GPU匹配负载需求[7] - 实现Attention层与专家层解耦,二者通过高效通信机制衔接,减少全局同步点,Attention端可异步等待专家结果并处理下一批次计算,提升流水线利用率,且Attention和专家可独立扩展[10] - 研发高性能异步通信库IBGDA,基于InfiniBand GPUDirect Async技术,实现GPU直连网络通信,完全绕过CPU参与,支持单边RDMA操作和灵活缓冲管理,突破NCCL等通信库需整组同步的限制,结合CUDA graph实现CPU-free数据传输[14] - 引入动态负载均衡策略,当监测到某个专家请求频率过高时可动态增添实例分摊流量,对冷门专家减少实例以节省资源[14] 系统性能优势 - 在扩展能力实验中,随GPU节点从32增加到64,EaaS总吞吐量几乎按比例提升,支持任意数量GPU部署组合,打破传统架构对GPU数量整除比要求,实验显示可实现同等性能下最高约37.5%的GPU资源节省[18] - 容错性卓越,模拟故障场景中随机失效GPU节点时,EaaS几乎不中断完成请求处理,吞吐量仅略微下降不到2%,而传统方案任一节点故障都会使整个组停止服务[20] - 实现高吞吐与低延迟兼顾,端到端推理吞吐量与现有最优系统相当,响应延迟稳定,每个token平均生成延迟维持在较低水平,在吞吐-延迟权衡上达到优秀平衡[22] - EaaS通信库通过IBGDA高效通信模式与CPU-free结构支持的CUDA graph带来kernel launch开销overlap,最多将延迟降低49.6%[24] 应用前景 - EaaS细粒度资源调配能力使云服务商可根据实时负载弹性调整MoE模型算力分配,以更低成本提供稳定可靠推理服务,非常契合云计算环境下的多租户和持续交付需求[25] - 服务化架构具有良好的可运营和可演化特性,模块化专家服务便于独立升级维护,通信调度组件可逐步优化迭代,使系统能随模型规模和应用需求变化不断演进[25]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
机器之心· 2025-10-13 12:21
文章核心观点 - Meta公司据信发布了其“Segment Anything”系列模型的最新迭代SAM 3,该模型被定义为“可提示概念分割”,能够根据简单的名词短语或图像范例,在图像或视频中识别并分割出所有指定概念的实例,实现了从手动提示到概念理解的重大升级 [1][3][8][12] 技术进展与定义 - SAM 3的核心任务是“可提示概念分割”,其输入可以是文本(如“红苹果”)和/或图像范例,输出为每个匹配对象的实例掩码和语义掩码,并在视频中保持对象身份一致性 [8] - 与前代产品相比,SAM 3解决了更广泛的任务,即自动找出并分割输入内容中某一概念的所有实例,而SAM 1和SAM 2的重点在于视觉提示(如点、框),文本提示功能未被完全开发 [9][10] - 该模型专注于识别原子视觉概念,将输入文本限制为简单的名词短语,实现了扎根于视觉的极简语言理解 [8] 性能表现 - 在论文提出的新基准SA-Co上,SAM 3的性能比之前系统提升至少2倍,并在多个公开基准测试中达到SOTA水平,例如在LVIS数据集上,其零样本掩码平均精度达到47.0,超越之前最佳纪录38.5 [13] - 模型处理效率高,在单个H200 GPU上处理一张包含超过100个物体的图像仅需30毫秒 [14] - 在小样本自适应设置下,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型如gDino [30] 模型架构与数据 - SAM 3采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块结合可应用于视频领域 [20] - 研究构建了可扩展的人机协同数据引擎用于标注,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集 [21] - 为PCS任务创建了SA-Co基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上 [25] 实验成果 - 在开放词汇SA-Co/Gold数据集上,SAM 3的CGF分数是最强基线OWLv2的两倍,在其他SA-Co子集上的提升更高 [28] - 在物体计数任务中,SAM 3实现了良好的准确率,其平均绝对误差在CountBench上为0.11,准确率达95.6%,并提供了大多数多模态大模型无法提供的对象分割功能 [33] - 在视频分割任务中,SAM 3的表现远超基线,在SA-V基准上CGF1达到27.8,pHOTA达到53.9,在大多数基准测试中比SAM 2有显著改进 [34][35][36]
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
机器之心· 2025-10-13 12:21
大模型在天文奥赛中的卓越表现 - 大型语言模型在国际天文学和天体物理学奥林匹克竞赛中取得金牌级别的成绩,展示了其在复杂科学推理方面的强大能力 [4][5] - GPT-5和Gemini 2.5 Pro两大模型在IOAA基准测试中表现最为突出 [4][12] 评测框架与方法论 - 研究选择IOAA试题作为基准,因其具备更高的生态有效性,能考查复杂推理、创新性问题求解以及多步推导能力 [9][10] - 评估涵盖理论问题(共49个)和数据分析问题(共8个),排除了观测部分 [10] - IOAA题目覆盖广泛的天文主题,包括宇宙学、球面三角、恒星天体物理等,保证了评测的全面性 [10] 理论考试表现 - GPT-5在理论考试中的总体平均得分为84.2% ± 6.1%,Gemini 2.5 Pro为85.6% ± 8.0% [12] - GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)的理论考试中取得最高分 [13] - 模型在物理/数学类问题上的表现(准确率67-91%)明显优于几何/空间类问题(准确率49-78%) [24][26] 数据分析考试表现 - GPT-5在数据分析部分的平均得分为88.5% ± 12.6%,高于其理论考试表现 [12][16] - GPT-5在数据分析考试中展现出更强的多模态理解能力,尤其在图像解析和绘图推理方面错误率显著更低 [16] 与人类参赛者的对比 - 大多数大型语言模型的表现超过IOAA金牌门槛,GPT-5在2022、2023与2025年的表现优于当届最佳学生 [17][18] - 在2025年理论考试中,GPT-5得分相对于中位数的比例为443%,排名第一 [19] - 在2023年数据分析考试中,GPT-5得分为100%,相对于中位数的比例为250%,排名第一 [21] 错误分析与能力局限 - 最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷 [26] - 几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和3D可视化方面尤其吃力 [26] - 在数据分析考试中,主要的故障模式包括绘图和图表/图像阅读,计算错误也比理论考试中更常见 [26]
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
机器之心· 2025-10-12 16:02
文章核心观点 - 谷歌提出名为ReasoningBank的创新记忆框架,使智能体无需微调即可通过闭环经验学习实现自我提升 [1] - 该技术通过从成功和失败经验中提炼结构化记忆项,指导智能体决策,在多项基准测试中展现出显著的有效性和效率优势 [1][11] 技术框架与核心组件 - ReasoningBank框架包含记忆结构、智能体集成、记忆感知的测试时扩展三大关键组件 [5][7][8] - 记忆项采用结构化设计,包含标题、描述和内容三部分,兼具人类可理解性和机器可用性 [7] - 智能体集成过程分为记忆检索、记忆构建、记忆整合三个步骤 [7] - 记忆感知的测试时扩展包含并行扩展和顺序扩展两种互补实现方式 [8][9] 方法论创新 - 采用经验深度扩展策略,通过深入探索单一任务而非增加任务广度来提升智能体能力 [3] - 记忆感知的测试时扩展通过生成多样化探索提供对比信号,使ReasoningBank能合成更具普遍性的记忆 [3][8] - 在记忆与测试时扩展之间建立正反馈循环,高质量记忆引导扩展路径,丰富经验进一步锤炼更强记忆 [3] 实验性能表现 - 在WebArena测试中,ReasoningBank使Gemini-2.5-pro模型成功率从46.7%提升至53.9%,交互步骤从8.8减少至7.4 [12] - 在Mind2Web测试中,Gemini-2.5-pro模型的解决率从54.0%提升至57.4%,步骤从21.1减少至19.8 [13] - 在跨任务、跨网站、跨领域测试中,ReasoningBank均展现出最佳性能,成功率最高提升达34.2%,效率提升16.0% [11][14] - 并行扩展和顺序扩展均能有效提升性能,与ReasoningBank协同效果最好 [14][15]