机器之心
搜索文档
RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异
机器之心· 2025-10-12 10:41
研究背景与核心问题 - 视觉-语言-动作大模型面临关键挑战:当前主流的有监督微调训练方式在遇到新环境或任务时容易出错,难以实现类人般的泛化能力 [2] - 研究核心问题:探索强化学习能为VLA带来哪些独特的泛化优势,并与有监督微调进行系统性对比 [2] - 清华大学研究团队在NeurIPS 2025发表文章,首次系统性揭示强化学习在提升VLA泛化能力上的独特优势 [2] 研究方法与实验设计 - 研究团队构建了涵盖多种视觉、语义和执行挑战的全新评测基准,系统对比强化学习和有监督微调在提升模型泛化性上的表现 [4] - 采用目前SoTA之一的开源OpenVLA模型为基础进行研究,该模型从Llama2-7b微调而来,接收RGB图像和指令,输出离散动作token控制机械臂行动 [7] - 测试三种在大语言模型领域广受认可的强化学习算法:PPO、DPO和GRPO [9] 强化学习方法比较结果 - 在机器人控制这一多步决策任务中,经典的PPO算法展现出显著优势,而专为语言模型设计的DPO和GRPO难以高效学习 [11] - PPO优势源于机器人任务的部分可观测马尔可夫决策过程特性,每个动作都会改变环境状态,这种非平稳性可能破坏了GRPO的优势估计稳定性 [11] - DPO面临的挑战在于稀疏奖励结构难以区分轨迹质量,以及离线数据与在线执行之间存在显著的分布偏移 [11] 高效PPO训练方案 - 共享Actor-Critic架构设计:让Actor和Critic共享同一个主干网络,仅在最后添加轻量级MLP作为价值头,显存占用减少45%,训练速度提升35% [13] - VLA模型预热策略:使用140条高质量轨迹对模型进行预热,让后续的强化学习收敛速度提升50%,大幅减少所需环境交互次数 [15] - 最小化PPO训练轮次:将PPO训练轮次设为1就已足够,更多更新轮次无法提升性能反而增加训练时间,整个训练过程在单张A100 GPU上仅需42小时即可收敛 [15] SFT与RL性能对比 - 有监督微调在演示轨迹数量达到16,000条时性能趋于饱和,无论是训练分布内还是分布外新物体/桌面的性能都达到上限 [18] - 强化学习在收敛时训练分布内任务性能与有监督微调相当,但在分布外任务上取得42.6%的性能提升,展现出更强的泛化性 [19] - 基于ManiSkill仿真器构建全面评测基准,从视觉、语义和执行三个维度系统地对泛化能力进行拆解 [21] 泛化能力具体表现 - 强化学习在语义理解任务上表现出明显优势,特别是在处理未见物体的抓取任务时 [23] - 在执行鲁棒性方面大幅领先,无论是物体位置变化、机器人初始姿态偏移,还是任务执行中途的物体移位,强化学习都展现出显著更强的适应能力 [23] - 在视觉泛化上,两种方法表现相当 [23] 深层差异与影响 - 在强噪声干扰下,有监督微调策略会在抓取物体后反复掉落,而强化学习策略能够稳定完成任务 [26] - 面对未见物体时,有监督微调容易陷入重复尝试抓取已持有物体的死循环,强化学习则能正确判断并完成放置 [26] - 执行轨迹分布差异:强化学习探索了更广阔的工作空间和更丰富的末端执行器姿态,而有监督微调的轨迹紧密聚集在演示数据的运动规划路径周围 [26] - 强化学习在构建真正通用的具身智能体中具有核心价值,能够通过试错学习、自主适应新环境的能力在复杂多变的应用场景中愈发重要 [25]
曾拒15亿美金,超级天才Andrew Tulloch重返Meta,Thinking Machines Lab痛失联创
机器之心· 2025-10-12 10:41
曾豪拒扎克伯格15亿美元薪酬,最终还是选择重返Meta,是钱的事儿吗? 扎克伯格今年的挖角动作不断。 在今年八月,扎克伯格最具有戏剧性的挖角动作:向 OpenAI 前首席技术官 Mira Murati 创立的公司 Thinking Machines Lab 下手,开出了非常高的价码但都惨遭拒 绝。 当时我们曾报道过这一 「钞能力失效」事件 ,提及 Meta 其中的一份挖人报价多年总额超过了 10 亿美元,掀起了全网讨论热潮。 机器之心报道 机器之心编辑部 根据当时部分媒体的报道以及网络上的讨论,直接锁定了这份报价的主角: Andrew Tulloch。 更加戏剧化的是,他 最终还是没能 拒绝扎 克伯格 。 就在刚刚,华尔街日报独家爆料, Thinking Machine Labs 联合创始人 Andrew Tulloch 离职将加入 Meta。 他于周五在一条信息中向员工宣布了他的离职。Thinking Machine Labs 的发言人向华尔街日报证实了 Tulloch 的离职,并表示他「因个人原因决定走不同的道 路」。 Andrew Tulloch 于 2011 年毕业于悉尼大学,主修数学,是当年理学院 ...
从组件到系统,Agent 的 Evaluation 怎么做?
机器之心· 2025-10-12 09:27
Agent评估范式的演进与挑战 - Agentic AI的兴起将AI系统重心从被动生成文本的大语言模型转向能够自主规划、行动并与数字世界交互的AI Agent,拓宽了AI的应用边界[3] - 相比评估LLM,Agent评估的目标是衡量完整自主系统在动态环境中实现特定目标的端到端成功率、可靠性和效率,其最终表现是架构、LLM、工具及环境交互后涌现的综合属性[5][6] - Agent评估焦点从模型本身转移到模型与环境交互产生的实际效果,必须考察其完整行为过程而不仅仅是单一文本输出质量,传统面向LLM的评估方法无法直接沿用[7] 各代AI评估范式差异 - LLM评估代际的代表性工作包括MMLU、GLUE、TruthfulQA,评估目标为生成能力、零/少试泛化能力,但无法衡量行动能力且知识静态、易被污染[10] - 初代Agent评估的代表性工作包括GAIA、AgentBench、WebArena,评估目标为多步推理、工具熟练度、客观答案,但环境为“只读”、缺乏对动态性和状态变化的感知,无法评估时间敏感性任务[10] - 新一代Agent评估的代表性工作包括GAIA2、MCP-Universe、mcpmark,评估目标为动态/异步环境、状态化交互、通过MCP连接真实工具,但缺乏对长程任务、工具泛化、多智能体协作及效率、安全与成本综合考量等方面的评估[10] Agent评估的技术发展现状 - 业界愈发关注好的Agent评估方法,并涌现了GAIA系列、MCP-universe、MCPMark、MCP-AgentBench等工作[8] - 归因于数据泄露和模型能力快速提升,LLM基准正以越来越快速度被LLMs解决到接近人类水平,甚至无法继续用于验证LLM能力[11] - Agent核心价值体现于它能“做什么”,其定义以自主性、规划和与环境互动实现目标的能力展开,因此面向Agent的评估范式必须能够衡量这些以行动为导向的核心能力[11]
风波再起,OpenAI被指通过警方向AI监管倡导者施压,马斯克锐评其「建立在谎言之上」
机器之心· 2025-10-11 16:06
事件概述 - OpenAI因反对加州AI监管法案SB 53,向法案推动者、非营利组织Encode的律师Nathan Calvin发出传票,并由副警长上门送达[1][2] - 传票要求Calvin提供与加州立法者、大学生和前OpenAI员工的私人信息,OpenAI质疑Encode由竞争对手埃隆・马斯克资助[2][4] - 此事件是OpenAI反诉埃隆・马斯克的一部分,OpenAI指控马斯克为个人商业利益而损害公司[4][7] 加州SB 53法案内容 - 法案全称为加州参议院第53号法案,即人工智能透明度法案,于2024年9月30日生效[3] - 核心条款强制大型AI开发者公开框架文件,说明如何将标准及最佳实践融入AI系统,并需在30天内更新安全协议内容及理由[3] - 该法案由仅有三名全职员工的小型人工智能治理非营利组织Encode推动制定[3] 相关方立场与行动 - Nathan Calvin连发15条推文抗议,认为OpenAI是以起诉马斯克为借口,达到恐吓批评者的目的,并强调马斯克未参与或资助Encode[4] - 人工智能监督组织Midas Project的创始人也表示收到OpenAI类似传票,被要求提供所有曾就重组事宜与公司沟通的记者、国会办公室等名单[5] - OpenAI首席战略官Jason Kwon回应称,调查是因其怀疑Encode与对OpenAI怀有商业竞争利益的第三方机构存在合作[7] - 埃隆・马斯克发文评价“OpenAI建立在谎言之上”[8] 历史背景 - 2024年8月,100多位AI领域资深专家、前OpenAI团队成员等联合签署公开信,呼吁OpenAI提高透明度,Encode是参与组织之一[4] - 2024年4月,OpenAI对埃隆・马斯克提起反诉,要求其停止攻击和“虚假收购要约”[4]
NeurIPS 2025 Spotlight | PhysX-3D:面向真实物理世界的3D资产生成范式
机器之心· 2025-10-11 16:06
研究背景与动机 - 3D资产在游戏、机器人和具身模拟等领域应用广泛,但现有生成方法主要关注几何结构与纹理,忽略了物理属性建模[8] - 现实世界物体具有丰富的物理和语义特性,包括物理尺度、材料、可供性、运动学信息和文本描述,这些属性与经典物理原理结合可推导出动态指标[8] - 物理属性难以测量且标注耗时,导致现有相关数据集数据量难以扩展,存在关键空白[11] PhysXNet数据集 - 提出首个系统性标注的物理基础3D数据集PhysXNet,包含超过26,000个带有丰富注释的3D物体,涵盖五个核心维度:物理尺度、材料、可供性、运动学信息和文本描述[6] - 除了物体层级注释,还对每个零部件进行物理属性标注,包括可供性排名和运动学约束的详细参数[9] - 引入扩展版本PhysXNet-XL,包含超过600万个通过程序化生成并带有物理注释的3D对象[9] - 采用人在回路的标注流程,利用GPT-4o获取基础信息并由人工审核员检查,确保数据质量[13] PhysXGen生成框架 - 提出面向真实物理世界的3D生成框架PhysXGen,实现从图像到真实3D资产的生成[6] - 基于预训练的3D表示空间,将物理属性与几何结构和外观相结合,通过联合优化实现物理上的自洽性[18] - 利用物理属性与预定义3D结构空间之间的相关性,在物理属性生成和外观质量方面均取得显著提升[20] 性能评估与对比 - 在四个评估维度上,PhysXGen相比基于GPT的基线方法取得显著优势:物理尺度提升24%、材料提升64%、运动学提升28%、可供性提升72%[23] - 定量结果显示,PhysXGen在PSNR指标上达到24.53,CD指标为12.7,F-Score为77.3,均优于对比方法[21][24] - 在物理属性评估方面,PhysXGen在绝对尺度误差为6.63,材料误差0.141,可供性误差0.372,运动学参数误差0.479,描述误差0.71,全面优于基线方法[21][24] 行业意义与应用前景 - 该研究填补了现有3D资产与真实世界之间的差距,提出端到端的物理基础3D资产生成范式[27] - 数据集和生成框架将吸引来自嵌入式人工智能、机器人学以及3D视觉等多个研究领域的广泛关注[27] - 为3D空间中对物理建模、理解与推理的需求提供了完整的解决方案,从上游数据标注到下游生成建模构建了完整体系[8][27]
首家AIOS落地来自vivo:个人化智能复刻人类思维,手机还能这样用
机器之心· 2025-10-11 12:18
核心观点 - vivo在2025年开发者大会上展示了其全新的端侧AI能力,标志着AI手机从概念走向实用化[6] - 公司战略核心是坚定不移地走“更懂用户的个人化智能”之路,而非单纯的参数竞赛[8] - 通过推出蓝心3B端侧多模态推理大模型及端云协同的模型矩阵,旨在打破API成本高墙,解决AI规模化落地难题[8][9] - 基于对脑科学的研究,vivo模拟人类思维架构构建AI操作系统,通过感知、记忆、规划、执行四大引擎让AI具备理解、思考和行动的能力[18][20] - 公司通过开放端侧AI能力、模型矩阵和统一框架,携手开发者共建生态,愿景是在未来三到五年让超过3亿设备拥有强大的本地AI能力[23][24][31] 模型战略与技术突破 - 提出全新的One Model:蓝心3B端侧多模态推理大模型,作为战略核心[8] - 打造端云协同、端侧部署优先的大模型核心引擎,包含语言、语音、图像、3B端侧多模态推理大模型和个人专属模型五大模型[9] - 蓝心3B模型以30亿参数实现优化,以60%的参数量效果比肩行业最优的4B级纯语言模型,推理速度达200 Token/s[9] - 该模型在多模态权威榜单OpenCompass上实现越级挑战,性能超越一众先进的8B模型[11] - 支持语言及多模态任务深度思考,通过混合推理架构自动切换思考/非思考模式,使复杂推理不再是云端独有技能[13] - 端侧能力提升使多智能体协同工作成为可能,如能看懂屏幕并模拟操作的UI Agent[14] 系统整合与个人化体验 - 大模型能力已融入OS系统底层各个模块,使AI成为无处不在的系统级智能[15] - AI操作系统基于对人类思维架构的模拟,通过感知、记忆、规划、执行四大引擎协同工作[18] - 实时感知涵盖图像、文本、声音等多模态内容识别,记忆是对用户数据行为的存储理解,执行包括调用工具与服务,自主规划可主动思考拆解复杂任务[20] - 通过多智能体协同形成“群体智能”,驱动手机中多个应用分工协作,动态调度规划以完成复杂通用任务[20][21] - 蓝心小V已与多家合作伙伴合作,打造覆盖健康、教育、出行、情感、办公等场景的智能体[21] 开放生态与合作伙伴 - 公司开放强大的端侧AI能力、端云协同模型矩阵、统一开放的Agent框架及与OS深度整合的系统级能力[24] - 开发者构建的新能力最短仅需10分钟即可上架vivo智能体生态,通过平台与蓝心小V的A2A协议发布上线[26] - 展示了与蚂蚁集团旗下AI健康应用AQ的合作成果,AQ升级后在蓝心小V健康流量占比提升三倍[28][29] - AQ具备“医学思维”,通过多轮对话、拍皮肤、识报告等方式分析身体状况,连接全国超5000家医院、近百万医生、超300位名医AI分身[29] - 生态已接入50多家合作伙伴,提供100多种非常识别能力及200多项服务及智能体[25]
读万卷书,大模型就能「看」懂视觉世界?Meta揭秘LLM视觉先验的起源
机器之心· 2025-10-11 12:18
研究核心发现 - 仅通过文本预训练的大语言模型能够学到可迁移到视觉任务的先验能力,该研究通过超过100组受控实验和耗费50万GPU小时完成 [2] - LLM的视觉先验可分解为两种独立能力:推理先验和感知先验 [4] - 推理先验是一种更抽象、跨模态的通用能力,主要通过预训练以推理为中心的数据(如代码、数学、学术论文)获得 [4] - 感知先验侧重于对具体视觉概念的认知(如物体颜色、形状),从广泛、多样的通用语料中弥散式地浮现出来 [6] 实验设计与关键结论 - 实验采用adapter-style多模态适配流程,预训练多种尺度的解码器式LLM(从340M到13B,核心对比以3B/7B模型为主) [9] - 在代码、数学和学术数据上训练的模型,在需要抽象推理的视觉任务上表现最好 [9] - 增加推理密集型文本(如代码)的比例至75%左右,模型的下游视觉推理能力会持续显著提升;而视觉描述文本的效果会迅速饱和,少量即可 [11] - 推理先验是独立于视觉编码器的通用能力,而感知先验更依赖于后期的视觉微调数据和视觉编码器特性 [13] 数据配方与应用前景 - 研究提出一套预训练数据混合配方,通过富含推理内容并配以适量视觉知识的“平衡配方”训练模型 [16][17] - 采用该配方训练的7B模型在语言能力上更优,同时在所有视觉基准测试中实现全面超越:语言困惑度从8.72降至7.49,视觉总体准确率从37.32%提升至38.64% [19] - 该研究将多模态模型能力培养从下游微调提前至语言预训练阶段,为构建更强大的跨模态智能基础铺平道路 [21]
陶哲轩:用了GPT-5 Pro后,小尺度、宏观尺度很赞,中尺度有点垮
机器之心· 2025-10-11 12:18
陶哲轩的AI协作研究过程 - 著名数学家陶哲轩使用ChatGPT-5 Pro挑战一个自己不熟悉的开放问题“曲率有界的球面”,以探索AI在数学研究中的潜力 [1][2] - 该问题涉及在三维欧几里得空间中,若一个光滑沉浸球面的两个主曲率的绝对值都不超过1,其所包围的体积是否至少不小于单位圆球的体积 [7] - 陶哲轩因自身缺乏足够的几何直觉,将主要精力集中在微扰区的研究上,并请AI代为进行相关计算 [8][9] AI在不同研究尺度上的表现 - 在小尺度任务(如具体推导、计算)上,AI表现非常出色,不仅准确计算出所需量,甚至给出了星形情形下的完整证明,并引入了陶哲轩此前未接触过的工具如Minkowski第一积分公式 [9] - 在微扰型椭圆偏微分方程研究中,AI准确推导出若平均曲率足够接近1,则可通过椭圆型强制性估计证明定理成立,并主动指出该结论并非新发现 [10][11] - 在中尺度任务(如策略选择、方向判断)上,AI帮助有限,甚至产生干扰,未能指出陶哲轩的关键性假设错误,反而表现出典型的过度认同行为 [13] - 在宏观尺度(如对整体问题结构和关键困难的把握)上,AI的使用间接有益,帮助陶哲轩更快速地探索、验证并舍弃不合适的思路,加深了对问题难点的理解 [14] 研究的关键发现与结论 - AI在星形情形下给出的证明仅需一行推导即可完成,并揭示标准圆球是唯一的极小化解,当曲面偏离圆球形状时,其所包围的体积反而增大 [10] - 通过MathOverflow上的讨论,陶哲轩发现问题的二维版本早已被解决(Pestov–Ionin定理),并意识到自己直觉有偏差,问题的难点在于理解极端非圆的几何形态而非微小偏差分析 [12] - 陶哲轩总结认为,该问题超出了其现有数学工具箱的能力范围,目前依然是一个开放问题 [14] - 与AI协作在专业领域之外有探索价值,但必须保持谨慎与情境意识,否则易被误导 [17]
Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练新范式
机器之心· 2025-10-11 11:29
Vision-Zero框架核心创新 - 提出专为视觉语言模型设计的自博弈框架Vision-Zero,通过模型与自身副本竞争自动生成高复杂度推理数据,无需人工标注[6] - 框架特点包括策略自博弈、支持任意形式图片输入、以及通过Iterative-SPO算法实现持续性能提升,解决了传统自博弈的性能瓶颈问题[6][7] - 该框架在多个领域如推理和图表问答任务上,即使未使用任何标注数据训练,也超越了其他需要标注的当前最优方法[7] 自博弈机制设计 - 受社交推理游戏“谁是卧底”启发设计自博弈规则,游戏包含n名平民和1名卧底,卧底图片与平民存在细微差异[12][13] - 游戏过程包括线索阶段和决策阶段,迫使智能体生成复杂推理链条,随着对手能力提升,其视觉理解与推理能力被激发增强[14][15] - 游戏仅需两张有细微差异的图片对即可启动,数据构建成本低廉,应用场景广泛,支持合成场景、图表数据和真实世界图片等多种输入[17][18] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization双阶段交替训练算法,通过自博弈和可验证奖励的强化学习交替优化,避免陷入局部平衡和知识饱和[20] - 实验表明交替训练性能明显优于单阶段训练,有效缓解了纯自博弈训练难以探索新推理路径的问题[20] 实验结果与性能表现 - 在六个基准数据集测试中,VisionZero-Qwen-7B模型较基线提升约3%,另一版本提升约2.8%,而最优基线方法仅提升约1.9%[22] - Vision-Zero框架训练的模型有效缓解了跨能力负迁移问题,例如在图表问答任务上,基线模型性能下降约10%,而Vision-Zero模型在视觉任务提升的同时,在图表任务上平均仅下降0.2%[24] - 具体数据显示,VisionZero-Qwen-7B在MathVista得分72.6,在MathVision得分28.1,在WeMath得分39.8,平均表现优于对比基线模型[24] 框架启示与应用潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力,通过构建开放、可扩展的博弈环境摆脱了对人工标注的依赖[26] - 该框架使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化,突破了数据和知识瓶颈[26]
微调已死?Agentic上下文工程登场,无需微调实现模型进化
机器之心· 2025-10-11 11:29
文章核心观点 - 斯坦福大学、SambaNova、UC 伯克利联合团队提出了一项名为主动式上下文工程(ACE)的新技术,该技术通过动态优化输入上下文,使语言模型无需微调也能实现自我提升,有望成为构建高性能、可扩展AI系统的核心范式 [1][4][11] - ACE框架通过“生成-反思-整合”的工作流程,将上下文视为不断演化的结构化“作战手册”,有效解决了现有上下文自适应方法存在的“简约偏置”和“上下文塌缩”两大局限 [5][6][12][16] - 实验结果表明,ACE在智能体任务和金融领域特定任务上均实现了显著的性能提升,同时大幅降低了适应延迟和计算成本,为在线学习与持续学习提供了高效替代方案 [34][40][43][47] 上下文自适应技术背景 - 当代基于大型语言模型的AI系统越来越依赖于上下文自适应,即在模型训练完成后,通过优化输入上下文来提升模型性能,而非直接修改模型参数 [4] - 与参数更新相比,上下文自适应具有可解释性强、能快速整合新知识、可在多个模型间共享等核心优势,长上下文模型和高效推理机制的进展使其更具现实可行性 [4] - 现有方法存在“简约偏置”,即过度追求简洁指令而忽略关键细节策略,以及“上下文塌缩”,即提示词重写会退化为模糊摘要导致性能下降 [5][6] ACE框架核心设计 - ACE框架引入三种协作角色:生成器负责生成推理轨迹,反思器从成功与错误中蒸馏具体洞见,整编器将这些洞见整合进结构化的上下文更新 [13][16] - 核心设计理念是将上下文表示为结构化的条目集合,每个条目包含唯一标识符、“有用/有害”计数器等元数据,以及可复用策略、领域概念等内容 [18][19][31] - 采用增量式Delta更新机制,只对相关条目进行局部化更新,避免了整体重写的高计算成本,并通过Grow-and-Refine过程维持上下文的动态可扩展性与高相关性 [20][21][25] 实验性能表现 - 在智能体任务(AppWorld基准)上,ACE在无需标注数据的情况下,仅凭执行反馈就使平均性能提升高达17.1%,使开源小模型的表现接近最强商用系统 [34][35] - 在金融领域特定任务(FiNER与Formula数据集)上,ACE通过构建含丰富领域知识的“作战手册”,平均性能提升12.8%,其中Formula任务的性能提升达到18.0% [40][41] - 通过增量更新与轻量化合并机制,ACE使适应延迟平均降低86.9%,其中在线适应场景的延迟降低91.5%,令牌成本降低83.6% [43][44] 技术影响与前景 - 尽管ACE生成的上下文更长,但现代服务基础设施通过KV缓存复用等机制已对长上下文负载进行优化,实际部署成本不会线性增加,且未来会进一步下降 [46] - ACE为传统模型微调提供了一种灵活高效的替代方案,更新上下文比更新参数成本更低,具备可解释性,并可能实现选择性遗忘,适用于隐私保护和合规需求 [47] - 该技术未来有望成为推动持续学习与负责任学习的核心机制之一,为应对分布漂移和训练数据有限性提供重要方向 [48]