强化学习(RL)
搜索文档
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
量子位· 2025-12-07 17:00
AI大模型竞争焦点转移 - 行业竞争焦点正从预训练和数据红利,转向强化学习(RL),RL正从“锦上添花”变为大模型进化的主战场 [1][2][3] - 证据包括:DeepSeek V3.2的RL训练算力投入已超过预训练的10%,且性能曲线仍在上升;OpenAI的o系列、Claude的推理能力及Gemini的多模态表现背后均有大规模RL支撑 [2][10] 万亿参数RL训练的成本挑战与突破 - 在万亿参数模型上进行全参数RL训练成本极高,需要上千张顶级GPU、训练周期数周,形成资源垄断,绝大多数团队无法负担 [4][11] - Mind Lab团队取得突破,实现了全球首个在1T参数模型上的LoRA高效强化学习训练,将GPU消耗降低90% [5] - 该方案并非简单的工程优化,而是训练范式的根本性转变,相关代码已由NVIDIA Megatron-Bridge和Seed verl官方合并并开源 [6] 技术方案:LoRA RL在万亿参数MoE模型上的实现 - 核心解法:采用LoRA进行参数高效适配,配合专为万亿参数MoE模型设计的混合并行引擎,将RL计算量降至十分之一且性能不打折 [13] - 在Kimi K2模型上的验证显示,仅使用64张NVIDIA H800 GPU即可完成万亿参数RL训练 [14] - 验证取得三项关键成果:1) GPU消耗仅为传统全参数RL的10%左右;2) 训练稳定收敛;3) 在提升特定任务表现的同时,保留了基座模型的通用能力 [18][19][20] 克服MoE架构下的技术难题 - 在MoE架构上应用LoRA RL面临三大挑战:路由不均衡、通信压力爆炸、并行布局复杂 [21][22] - Mind Lab的解决方案是设计了一套混合协同并行引擎,统一调度Tensor、Pipeline、Expert、Sequence四种并行方式,并将并行视为可调度资源 [26] - 针对训练与推理使用不同后端导致的策略不匹配问题,引入了截断重要性采样比率进行显式修正,以控制梯度方差 [29][30] “大先验+小LoRA”策略的经济性优势 - 实验对比了不同规模模型采用全参数RL与LoRA RL的效果,为公平比较,控制了总RL FLOPs、环境交互次数及奖励模型等变量 [36][40] - 使用“headroom-normalized”指标评估,结论显示:32B参数模型配合rank=8的LoRA,在相同RL计算预算下,获得的性能提升比例最大 [37] - 在域外任务GPQA上,32B+LoRA的迁移效果也最好,表明“大先验+小LoRA”策略比“小模型全参数RL”更划算,因为大模型已编码丰富先验知识,RL可在此基础上精修 [38][39] 配套技术创新:Memory Diffusion记忆机制 - Mind Lab提出名为“Memory Diffusion”的新记忆机制,灵感源于人类“智慧地遗忘”,通过“遮蔽-分配-重填”三步动态压缩轨迹记忆 [45][46][47] - 该方法时间复杂度为O(1),不改变模型架构,严格遵守上下文预算 [48] - 在Locomo基准测试上,该机制达到了93%的准确率,刷新了SOTA记录 [49] 研产共设理念与产品化成果 - Mind Lab提出“研产共设”理念,认为真实产品是天然的RL环境,能提供持续、接地气的奖励信号,如用户使用模式、任务完成率等,有助于避免奖励模型被“破解” [50][51][54] - 在前端代码生成任务实验中,使用真实人类反馈训练的奖励模型显著优于仅预训练的模型,基于此的RL也显著优于监督微调 [56] - 技术已落地于Macaron AI产品,使其Mini-app生成速度从20分钟提升至2分钟,速度提升10倍,并上线了新功能 [57] 行业展望与Mind Lab定位 - 行业观点认为,以“算力规模化”为核心的预训练时代正在走向终结,下一个时代将是“经验智能”时代,智能需在真实世界中成长 [58][59][61] - Mind Lab定位为全球首个专门为“后预训练时代”而生的研究实验室,其核心命题是“智能如何在真实世界中成长”,主张下一个时代属于能通过交互不断更新的“心智” [60][61] - 团队核心研究方向包括:1) 基础设施;2) 超越预训练;3) 开放与可复现 [65]
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
36氪· 2025-12-04 10:58
公司战略与文化 - 公司本质上仍然是一家纯AI研究公司,核心目标是构建AGI,产品是研究自然流出的结果 [5][21][124] - 公司拥有约500名核心研究人员,内部同时进行约300个项目,通过每1-2个月梳理项目并分配算力来明确优先级 [5][14][15] - 公司采用自上而下押注方向与自下而上文化并存的研究模式,鼓励来自意想不到地方的好点子,并积极放大有前景的研究线索 [79][97] - 公司坚持开放文化,研究人员之间自由分享想法,认为通过速度压制对手比建立信息隔离更有效 [84] - 公司非常重视人才密度,并有意控制研究团队规模,认为甚至可能少于500人,同时通过管理实验确保高门槛 [129][130][131] - 公司在项目署名上持开放态度,被认为是行业内单位人数上对外部署名与个人功劳最大方的地方之一,旨在认可并打造AI超级明星 [133][134][136] 研究重点与进展 - 过去半年,公司研究重心重新聚焦于预训练,认为预训练领域仍有巨大潜力可挖掘,并对此非常有信心 [5][31][88][89] - 公司在“思考”(Reasoning)方向的研究已取得突破,并投入了巨量资源,该能力现已被广泛认为是不可或缺的 [20][86] - 公司内部已有性能达到Gemini 3的模型,并确定很快会发布,且能发布表现更好的下一代模型 [5][27] - 公司认为扩展定律(Scaling Law)并未失效,将继续扩大模型规模,并已有算法突破支持继续扩展 [89][114][116] - 公司设定了明确的研究目标:一年内让AI成为能提高效率的研究实习生;2.5年内实现AI端到端执行研究流程 [112][113] - 公司观察到AI在数学与科学领域产出实打实的新发现,标志着科研前沿推进发生了剧烈的阶段转变 [100][106] 竞争态势与人才争夺 - AI行业人才竞争激烈,Meta等公司采用激进的招聘策略(如高管亲自送汤),但公司在保护核心人才方面做得相当不错 [5][9] - 公司不会与竞争对手进行报价对标,即使面对远高于自身的报价倍数,许多人才仍因相信公司的研究路线和未来而选择留下 [11] - 公司也从竞争对手处学习激进的招聘方法,并积极争取明星人才,目标是为使命组建最强团队 [80] - 面对竞争对手发布新模型(如Gemini 3),公司会建立内部共识并进行试探,但强调不被竞争动态困住,坚持长期可持续的研究方式 [19][27] - 公司对DeepSeek等开源模型的崛起持冷静态度,认为应坚持自己的研究节奏持续创新,而非被外界叙事干扰 [128] 技术细节与算力需求 - 公司在“探索下一代范式”上投入的算力,比训练最终产物本身还要多 [16] - 公司的算力需求极为旺盛,如果今天多10倍算力,可能几周内就能全部用满,看不到需求放缓的迹象 [5][115] - 构建大型模型深度依赖工程能力,如优化内核速度、确保数值计算稳定等,没有这些则无法扩展到当前使用的GPU数量 [24][25] - 公司在数据效率相关算法上非常强,认为这是相对于竞争对手的一个优势 [116] - 公司在模型对齐与安全研究上投入巨大,特别关注随着模型能力增强可能出现的“谋划”(scheming)倾向,并设计了如不监督思考过程等重要工具来保持观察窗口 [137][140] 产品与未来展望 - 公司正在与Jony Ive合作开发硬件设备,旨在重新思考与AI的交互方式,使其具备更强记忆和持续学习能力 [117][118][119] - 未来的ChatGPT应具备更强的记忆和持续学习能力,能根据历史交互变得更聪明,而非每次重新思考 [118] - 公司推动“OpenAI for Science”计划,目标是打造工具与框架赋能全球科学家,加速诺贝尔奖级别的科学发现,而非仅让公司自身获奖 [101][102] - 公司认为AGI是一个过程而非某个具体完成点,更看重是否在持续产出新的科学知识和推进科学前沿 [99][100] - 公司认为当前正处于下一次工业革命的黄金时刻,变化将非常剧烈 [109][126]
免训练!使用贝叶斯去微调VLM,机器人操作任务取得SOTA!
具身智能之心· 2025-12-03 11:47
核心技术框架 - 提出T²-VLM框架 一种无需训练且具有时序一致性的方法 通过跟踪视觉语言模型推导出的子目标状态变化来生成精确奖励 [2] - 框架首先在每轮交互前查询视觉语言模型以建立空间感知的子目标及初始完成度估计 随后采用贝叶斯跟踪算法利用子目标隐藏状态动态更新目标完成状态 [2] - 该方法为强化学习智能体生成结构化奖励 增强长程决策能力并借助强化学习提升故障恢复性能 [2] 技术优势与性能 - T²-VLM在两个机器人操作基准测试中取得最先进性能 在降低计算消耗的同时展现优异奖励准确性 [2] - 方法在不牺牲视觉语言模型通用泛化能力前提下显著提升其空间理解能力 为真机强化学习训练提供更精确反馈 [5] - 解决预训练数据集缺乏领域特定机器人知识及高昂计算成本阻碍实时应用的问题 [2] 应用场景 - 针对长序列机械臂操作任务中视觉语言模型难以稳定提供准确奖励信号的挑战提出解决方案 [5] - 框架专为机器人操作任务设计 通过时序一致性增强在具身任务如目标分解与视觉理解中的性能 [2]
被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?
机器之心· 2025-11-30 09:30
强化学习后训练中的Rollout环节 - 2025年,强化学习已成为大语言模型后训练的核心技术路径,研究重心从预训练规模竞赛转向后训练能力深化[5][6] - 在RL后训练的“生成-评估-更新”流程中,Rollout环节是影响训练效率和效果的关键因素,也是计算消耗最大的环节[6] - 多项研究发现Rollout环节占据了RL后训练时间的绝大部分:港科大和阿里团队的分析发现其占70%,字节和上海交大的研究证明其占84%-91%[6] - Rollout在LLM语境下特指模型基于当前策略,从某个提示开始生成完整或部分回答序列的过程[7] - Rollout与推理共享自回归生成的核心技术逻辑,但目标不同:推理追求单次生成的准确性与效率,而Rollout旨在为训练提供多样化、有价值的轨迹样本[7] Rollout对训练效果的影响与质量重要性 - Rollout的轨迹质量直接决定RL训练的最终效果,劣质轨迹会导致模型陷入局部最优,优质轨迹则能激活模型的探索能力与推理潜力[8] - 阿里巴巴团队研究发现,在数学推理RL训练中,采用随机采样Rollout的模型,其轨迹与任务目标对齐度仅41%,即使训练步数达到优质轨迹组的2倍,在MATH数据集上的准确率仍低18%[8] - 蚂蚁团队在万亿参数模型的训练中发现,未经过滤的Rollout轨迹会导致梯度计算偏差指数级累积[8] Rollout的计算效率挑战与优化探索 - Rollout环节的计算效率困境,本质是“生成逻辑的串行特性”与“任务分布的长尾特性”之间的根本性矛盾[9] - “长尾延迟”指少量长请求占据多数耗时的分布失衡现象,这导致所有GPU需要等待最慢的请求,大量设备在等待期内处于空闲,产生计算资源“泡沫”[9] - 英伟达的研究者在2025年11月提出了BroRL范式,通过扩展Rollout规模的方式让该环节更具计算与数据效率,能在更短时间内完成更高质量的训练,且扩展上限更高[9] 行业动态与未来展望 - 2026年被提及为大模型可能实现未知“能力拐点”的关键年份,并探讨其能否实现可持续的业务增长[2] - 行业关注AI能否在2026年实现独立工作8小时,以及OpenAI内部开始强调“进入战时状态、不再是默认赢家”的竞争态势[2] - 企业优先的Anthropic被讨论是否会在OpenAI之前实现盈利[2] - Google和Meta投入的巨额资本支出能带来多少“非泡沫”的AI增长成为行业焦点[2] - OpenAI的Sam Altman认为“极速”比“廉价Token”更值钱,专家级用户愿为“毫秒级延迟”而非“低成本Token”买单[2] - “任务连贯性”正在取代“准确率”成为新的评价指标[2] - 在万物互联时代,OpenAI致力于打造一台“断网”也能使用的新计算机[2] - 有观点认为人类精心设计的智能体工作流,反而是阻碍模型智力涌现的最大绊脚石,“Let it figure it out”被视为顶级AI智能体的最终解决方案[2]
读了 40 篇 VLA+RL之后......
具身智能之心· 2025-11-28 08:04
文章核心观点 - 强化学习在视觉语言动作模型领域的应用趋势正从监督微调转向结合强化学习,其核心价值在于提升模型在真实环境中的适应性和任务完成效率[1] - 强化学习在单一任务上已表现出色,当前最大挑战在于实现多任务间的正向迁移,以提升预训练模型的基础性能,这关系到该技术路径的上限[3] - 行业研究重点集中在解决奖励稀疏性、大规模策略网络特性以及多任务学习等关键问题上,这些方向代表了潜在的技术突破点和投资机会[5] 强化学习在VLA中的应用分类与现状 - 强化学习优化方法呈现多样化,包括在线强化学习、离线强化学习、迭代式强化学习及推理时改进等,不同方法在效果上可相互转化[1] - 行业已出现代表性算法案例:What can RL brings to VLA generalization采用在线强化学习,CoRFT采用离线强化学习,pi-star-0.6采用迭代式强化学习,V-GPS采用推理时改进[1] - 强化学习在完成单一复杂任务方面效果显著,例如pi-star-0.6模型仅需约1千条轨迹即可完成叠衣服长程任务[3] 技术部署与基础设施 - 技术部署的核心考量是真实环境的可用性,重点解决安全性与数据采集效率问题,例如SafeVLA项目专注于安全性设计[2] - 模拟环境可能发挥重大价值,存在大规模强化学习预训练的可能性,世界模型与强化学习结合的预训练模式是未来方向[2] - 强化学习基础设施成为关键支撑,RLinf、RLinf-VLA、SimpleVLA-RL等项目在基础设施方面表现突出[2] 多任务学习与技术挑战 - 多任务学习是当前最大技术挑战,目标在于实现任务间正向迁移而非相互干扰,MoRE项目采用混合专家模型应对多任务相互影响问题[3] - 强化学习能否像大语言模型中的RLVR技术那样提升预训练模型基础性能,目前仍不确定,是领域内终极问题[3] - 行业关注多任务学习能否相互促进以及在预训练规模上强化学习能否提供帮助,这些问题的答案将决定技术发展路径[3] 奖励函数设计与技术演进 - 奖励函数或价值函数的必要性存在争议,一方面能降低优化方差,另一方面随着VLA模型性能提升,对密集奖励的需求可能降低[4] - 技术演进参考大语言模型中的GRPO方法已取消批判网络,预示奖励函数设计可能趋向简化[4] - 实际应用中出现两种路径:小奖励函数如SERL中的专用神经网络,大价值函数如VLAC中的视觉语言模型级神经网络[5] 研究方向与课题机会 - 当前主要研究方向包括:奖励稀疏性问题解决方案、大规模策略网络特性研究、多任务学习核心问题[5] - 具体课题机会体现在:DSRL针对扩散模型特性设计强化学习方案,SERL-HIL利用人类干预解决奖励稀疏问题,iRe-VLA专注于稳定性解决方案[5] - 行业已积累大量技术文献,涵盖RIPT-VLA、VLA-RL、pi_RL等30余个关键技术项目,为后续研究提供丰富基础[6]
和Ilya想一块去了,马斯克麾下AI大牛出走,要做“会共情”的AI
搜狐财经· 2025-11-26 18:48
公司融资与估值 - 美国AI创企Humans&正在融资10亿美元,目标估值为40亿美元[2] - 公司创始人埃里克·泽利克曼于2024年9月从马斯克的大模型独角兽xAI离职并创立Humans&[2][12] 创始人背景与成就 - 埃里克·泽利克曼是斯坦福大学符号系统专业荣誉学位毕业生并直博,于2024年暂停学业加入xAI[4] - 在xAI工作期间,其深度参与Grok 2预训练数据构建、主导Grok 3强化学习推理框架并建立Grok 4强化学习基础设施[6] - 其开创性提出STaR算法,这是首个通过自我生成推理链训练语言模型进行自然语言推理的算法[2][8] - 其开发的Parsel框架通过组合分解方法增强语言模型算法推理能力,在复杂编程任务通过率比以往方法高出75%以上[11] - 其学术论文多次荣获ICLR 2022、NeurIPS 2022等顶级会议论文亮点推荐(前8%),并连续获得ACL 2023等最佳审稿人奖项(前1-1.5%)[11] 公司技术理念与发展方向 - 公司认为当前强化学习范式存在不足,模型易固化偏见而非提供新颖见解,重点应转向辅助个体而非取代[2][16] - 公司致力于开发能够学习用户行为并与用户共情的模型,核心目标是理解用户[2][17] - 通过构建理解人群目标、抱负与价值的模型,公司相信能增加解决人类根本问题(如治愈癌症)的可能性[2][17] - 公司认为当前顶尖模型缺乏对人类目标的理解能力,现有训练范式过度聚焦单任务场景且缺乏长期影响考量[16] 行业发展趋势 - AI发展正从工具性走向交互人性化,竞争维度从智商扩展到"情商"[20] - OpenAI在GPT-5.1中提升智能和沟通方式,提供语气控制、性格选项等个性化功能[20] - AI大神伊利亚强调"情绪"等价值函数对模型能力提升的重要性[20] 公司运营现状 - 公司技术团队正在招募,为技术人员提供最低35万美元年薪,办公地为美国旧金山湾区[18]
Ilya重磅发声:Scaling时代终结,自曝不再感受AGI
36氪· 2025-11-26 14:54
当前AI技术路线评估 - 当前模型持续改进但无法实现AGI,现有技术路线后劲不足[3] - 真正可行的AGI系统架构至今尚未掌握构建方法[3] - 模型泛化能力远逊于人类,即使使用所有编程竞赛题目训练仍无法形成真正的解题直觉[3] - 评测结果与现实应用出现明显脱节,评估分数光鲜但实际性能滞后[5][8] - RL训练最终演变为对评估指标的过度优化,真正的奖励机制黑客是设计基准测试的科研人员[3][6] Scaling Law与预训练瓶颈 - 预训练时代已终结,行业正从Scaling时代走向研究时代[1][13][14] - 预训练最大突破是Scaling配方好用,但数据有限总有用光之时[12] - Scaling把行业创新空气吸干,导致公司数量远远多于点子数量[15] - 未来创新将回归小而美实验,类似AlexNet用两张GPU、Transformer用8-64块GPU的模式[16][18] - 已见证从预训练Scaling切换到RL Scaling,但RL非常烧算力且效率低[15] 模型泛化能力与学习机制 - 人类学习能力来自自进化硬编码的价值函数,情绪是决策系统一部分而非噪音[10] - 当前AI的价值函数训练方式脆弱粗糙,还不是内置的[11] - 预训练优势在于数据量大且无需刻意挑选,具有天然高度真实性[8] - RL训练让模型目标变得单一狭隘,削弱全局感知能力[5] - 模型在基础任务上表现不佳,如在修复bug时会反复犯同样错误[5] AGI/ASI发展路径与影响 - ASI可能在5-20年内降临,实现人类级别学习能力后变得超越人类[3][51] - 超级智能不是完成形态心智,而是能够学会做每一项工作的心智[29][30] - 部署将包含通过试错学习时期,是过程而非直接投放最终成品[29] - 一旦实现这种学习算法,可能会迎来一波快速的经济增长[32] - AGI与AI的本质区别在于力量,当力量很大时会发生难以想象的事情[38][40] 行业趋势与安全考量 - 随着AI变得更强大,政府和公众会产生做点什么的愿望,公司将更加充满危机感[43][44] - 竞争激烈的公司开始在AI安全方面合作,OpenAI和Anthropic已迈出第一步[44] - 构建稳健对齐、专门关爱有感知生命的AI比仅关爱人类生命的AI更容易[48][49] - 渐进主义将是任何AGI计划与生俱来的组成部分,逐步发布可分散冲击力[19]
对话陈锴杰:做你的Personal Agent,更要做你的“高情商Agent”|NEXTA创新夜谈
36氪· 2025-11-19 15:33
AI行业范式转变 - AI行业正从依赖增加参数和数据的“规模定律”时代迈向“经验时代”,高质量数据消耗殆尽导致模型智能提升遇到瓶颈[3][4] - 未来智能系统的竞争力将不再由规模参数决定,而是取决于从真实用户经验中持续学习和进化的能力[3][6] - 互联网数据量有限,当前训练数据量级约为14TB,能训练的模型参数量上限约1万亿,主流模型参数量很难超过此上限[4] 经验时代与强化学习核心 - “经验时代”由DeepMind科学家提出,主张用真实产品和用户反馈数据推动模型进步,而非仅依赖预训练[6] - 强化学习通过真实互动提供蕴含因果关系的高质量数据,其信息价值密度远高于被动观看视频[7] - 强化学习的核心优势是目标对齐,能将训练目标与用户价值目标对齐,例如训练写代码或服务用户等真实任务[8] 奖励模型与训练机制 - 奖励模型(Reward Model)作为“教师模型”是关键环节,通过预测用户偏好来判定答案优劣,其本身是万亿参数级别的大模型[9] - Cursor采用“Agent RL”每两小时聚合用户数据迭代模型,使模型智能分从40分提升至60分,并有望超越顶尖模型[8] - 为解决“学生模型”欺骗“教师模型”的Hacking Problem,需在两者投入同级算力使其公平博弈共同进化[10] 马卡龙AI产品战略 - 马卡龙AI定位为“Personal Agent”(个人智能体),上线后用户已创建超过10万个覆盖旅行、健康、理财等场景的个性化小应用[11] - 产品刻意避免社区功能,专注于私密、专属的交流环境,以探讨恋爱、家庭等生活话题[3] - 公司明确产品非工作Agent,不做PPT或深度研究,而是专注“生活记录与规划”领域[13] 记忆系统技术创新 - 记忆系统不依赖传统关键词检索(RAG),而是将记忆内化为模型可训练的“记忆区块”,通过强化学习不断更新[11] - 系统以用户满意度为指标训练带推理能力的Reward Model,模型自主决定记忆内容并动态更新[11][14] - 技术采用蚂蚁集团开源的Text Diffusion技术,可同时生成千字文本并支持直接修改中间内容[12] 产品形态与未来愿景 - 长远愿景是让AI在聊天中交付各种小组件(如外卖卡片)来创造价值,而非仅通过文字回复[15] - 当前因技术限制将小应用生成功能独立为Mini App,未来目标是与对话系统融合[15] - 公司相信未来每个人都会拥有AI生活管家,可能替代手机大部分后排应用,形态包括设闹钟、管理日历、电商下单等[16]
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能
机器之心· 2025-11-13 07:51
研究背景与行业现状 - 2025年初DeepSeek-R1开源后,如何用强化学习训练1.5B级别的小型数学推理模型成为热门研究方向,该领域经历了快速的技术演进[6] - 行业技术发展路径从早期的超参数调优和长度控制,演进到多阶段渐进训练、课程学习以及将rollout数量提升到512次的暴力探索方法[6] - 近期工作普遍采用动态采样、KL重置、自适应惩罚、长度控制等复杂稳定技术和优化技巧,导致整个训练流程变得越来越复杂[7] 清华团队JustRL方法创新 - 采用极简训练配方:使用标准GRPO算法、单阶段训练、固定超参数、常规数学问题集,避免数据筛选和动态采样等复杂技术[11] - 同一套超参数在两个不同起点模型上均有效:弱基座DeepSeek-R1-Distill-Qwen-1.5B和强基座OpenMath-Nemotron-1.5B[11] - 在9个数学推理基准上的全面评测显示,JustRL达到了1.5B模型的最高水平[11] 性能与效率表现 - JustRL-DeepSeek-1.5B在9项基准上平均准确率达到54.87%,超越采用9阶段训练的ProRL-V2的53.08%[13][14] - 计算效率显著提升:总token预算约为1.4E+11,仅为ProRL-V2的一半,为BroRL的五分之一[14] - JustRL-Nemotron-1.5B平均准确率达到64.32%,略微超过使用课程学习的QuestA的63.81%,且不需要额外的数据工程[14] 训练稳定性发现 - 4000步RL训练过程异常平稳:策略熵在1.2-1.4范围内健康震荡,平均奖励从-0.6单调上升到+0.4,响应长度自然压缩到4000-5000 tokens[17] - 训练在32张A800-80GB GPU上进行约15天,工程复杂度和计算开销显著低于多阶段训练方法[15] - 与现有工作报告的训练困难形成鲜明对比,表明在足够简单的配置和充分训练规模下,稳定性问题可能不易发生[19] 技术优化实验启示 - 加入显式长度惩罚反而使性能从55%下降到50%,导致熵值从1.2-1.4降到0.4-0.6,探索空间被过早压缩[21] - 换用更宽松的验证器使性能继续下滑到45%,可能降低了学习信号的细粒度或消除了模型发展鲁棒推理的压力[21] - 消融实验显示技术差异在接近2000步尺度才开始显现,意味着小规模实验结论可能不适用于大规模扩展场景[24] 行业方法论启示 - 技术的价值高度依赖于baseline特性,在稳定baseline上某些"优化"可能适得其反[27] - 建立清晰的简单baseline能更准确地评估复杂技术的价值,应先验证简单方法的极限再决定是否需要复杂度[27] - 行业可能低估了简单方法在充分扩展下的潜力,奥卡姆剃刀原则"如无必要,勿增实体"具有重要参考价值[26][31]
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
机器之心· 2025-11-12 01:11
核心观点 - 联合研究团队推出了基于虚幻引擎的高保真具身智能仿真平台UnrealZoo,旨在解决现有模拟器场景单一、真实性不足的问题,为复杂开放世界中的AI训练提供支持 [2] - 该平台包含超过100个高质量3D场景和66个可自定义操控的实体,提供优化的编程接口和工具链,显著提升了仿真效率与易用性 [5][7][15] - 实验证明环境多样性对智能体泛化能力至关重要,同时揭示了当前基于强化学习和大模型的智能体在复杂3D空间推理中的局限性 [50][55][58] 平台概述与定位 - UnrealZoo是一个基于虚幻引擎UE5开发的高保真虚拟环境集合,包含100余个场景地图和66个可自定义操控的具身实体 [5] - 平台被ICCV 2025接收并入选Highlight Award,本届共有280篇论文入选,占录用论文总数的10% [2] - 旨在弥补现有模拟器如Habitat、AI-Thor和Carla等在场景多样性和开放性方面的短板,推动具身智能体在多变环境中的适应能力发展 [8] 场景与实体多样性 - 平台收录100多个高质量3D场景,涵盖住宅、超市、火车站、工厂、城市、乡村、寺庙及自然景观等多种风格,最大场景达16平方公里 [13][16] - 提供人类、动物、汽车、摩托车、无人机、移动机器人和飞行相机等七种类型共66个实体,各具不同的动作空间和视点 [24] - 与主流虚拟环境相比,UnrealZoo在场景类别、规模、风格和实体多样性方面具有显著优势,支持古代、现代、科幻等多种风格 [12] 技术特性与系统功能 - 运动系统基于Smart Locomotion,支持智能体在复杂三维空间中进行跑步、跳跃、攀爬等基础移动能力 [31] - 内置基于NavMesh的自主导航系统,支持智能路径规划和避障;交互系统支持物体拿放、碰撞、上下车、开关门等丰富物理交互 [33][34][36][38][40] - 支持多智能体之间的合作与对抗交互,为研究社会智能行为如合作、竞争与沟通提供平台 [41] 软件接口与性能优化 - 提供一套易用的Python API和工具(UnrealCV+),包括环境增强、演示收集和分布式训练/测试功能 [15][42] - UnrealCV+优化了渲染管道和通信协议,帧率(FPS)显著提升:物体级分割图性能提升120%,深度图提升86%,多智能体交互(N=10)提升100% [45][46] - 开发基于Gym接口的高级Python API,简化环境交互,使初学者也能轻松使用和定制环境 [44][46] 实验验证与应用潜力 - 视觉导航实验中,在线RL智能体在需要立体空间感知的复杂环境中表现优于GPT-4o,但与人类玩家存在显著差距 [47][50] - 主动视觉跟踪实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其在野外环境中成功率提高明显 [55][58] - 在动态干扰测试中,RL方法在0D、4D、10D干扰设置下均保持较高成功率(0.76/0.68/0.56),显著优于PID、GPT-4o和OpenVLA等方法 [60][61] - 控制频率实验显示,当感知-控制循环频率低于10 FPS时性能显著下降,30 FPS时成功率可达0.92,凸显高效模型的重要性 [62]