强化学习(RL)
搜索文档
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升
36氪· 2026-02-27 10:33
研究背景与核心贡献 - 研究团队提出了首个将强化学习(RL)系统性引入文本到3D自回归生成的方法,该工作已被CVPR 2026接收[1] - 核心贡献在于为3D生成领域建立了一套系统性研究框架,包括奖励设计、算法选择、评测基准和训练范式,而非简单移植2D经验[1][17] 3D生成的核心挑战与问题拆解 - 3D生成比2D更难,核心矛盾在于3D对象没有“标准视角”,需要从多视角评估几何一致性、纹理质感与语义对齐[3][5] - 3D生成模型在自回归解码时存在长程依赖,导致奖励信号稀疏性问题比2D更突出[5] - 研究团队将问题拆解为四个维度进行系统研究:奖励模型设计、RL算法选择、评测基准构建以及训练范式升级[5] 奖励模型设计与核心发现 - 奖励模型的选择至关重要,研究发现人类偏好分数(HPS v2.1)是效果最强的单一奖励,直接决定了模型生成质量的下限[6] - 语义对齐(CLIP Score)和美学质量单独使用提升有限,但叠加在人类偏好之上可形成互补,持续提升效果[6] - 通用大模型(如Qwen2.5-VL)在评估3D一致性上比专用模型更鲁棒,因其对空间关系有更广泛的理解[6] - 实践意义在于,应以人类偏好为核心,并叠加几何一致性与语义对齐的多维度奖励集成,而非寻找“万能奖励”[6] RL算法对比与关键选择 - 研究系统对比了GRPO、DAPO、GSPO三类RL算法[8] - 核心洞察是3D生成天然适合Token级优化,序列级操作收益有限[7][12] - Token级Loss平均化(DAPO的核心改进)带来最显著提升,因为3D物体的全局结构差异体现在每个token中[12] - 序列级操作(GSPO思路)在3D生成上收益极小,因为关键信号被淹没在大量中性token中[12] - 动态采样(Dynamic Sampling)是一项低成本高收益的技巧,能显著稳定训练曲线[12] - 完全去掉KL惩罚会导致性能下降,KL散度在3D生成中仍起到重要的正则化作用[12] 训练数据与过拟合 - 训练数据翻倍是有效的,但迭代轮数翻三倍会导致过拟合,模型开始在偏好特征上死记硬背,对少见物体类别的泛化能力下降[8] - 这表明在3D生成的RL训练中,数据多样性比训练时长更重要[8] 评测基准的局限性与新基准提出 - 现有3D生成基准(如ShapeNet、Toys4K)主要关注对象多样性,无法衡量模型在复杂文本描述下的隐式推理能力[9][10] - 研究团队提出了MME-3DR基准,包含249个精心筛选的复杂3D对象,评测维度覆盖多视角几何一致性、语义细节对齐、纹理真实感三个层次[10] - MME-3DR专门用于衡量模型在推理密集场景下的生成表现,能有效区分生成能力与泛化推理能力[10] 分层训练范式:Hi-GRPO - 核心洞察是3D生成内在是分层的(先粗后细),RL范式也应分层设计[14] - 研究观察到模型在早期迭代先学会全局几何形状,后期才细化纹理细节,这与人类感知方式一致[16] - 受此启发,研究提出了Hi-GRPO(层次化GRPO)框架,分为粗粒度阶段和细粒度阶段[16] - 粗粒度阶段:通过Chain-of-Thought生成高层语义推理,产出粗糙几何形状,奖励聚焦几何一致性与整体结构[16] - 细粒度阶段:基于粗粒度输出生成低层视觉推理,产出精细纹理细节,奖励聚焦外观质量与部件完整性[16] - 两阶段使用独立的奖励集成,避免了几何奖励与纹理奖励互相干扰[16] 最终模型性能与量化成果 - 最终模型AR3D-R1在MME-3DR和Toys4K两个基准上均超越了Trellis等现有SOTA方法[13][18] - CLIP分数从22.7提升至29.3,提升幅度约29%,语义对齐能力大幅提升[18] - 核分布距离(Kernel Distance)下降约37%,几何分布更接近真实3D物体[18] - 推理能力的提升在复杂文本描述场景下尤为突出[18] 总结与行业意义 - 研究结论是:RL已准备好用于文本到3D生成,但前提是需要为3D任务量身定制奖励、算法和训练范式,不能简单照搬2D经验[17] - 随着RL技术在语言和图像领域持续成熟,这套方法论的价值将超越3D生成本身,为更广泛的多模态生成任务的RL化提供可复用的思路[17] - 相关论文和代码已开源[20][21]
ICLR 2026 Workshop二轮征稿开启:聚焦终身智能体的学习、对齐、演化
机器之心· 2026-02-05 15:52
人工智能行业技术范式演进 - 人工智能正在进入以LLM、强化学习和具身智能为核心的AI Agent新阶段,展现出规划、推理、工具调用和自主决策等多维能力[2] - 当前主流范式存在关键瓶颈,若要AI Agent成为开放世界的可靠长期助手,需迈向“终身智能体”,使其具备持续学习、长期对齐、自主进化、资源可感知和可持续部署的能力[2] - “终身智能体”被视为智能范式的升级,目标是构建长期稳定、自主对齐、可持续成长、面向科学发现、跨模态交互且可复现部署的真实世界系统,是Agent研究的“Next Frontier”[11] 终身智能体面临的核心挑战 - 面对动态任务和分布外任务时,模型存在灾难性遗忘问题[4] - 当用户目标、环境反馈和上下文约束随时间变化时,Agent的对齐一致性会下降[4] - 真实世界长期运行受到算力、token、能源和交互成本的约束,导致系统可持续性不足[4] 行业学术研讨会概览 - 在ICLR 2026会议期间,由UIUC、Edinburgh、Oxford、Princeton等机构共同发起“Lifelong Agent Workshop”[3] - 研讨会旨在打造首个跨领域统一论坛,系统性推动终身智能体研究范式,打通语言智能、强化学习、具身系统、多智能体协作和AI4Science等方向,共同定义Agent发展的下一座技术里程碑[3] - 研讨会预计规模为200–400人现场参会,500–600人线上覆盖,形式为线下与线上实时参与的混合模式[8] 研讨会核心征稿研究方向 - 征稿鼓励跨领域、面向长期运行的Agent研究,特别关注八大主题:持续学习、长期对齐、自主进化、具身终身智能、高效与可持续、多智能体终身系统、科学智能体、终身评估与基准[7][10] - 具体技术方向包括但不限于:记忆增强的强化学习、持续探索、多模态/具身数据流整合、长短期记忆融合、终身学习基准与评估、用户目标变化建模、监督与安全保障、漂移检测与校正、长期价值学习、推理策略自优化、模块/技能自主扩展、多智能体终身协作生态、LLM与小模型协同、不确定性建模、复杂环境下持续运行、资源感知调度、持续多智能体协作/竞争/谈判机制、自主假设生成与实验设计、具身实验室Agent、长期适应性评估、对齐漂移度量等[9][12] 研讨会投稿与参与信息 - 研讨会官网已上线,海报、录播和问答资源将持续开放[6] - 投稿截止日期为2026年2月15日UTC时间,通过OpenReview系统提交[10] - 支持两类论文投稿:完整论文最多9页,短论文字数为2–5页,鼓励最新突破、轻量方法、跟进实验、开源实现、理论洞察和案例分析[10][12] - 本次投稿为非Arxiv性质,欢迎已投稿至ACL及ICML的优秀工作同时投递至本研讨会[10]
Clawdbot 之后,我们离能规模化落地的 Agent 还差什么?
Founder Park· 2026-02-03 20:31
AI Agent规模化落地的核心挑战与破局方向 - 当前AI Agent更多是惊艳的Demo,而非可规模化的产品,离规模化落地尚有距离 [4] - Agent需要成为可持续工作的系统,而非仅能跑通单次任务,这要求跨越工程鸿沟,死磕稳定性、高吞吐量、成本控制、精确状态管理等硬指标 [5] 成本与数据:单位经济模型(UE)的不可持续性 - Agent系统的可持续性最终需回归单位经济模型,若创造价值无法覆盖消耗成本,则在商业上不可持续 [8] - 当前Agent门槛主要存在于数据与设施,在SFT模式下依赖人类专家标注数据成本高昂 [9] - 在GUI Agent等高门槛任务中,雇佣高水平人力(如985高校高年级博士生)标注一条数据需耗费20分钟,高昂成本限制了数据规模,有团队仅标注200多个任务 [9][10] - 这种依赖堆砌专家人力换取智能提升的模式被喻为“用黄金盖平房”,在复杂Agent场景下不可持续 [11] - 行业需转向强化学习(RL),让Agent在虚拟环境中自我试错与博弈,将数据成本从“按人头算”变为“按算力算”,实现边际成本下降 [11] - 传统工业级RL训练依赖庞大算力集群,如经优化的流程仍需16张显卡(8卡采样、8卡训练)及大量CPU资源,对中小企业和学术团队是不菲开销 [12] - 若无法通过RL实现数据自我生成,Agent商业模式会被高昂人力成本锁死 [13] - 破局关键在于构建高仿真环境,让Agent通过自主探索产生海量交互数据,再通过设计有效奖励信号,用RL训练出更强策略 [14] 训练效率:算力与环境的严重不匹配 - Agent训练面临悖论:光速的GPU算力配上了龟速的操作系统 [16] - 在GUI Agent场景下,执行一个动作(如在虚拟机点击Excel按钮)需经历“虚拟机渲染→截屏→图像回传→视觉模型处理”的漫长链路,完成一个Step交互甚至需30秒以上 [17][18] - 极高延迟导致计算资源极度浪费,传统紧耦合RL架构中,GPU更新模型时环境在等待,环境采样数据时GPU在空转,时空错配与互相阻塞导致极低计算利用率 [18][19] - GUI Agent面临像素级动作空间,理论上可在屏幕任意坐标点击或拖拽,动作空间接近无限,导致奖励极为稀疏 [20] - 例如“将Excel内容打印为PDF”任务,Agent需连续执行几十个步骤,中间步骤无反馈,只有最后一步得到结果,形成“长程视野+稀疏反馈+无限空间”的充满摩擦的环境 [20] - 创业公司必须投入资源构建仿真训练环境,这比单纯购买H100显卡更考验团队技术沉淀 [21] 基础设施:重构以解决过重、过贵、过慢问题 - 解决环境问题需从横向扩展与纵向轻量化两个维度进行基础设施重构,核心答案是解耦 [22] - **横向解耦**:打破采样与训练的同步锁,例如Dart框架将采样端与训练端物理彻底分开 [23] - 采样端利用Kubernetes并行启动上百个Docker容器作为环境,持续生产轨迹数据,数据通过基于MySQL的轨迹管理器异步调度输送给训练端 [24] - 此设计虽引入Off-policy挑战,需数据筛选机制平衡,但收益巨大:消除GPU等待环境反馈的空转时间,实现5.5倍的环境利用率提升 [25] - 这意味着Agent基础设施需具备处理异步数据流能力,将训练过程转变为持续流动、高吞吐的流水线 [26] - **纵向解耦**:降低算力门槛,针对现有工业级框架(如Verl, OpenRLHF)代码量大、模块耦合严重、对资源受限团队门槛高的问题 [28] - 轻量化解耦思路是开发模块化框架,将算法逻辑、模型架构与分布式引擎分离,采用RL-Centric设计理念 [29] - 研究者可像搭积木一样通过插件化配置自由组合GAE、GRPO、PPO等算法组件,大幅降低处理底层分布式的负担 [29] - 通过CPU Offload技术实现显存复用,推理采样时将训练参数卸载至CPU,优化更新时再加载回GPU,显著降低硬件门槛 [30] - 技术细节背后逻辑一致:需为AI Agent配备更轻量、模块化的中间件,让中小团队也能玩得起Agent训练,这正是基础设施领域的创业机会 [33][34] 状态管理:超越长上下文的记忆与推理 - 算力和环境之外,另一核心问题是状态管理 [35] - Transformer架构缺乏可读写存储器,无法显式存储或更新中间推理状态,也无循环或递归机制 [36] - 在处理复杂软件开发或长程逻辑推理时,此缺陷致命,模型易出现推理链路断裂或逻辑漂移 [37][38] - 学术界与工业界正尝试从架构底层修补,如Mamba等状态空间模型、Linear Attention机制、Stack机制等,试图通过更高效的状态压缩与传递机制赋予模型原生状态推演能力 [39][40] - 另一思路是改变推理载体,当前大多数Agent依赖自然语言进行思维链推理,但自然语言在精确计算和状态追踪上有局限 [41] - 一种思路是让模型学会用代码思考,代码天然具备变量、函数和逻辑流,比自然语言更适合精确的状态管理 [42] - 工程落地常见误区是把长上下文等同于“记忆”,但单纯拉长上下文窗口既不经济也不实用 [44] - 实际场景中,记忆被划分为用户侧记忆(记录用户偏好和基本信息)和执行侧记忆(Agent自我进化关键,需记住“上次如何完成任务”的执行轨迹和经验教训) [44] - 当再次遇到类似任务,Agent应能复用成功路径或规避踩过的坑,而非从零开始 [45] - 在记忆架构上,一种思路是将其设计为文件系统式的分层存储,当Agent需要回顾时执行读取文件操作,而非在上下文窗口中大海捞针 [45] - 对于系统而言,“记忆”本质应是能像计算机一样精确管理每个变量的周期与状态 [46] - 对于企业级应用,客户不在乎上下文窗口多长,而在乎AI能否记住“上次说过什么”及“公司业务规则”,解决健忘问题是Agent从玩具走向企业级员工的入场券 [46][47] 行业趋势与投资信号 - 护城河正从“单点模型能力”向“系统整合能力”扩展,随着开源模型能力快速逼近,未来赢家不一定是模型最强的团队,而是能通过优秀基础设施架构、低成本数据闭环和高效记忆管理最大化释放模型能力的团队,工程化能力正成为新差异化来源 [49] - Agent基础设施是被低估的洼地,卖铲子的逻辑变了 [50] - 为让Agent真正落地,需要全新的、专门为Agent设计的基础设施,如异步训练框架、解耦的采样环境和向量化记忆文件系统等Agent原生基础设施 [52] - 目前Agent开发栈依然非常原始,谁能为其开发者提供好用的“IDE”、“调试器”和“虚拟训练场”,谁就有机会成为AI 2.0时代的Databricks或Snowflake [52] - 随着GUI等复杂场景出现,人工标注成本已不可持续,未来数据壁垒将不再是爬取更多互联网文本,而是谁能构建更逼真的仿真环境,让Agent在其中自我博弈、自我进化,通过RL产生的高质量合成数据将是下一阶段最稀缺资源 [53]
当世界模型、VLA和强化学习三者结合起来,能取得什么惊艳效果?
具身智能之心· 2026-01-15 08:32
行业技术背景与挑战 - 视觉-语言-动作模型在通用机器人操作任务中展现出强劲潜力 但其对专家演示数据的依赖使其难以从失败中学习并实现自我修正 [2] - 强化学习通过与物理环境的自主交互可实现模型自我提升 能弥补VLA模型的缺陷 但直接应用于真实机器人时面临样本复杂度极高的问题 [2] WMPO方法的核心创新 - WMPO是一种基于世界模型的策略优化方法 构建了一套无需与真实环境交互的在线策略VLA强化学习框架 [3] - 与主流的潜态世界模型不同 WMPO聚焦于基于像素的预测任务 使“想象”轨迹与经大规模网络图像预训练的VLA特征保持对齐 [3] - 该方法支持策略执行在线策略GRPO优化 相比常用的离线策略方法性能更优 [3] WMPO方法的实验优势 - 在仿真环境与真实机器人场景的大量实验表明 WMPO能显著提升样本效率 [3] - 该方法能实现更优的整体性能 [3] - 该方法能涌现出自我修正等创新行为 [3] - 该方法具备稳健的泛化能力与终身学习能力 [3]
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
机器之心· 2026-01-13 12:08
文章核心观点 华为研究团队推出的SWE-Lego是一个仅基于监督微调(SFT)的软件工程代码智能体解决方案,旨在解决复杂软件工程任务训练成本高、高质量数据稀缺的挑战[4][9] 该方法无需复杂的强化学习(RL)流程,通过在数据构建、训练方法和测试策略三方面的创新,在SWE-bench Verified基准测试中取得了同等规模开源模型的SOTA性能,甚至超越部分更大规模闭源模型[2][5] 混合数据集构建 - 采用真实世界数据与合成数据互补的混合构建策略,共包含32,119个高质量任务实例和18,110个验证轨迹(其中14,110个完全解决,4,000个半解决),覆盖3,251个代码仓库[14][24] - 真实数据来自严格筛选的GitHub Pull Requests,提供贴近生产环境的复杂性和真实性,但数量有限且成本较高[14] - 合成数据通过AST转换和LLM重写在真实代码库中故意注入Bug生成,具有可扩展、成本低、可共享沙箱的优势,但复杂度相对较低[15] - 通过严格的轨迹验证流程确保数据质量,包括防止Git历史泄露导致的解决方案泄露、处理工具调用错误、精简工具集以及过滤低质量轨迹[20][21][22] - 实验表明,混合数据集是性能提升的最大驱动力,为SWE-Lego-Qwen3-32B模型贡献了+25.6%的性能提升[13][25] 改进的监督微调 - 引入步骤级错误掩码技术,在保持完整轨迹上下文的同时,仅对正确的步骤计算损失,避免模型学习专家轨迹中的中间错误步骤[26][28] - 采用基于轨迹交互轮数的课程学习策略,将数据按难度分为简单(0-50轮)、中等(50-70轮)、困难(70-100轮)三个等级,并分阶段进行训练[29] - 改进的SFT方法(错误掩码+课程学习)为SWE-Lego-Qwen3-32B模型带来了+3.8%的性能提升[13] - 经过改进的SFT训练后,SWE-Lego-Qwen3-8B和32B模型在SWE-bench Verified上的解决率分别达到42.2%和52.6%[5][33] 测试时扩展策略 - 测试时扩展(TTS)可在不重新训练的情况下,通过分配额外测试阶段计算资源提升模型性能,为SWE-Lego-Qwen3-32B模型贡献了+6.2%的提升[13] - 策略包含两个正交维度:串行扩展(增加最大交互轮次)与并行扩展(生成多个候选轨迹并选优)[34] - 在有限测试预算下,应优先进行串行扩展至性能饱和(约100-140轮),再将剩余资源分配给并行扩展[34][37] - 在并行扩展中,比较了生成式与回归式两种打分器,生成式打分器在候选轨迹数量(K值)增加时表现更优且持续改进,而回归式打分器易趋于饱和[37][38][39] - 使用生成式打分器的SWE-Lego-Verifier-8B在TTS@16设置下达到49.6%的解决率,超越了OpenHands-Critic-32B(44.0%)和R2E-Gym-Verifier-14B(47.0%)[40] 性能成果与行业意义 - SWE-Lego在SWE-bench Verified基准测试中,基于Qwen3系列模型微调后,其8B和32B版本分别达到42.2%和52.6%的解决率,取得了同等规模开源模型的SOTA水平[5][8] - 该方法证明了仅使用轻量级的SFT方法,无需复杂RL流程,也能在软件工程任务上达到顶尖性能,降低了训练成本与复杂度,对中小团队更具可行性[2][43] - 项目已全面开源,包括代码、模型和全部数据,可供行业直接获取和使用[2] 未来展望 - 未来工作将探索更大模型与更多数据的组合,并将方法扩展到Python之外的其他编程语言及其他类型的代码任务[43] - 计划处理企业级的长序列、多文件复杂任务,并将SWE-Lego应用到真实的软件开发流程中[43]
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 08:32
文章核心观点 文章通过多位行业专家的圆桌讨论,深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势,核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术,但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - **SPO算法被Pi0.6引用**:张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法,这标志着其工作获得了业界重要认可[3] - **RL的核心价值在于利用“不完美”数据**:Pi0.6提出了一个重要观点,即基座模型预训练的数据质量因领域而异,在自动驾驶和具身智能中,大量采集的数据可能只有约1%到10%是“完美”可用的[4][5],RL的价值函数可以对行为进行评分,从而将大量原本被丢弃的非完美数据利用起来,这对于数据稀缺的具身智能领域至关重要[5][6] - **RL与模仿学习的协同范式**:当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型,再用强化学习进行最后的性能提升,即跑“最后一公里”[3][20],模仿学习能高效地将模型提升到一定水平(如80分),而强化学习则能通过探索跳出局部最优,从长程任务结果上进行优化,两者结合是合理路径[20] RL for VLA的框架与工具发展 - **现有工具无法满足需求**:在探索RL与VLA结合时,发现缺乏能够支撑大规模研究的专用框架,现有框架多为大语言模型推理设计,无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - **Rlinf框架的诞生与目标**:为填补工具空白,一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架,其设计目标是全面支持VLA+RL,涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11],该框架的开发投入巨大,仅算力成本就可能达到千万级别[10][11] - **框架开发强调代码质量与扩展性**:开发团队对代码质量要求极高,为了支持目前已涵盖的近十种主流仿真器,正在进行大规模重构以优化环境接口,确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - **仿真真实性是核心瓶颈**:目前没有仿真引擎能达到与真实世界一模一样的程度,人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟,这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - **3DGS技术有望缩小视觉鸿沟**:3D Gaussian Splatting作为一种3D重建技术,其生成的结果人眼难以分辨真假,因此被视为连接真实与仿真的有力工具[23][24],它已首次被与RL结合用于操作任务,其显式表征相比神经辐射场更具调控优势[23][24] - **多技术路径探索sim2real**:除了3DGS,行业也在探索其他技术来促进迁移,包括利用文生3D/图生3D技术进行场景生成与重建[21],使用双目传感器作为仿真与真实环境的适配器[22],以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - **局部运动控制已广泛应用RL**:在双足机器人的局部运动控制层面,强化学习相比传统规则方法优势明显,在鲁棒性和最终效果上都更好,且sim2real迁移相对容易[18] - **VLA层面RL应用仍处探索期**:尽管认可RL的潜力,但一些团队在VLA层面尚未大规模部署RL,主要原因包括缺乏效果得到验证的sim2real仿真器,以及当前优先专注于打好视觉动作模型的基础[19][20] - **任务类型影响sim2real难度**:导航类任务不主动改变物理环境,其sim2real的挑战与自动驾驶类似;而操作类任务因需与物理环境交互,其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - **从单任务优化到多任务泛化**:当前RL for VLA的研究多集中于提高单一任务的成功率上限,未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识,实现更泛化的、多任务的强化学习[30] - **具身智能是高度综合的系统工程**:具身智能的发展需要感知、决策、控制等各个模块的技术共同推进,任何一个模块的短板都会导致系统级表现的不足,因此需要计算机视觉、机器人学等多领域贡献最新技术[25]
大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?
硬AI· 2025-12-24 16:10
文章核心观点 - 知名科技博主Dwarkesh Patel提出,当前AI行业过度依赖基于可验证奖励的强化学习路径,通过耗费巨资为模型“预制”特定技能,这恰恰证明当前大模型缺乏人类般的通用学习能力,距离真正的通用人工智能仍很遥远 [2][3][4] - 通往AGI的真正关键驱动力在于“持续学习”能力,即模型能够像人类一样从经验和反馈中自主学习,而非依赖预先排练好的脚本,这一能力的完善可能需要5到10年甚至更长时间 [4][9][29] 对当前AI发展路径的批判 - **技能预制的悖论**:顶尖AI实验室正耗费数十亿美元,通过强化学习在模型中“预烘焙”或“预制”如操作Excel、浏览网页等特定技能,这种做法本身与AGI应具备的通用学习能力相矛盾,暴露了当前模型的根本缺陷 [3][5][11] - **机器人学问题的本质**:机器人技术普及的障碍本质上是算法问题而非硬件问题,如果拥有类人的学习能力,机器人早应普及,而无需在特定环境下进行百万次重复训练 [6][13] - **经济扩散迟缓的根源**:以“技术扩散需要时间”来解释AI未广泛部署是托词,根本原因在于模型缺乏产生广泛经济价值所必需的能力,如果模型真具备类人智能,其整合速度将远超人类员工 [7][19][20] AGI实现的关键瓶颈与未来展望 - **持续学习是关键瓶颈**:AGI的真正瓶颈在于“持续学习”能力,而非单纯的强化学习算力堆叠,真正的类人智能可能需要未来10到20年才能实现 [9][18] - **能力与市场收入的落差**:全球知识工作者每年创造数十万亿美元价值,而当前AI模型的收入与之相差数个数量级,这证明模型能力尚未达到替代人类知识工作者的临界点 [8][22] - **持续学习将渐进式发展**:解决持续学习问题不会是一蹴而就的单一成就,而会是一个渐进过程,类似于“上下文学习”能力的逐步演进,预计人类水平的“在岗学习”能力可能需要5到10年才能解决 [4][27][29] 对行业竞争与研发趋势的观察 - **强化学习扩展的悲观前景**:有分析指出,基于可验证奖励的强化学习可能需要在大约100万倍的总计算规模上进行扩展,才能获得类似于单一GPT级别的性能提升,这表明该路径的扩展效率可能很低 [25][26] - **行业竞争保持激烈**:模型公司之间的竞争预计将保持相当激烈,此前所谓的飞轮效应在拉开竞争差距方面收效甚微,单个实验室难以获得失控的领先优势 [30]
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 08:25
行业技术趋势:VLA与强化学习(RL)的深度融合 - 当前视觉-语言-动作模型在真实世界应用中面临挑战,仅依赖模仿学习的VLA在分布外场景中表现脆弱,缺乏失败恢复、自主探索与闭环纠错能力 [2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示其在分布外任务上的性能提升可达42.6% [2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善 [2] 代表性研究方向与工作 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,例如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练 [2][5] - **离线强化学习优化**:多个工作专注于通过离线RL对VLA进行后训练,以平衡信号与方差,并提升效率,例如CO-RFT采用分块离线强化学习进行高效微调 [5] - **策略优化与泛化增强**:研究通过强化学习放大机器人视觉-语言操作能力,并探索RL为VLA泛化带来的实际效益,有工作对此进行了实证研究 [5][13] 关键工具与框架发展 - **RLinf框架**:由行业专家推动的Rlinf工具,支持的方法越来越多,为VLA+RL训练提供了一个统一且高效的框架 [2][11] - **多样化训练方法**:行业出现了多种微调与后训练方法,包括使用世界模型作为虚拟环境、基于反射的任务适应、以及结合人类在环的双行动者微调等 [8][10][12] 近期(2025年)重要研究成果列举 - **2025年11月**:发布了NORA-1.5、pi0.6、WMPO、RobustVLA、World-Env等多篇重要论文,涉及世界模型策略优化、鲁棒性后训练等方向 [5][6][8][9] - **2025年10月**:推出了DeepThinkVLA以增强模型推理能力,以及多个基于流匹配策略的强化学习微调工作 [9][10][11] - **2025年9月**:研究包括自改进的具身基础模型、VLA-Critic模型用于机器人现实世界强化学习,以及简单的VLA-RL扩展训练 [11][12] - **2025年5月至6月**:工作聚焦于强化学习恢复压缩模型、轨迹组策略优化,并实证研究RL对VLA泛化的作用 [13][14] - **2025年1月至3月**:研究方向包括通过在线RL改进VLA、大规模RL微调实现卓越的机器人策略,以及VLA的安全对齐 [16][17][18]
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 11:43
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-行动模型在真实世界分布外场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐渐完善[2] 代表性研究方法与框架 - 基于世界模型的在线方案是活跃方向,例如使用世界模型和基于行动的偏好奖励进行训练的NORA-1.5模型[2][5] - 离线强化学习被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调[5] - 工具方面,Rlinf等框架支持的方法越来越多,为VLA+RL训练提供了统一高效的平台[2][11] 近期重要研究成果(2025年) - 2025年11月,NORA-1.5、pi0.6、GR-RL、WMPO、RobustVLA、World-Env、ProphRL等多个工作取得惊艳效果[2][5][8][9] - 2025年10月,DeepThinkVLA、Self-Improving VLA with Data Generation via Residual RL、RLinf-VLA、VLA-RFT等工作发布,专注于增强推理能力、自我改进与在模拟器中的验证奖励微调[8][9][10][11] - 2025年9月及之前,CO-RFT、ReinboT、VLA-Critic、Self-Improving Embodied Foundation Models、Dual-Actor Fine-Tuning、SimpleVLA-RL等工作陆续被会议收录,涉及分块离线强化学习、策略提炼、人机交互等多种方法[5][10][11][12] 早期与中期关键工作(2023-2024年) - 2023年10月,Q-Transformer通过自回归Q函数实现了可扩展的离线强化学习,为后续研究奠定基础[8][9] - 2024年2月,Perceiver Actor-Critic工作发布[7] - 2024年9月至12月,FLaRe、Policy Agnostic RL、RLDG、GRAPE等工作聚焦于大规模强化学习微调、策略无关的RL以及通过偏好对齐实现策略泛化[17][19] 技术细分方向 - **安全与鲁棒性**:例如2025年3月的SafeVLA致力于通过约束学习实现VLA模型的安全对齐[16][19] - **恢复与适应**:例如2025年6月的RLRC专注于基于强化学习的压缩VLA模型恢复,TGRPO通过轨迹组相对策略优化进行微调[13][14] - **实证研究**:例如2025年5月的“What Can RL Bring to VLA Generalization?”对强化学习提升VLA泛化能力进行了实证研究[13][14]
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 18:23
行业技术趋势:VLA与强化学习的融合 - 当前视觉-语言-动作模型在真实世界开放分布场景中表现脆弱,仅依赖模仿学习缺乏失败恢复、自主探索与闭环纠错能力[2] - 强化学习被证明能显著提升VLA模型的泛化能力,实验显示在分布外任务上的性能提升可达42.6%[2] - 2024至2025年间,VLA+RL的研究方向产出大量论文,成为行业活跃领域,技术框架也在逐步完善[2] 代表性研究方法与框架 - **世界模型与在线方案**:基于世界模型的在线系统是活跃方向,如NORA-1.5模型利用世界模型和基于动作的偏好奖励进行训练[2][5] - **离线强化学习**:离线RL方法被广泛用于VLA模型的后期训练,以平衡信号与方差,并实现高效微调,例如CO-RFT方法[5] - **工具与框架**:RLinf等工具框架正在完善,支持的方法越来越多,为VLA+RL训练提供统一高效的平台[2][11] 近期重要研究成果(2025年) - **NORA-1.5**:一种通过世界模型和基于动作的偏好奖励学习的VLA模型[5][6] - **Pi0.6**:推测结合了强化学习技术,取得了惊艳效果[2] - **GR-RL与WholebodyVLA**:近期工作显示出显著效果[2] - **WMPO**:基于世界模型的VLA策略优化方法[8][9] - **RobustVLA**:专注于鲁棒性的VLA强化学习后期训练方法[8][9] - **DeepThinkVLA**:通过增强推理能力来提升VLA模型[8][9] - **Self-Improving VLA**:通过残差RL进行数据生成以实现自我改进的VLA模型[8][9] 技术细分方向 - **后期训练与微调**:多种方法专注于VLA模型的强化学习微调,如VLA-RFT在世界模拟器中使用已验证奖励进行微调[10][11] - **策略优化与泛化**:研究探索RL如何提升VLA泛化能力,并有实证研究[13][14] - **安全与对齐**:研究开始关注VLA模型的安全对齐问题,例如SafeVLA通过约束学习实现安全对齐[16][18] - **数据生成与蒸馏**:通过强化学习进行策略蒸馏和数据生成,以创建通用且强大的机器人策略[17][18]