Workflow
强化学习
icon
搜索文档
成功率提高57%,VLA+RL最新!CO-RFT:实现VLA模型的高效微调(北航&清华等)
具身智能之心· 2025-08-07 08:03
核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力 但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法 通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练 先通过模仿学习初始化网络 再用离线RL优化策略 在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力 在未见过的位置上达到44 3%成功率 显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习 采用自注意力和因果掩码设计 仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习 第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法 其保守正则化器可防止Q值高估 并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干 并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率 显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率 展示处理复杂场景能力[29] - 数据多样性对性能影响显著 随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题 提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调 大幅降低数据需求 提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证 展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战 包括样本效率 训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路 结合离线RL和动作分块技术突破性能瓶颈[34]
具身智能之心招募科研辅导老师了!学术圈的大佬看过来~
具身智能之心· 2025-08-06 16:30
招募科研辅导老师 - 具身智能方向招募科研辅导老师 旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等 [2] - 要求博士及以上学历 包含在读 需有2篇A会或一区以上期刊/会议 有辅导经验者优先 [3] - 提供行业资源共享 论文署名与现金激励 [4]
大模型下一个飞跃?OpenAI的“新突破”:通用验证器
硬AI· 2025-08-06 00:02
通用验证器技术 - 核心技术为"证明者-验证者游戏"的对抗性训练框架,通过模型间博弈自动化验证答案质量,解决数学、创意写作等主观复杂领域的评估难题 [2][3] - 验证器规模足够小,适合大规模部署,明确"为未来的GPT部署而设计" [6] - 机制类似生成对抗网络(GANs),通过验证者判别倒逼证明者优化输出 [7] 技术来源与背景 - 技术源自OpenAI前"超级对齐"团队,由联合创始人Ilya Sutskever主导成立,团队解散后技术成果被整合至核心产品研发 [9][10] - 相关论文《证明者-验证者游戏提升大语言模型可读性》的6位作者中仅2人仍留任 [10] GPT-5应用与市场影响 - 通用验证器已应用于GPT-5开发,被视为OpenAI保持竞争优势的核心资产 [3][12] - 曾在GPT-4代码辅助功能试点的自我批判系统被正式整合至GPT-5 [12] - CEO Sam Altman称GPT-5"在几乎所有方面都比我们更聪明",加剧市场期待 [12] 技术突破与局限性 - 验证器具备通用性,在软件编程和创意写作等主观领域均展现改进 [14] - 帮助OpenAI模型在国际数学奥林匹克竞赛取得突破性成绩,可验证数学证明的每一步逻辑一致性 [14] - 面临训练数据稀缺、预训练性能收益下降、模型部署后性能衰减等挑战 [14]
OpenAI的“新突破”:通用验证器
虎嗅· 2025-08-05 15:04
在下一代大模型GPT-5备受期待之际,一项名为"通用验证器"的新技术正浮出水面,揭示了OpenAI可能 用于拉开竞争差距的"秘密武器"。 OpenAI的"通用验证器"或将直接影响GPT-5模型的市场竞争力,8月4日据科技媒体The Information援引 知情人士消息报道,这项技术已被应用于GPT-5的开发过程中。 该技术的核心机制,被比作一场"证明者-验证者游戏"。简而言之,它让一个AI模型扮演"验证者"的角 色,去检查和评判另一个"证明者"模型生成的答案。通过这种内部对抗和反馈,系统性地提升模型的输 出质量。这一自动化流程旨在解决强化学习(RL)在创意写作等主观领域或数学证明等复杂领域难以 验证的瓶颈。 OpenAI内部研究人员已在社交平台X上间接证实了相关方法的有效性。研究员Noam Brown表示,这些 技术是"通用的",能让大模型"在难以验证的任务上表现得更好"。这也标志着OpenAI正试图攻克AI商 业化应用中的核心痛点——可信度。 "证明者-验证者"的对抗游戏 "通用验证器"的技术细节,最早在OpenAI于2024年7月发表的一篇题为《证明者-验证者游戏提升大语言 模型可读性》的论文中被阐述 ...
清华叉院教授手把手教你写强化学习
机器之心· 2025-08-05 12:09
分享主题 - 分享主题为清华叉院教授手把手教你写强化学习 [7] 分享内容 - 核心例子为多轮反馈的数学解题(multi-turn math reasoning)[10] - AReaL-lite框架特点包括: a 全异步RL实现极速训练 [10] b 适配各种开源生态 [10] c 用户仅需改动极少文件实现复杂算法 [10] - 手把手教学multi-turn math RL [10] 嘉宾信息 - 吴翼:清华大学交叉信息院助理教授,博士生导师,蚂蚁强化学习实验室AReaL团队首席科学家 [10] - 傅炜:清华大学交叉信息院博士生,字节奖学金得主,AReaL项目核心成员 [10] - 梅知雨:蚂蚁强化学习实验室研究员,清华大学交叉信息院博士,AReaL项目核心成员 [10] 直播信息 - 直播时间为北京时间8月7日19:30-20:30 [8] - 建议准备4卡GPU服务器 [8] - 设有QA环节并可加群交流 [9] 主办方信息 - 机动组聚焦学术研究、工程实践与产业应用 [11] - 不定期组织学术研讨、技术交流与实战分享 [11]
奥特曼:ChatGPT只是意外,全能AI智能体才是真爱,Karpathy:7年前就想到了
36氪· 2025-08-04 17:37
核心观点 - OpenAI通过MathGen团队在AI数学推理能力上取得重大突破,成为构建通用AI智能体的基石 [2][5][6] - 强化学习(RL)与思维链(CoT)技术的结合催生了o1推理模型,推动AI智能体发展 [17][20][23] - OpenAI押注AGI长期战略,通过自下而上的创新模式实现技术领先 [25][35] - AI智能体在主观任务处理上的突破将成为行业下一竞争焦点 [31][33][35] - GPT-5将整合最新推理技术,但面临谷歌、Meta等巨头的激烈竞争 [36][38] 技术突破 - MathGen团队开发的过程监督(process supervision)训练使AI模型在国际数学奥林匹克(IMO)竞赛中夺得金牌 [2][6][20] - Strawberry项目融合大语言模型、强化学习和测试时计算技术,首创思维链(CoT)方法 [20] - o1模型采用"群体智能"策略,可同时派出多个AI智能体分头探索最优解 [35] - 新型通用强化学习技术能训练AI处理不可验证的主观任务 [33][35] 战略布局 - OpenAI将80%顶尖资源集中于o1模型研发,21名核心研究员成为行业争夺对象 [13][15] - Meta以亿美元薪酬挖走5名o1团队成员,清华校友赵晟佳任首席科学家 [15] - 公司采用"突破换取资源"机制,研究员需用实证获取支持 [25] - GPT-5将整合推理技术巩固AI智能体领域优势 [35][36] 行业影响 - AI推理能力进步速度远超预期,IMO金牌证明技术可行性 [6][35] - 编程领域已实现商业化,Codex和Cursor工具成为首批付费AI智能体 [29] - 主观任务处理成为最后技术壁垒,涉及网购、停车等场景 [31][33] - 谷歌、xAI等竞品已开始采用"群体智能"策略 [35] 未来展望 - 终极目标是开发能凭直觉理解意图的全能AI智能体 [35][39] - 行业竞争格局从OpenAI独大转变为多强争霸 [36][38] - 技术路线争议持续,但实际效果导向成为共识 [26][27]
人形机器人的进化之路|2.5万字圆桌实录
腾讯研究院· 2025-08-04 17:23
具身智能技术突破 - 端到端大模型实现从L2到L4级跃迁 Physical Intelligence公司Π系列模型展示少样本学习能力[7][8] - 数据采集技术突破 主从臂式遥操/VR遥操/光学动捕等技术提升效率 AGL Bot World项目采集百万级真机数据[9] - 仿真技术显著提升 生成式模型使仿真效果从"非常假"到"视觉逼真" 物理交互仿真仍需加强[9] 技术瓶颈与挑战 - 开放环境任务执行能力弱 复杂技能/高精度场景下故障率高 存在安全风险[6] - 硬件成本与运维问题 单台机器人成本达数十万人民币 供电持久性不足[6] - 泛化能力存在局限 Physical Intelligence Π0模型在OOD场景成功率低于产业预期[10] 主流技术范式 - VLA(视觉-语言-动作)成为共识框架 但底层架构仍处探索期 存在自回归与Diffusion两条技术路线[32][33] - 系统1(直觉响应)与系统2(规划决策)协同方案 短程任务端到端解决 长程任务需规则介入[18][19] - 触觉模态(T)增强形成VTLA框架 触觉信号使响应延迟从2-3秒提升至毫秒级[15][16] 数据生态现状 - 真实数据与仿真数据存在鸿沟 刚体仿真准确度达80%-90% 柔性体/流体仿真仍困难[36][39] - 数据规模严重不足 具身数据量仅为语言模型的1/5000 需百亿级VLA token训练量[9][57] - 互联网视频数据利用受限 缺乏动作标签与多视角信息 需清洗与伪标签生成技术[42][43] 产业化路径 - 专业场景优先落地 工厂SOP场景成熟度高于开放家庭环境 规则系统现阶段更可靠[14][51] - 消费级产品渐进发展 扫地机器人+简易操作臂组合或成突破口 价格增幅需控在数百元内[50] - 中间件接口标准化需求迫切 需建立动作抽象层兼容不同机器人本体[26][27] 技术演进方向 - 世界模型与强化学习结合 数据驱动的物理规律模拟替代传统物理引擎[35][37] - 穿戴设备数据反哺 未来消费级设备可能意外积累海量具身数据[41] - 多模态持续扩展 红外/温度等非人类模态将增强环境感知能力[29][32]
暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~
自动驾驶之心· 2025-08-04 15:31
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术 旨在推动自动驾驶 智慧城市 机器人等场景的应用突破[4][5] - 核心目标包括推动高效高质量的空间智能技术研究 探索强化学习与计算机视觉等前沿方法创新 促进神经渲染与机器人抓取等应用落地[7] 组织架构 - 主办方包括北京科技大学 清华大学 中国科学院自动化研究所等顶尖机构 技术赞助由九章云极科技提供[9] - 指导专家团队由张兆翔 鲁继文 殷绪成等学界权威组成 确保竞赛专业度[9] 赛制设计 - 设置双赛道:空间智能赛道考核多视角航拍图像三维重建 具身智能赛道测试动态遮挡环境下的机器人抓取能力[20] - 评价体系差异化:空间智能侧重渲染质量(PSNR)与几何精度(F1-Score) 权重6:4 具身智能关注任务完成度(成功率)与执行效率(路径效率) 权重5:5[22][23] 资源支持 - 提供500-1000张1k分辨率无人机航拍图及仿真环境数据集 九章云极赞助8卡H800 GPU算力验证[14][15] - 算力优惠政策:新用户享6元/度体验价 H800 8卡月租4.2万元 显著降低参赛成本[16][17] 赛事日程 - 6月10日发布赛题 8月10日截止报名 9月30日完成评审 10月15日PRCV大会颁奖[13] - 允许2次结果更新 需提交技术报告说明方法细节 最终成绩前20名可获排名积分[26] 奖项设置 - 单赛道设一等奖(6000元+500度算力券) 二等奖(3000元+200度) 三等奖(1000元+100度) 优胜奖(500元+50度)[25][27] - 所有获奖团队将获得PRCV 2025组委会认证证书 奖金及算力券由九章云极全额赞助[27]
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
36氪· 2025-08-04 15:22
强化学习领域的历史回顾与核心观点 - 斯坦福AI+CS博士Joseph Suarez对强化学习进行历史回顾,其文章获得38.2万阅读量[1] - 封面曲线暗示强化学习领域研究前景经历快速上升、平缓爬升后急转直下[3] - 文章探讨强化学习历史发展及近期才真正起飞的原因,并提供个人独特视角[3] Joseph Suarez的专业背景与研究基础 - 2019年本科毕业于斯坦福大学计算机科学专业人工智能方向[5] - 2018年在OpenAI实习期间发布Neural MMO首个公开版本[5] - 博士期间创建开源计算研究平台Neural MMO,并以此作为毕业论文主题[5][6] - 早期研究经历包括在李飞飞课题组和吴恩达实验室参与项目[5] - 其研究为PufferLib工作奠定基础[9] 强化学习早期突破与潜力展示 - 2017-2019年强化学习领域出现多项重大突破[10] - OpenAI Five项目开发期间,作者在OpenAI实习并亲眼见证相关工作[10] - OpenAI的Dota 2项目使用1.68亿参数网络,在约1000个GPU上训练后击败顶尖职业选手[12][16] - 其他重要展示项目包括AlphaStar、Capture the Flag和Emergent Tool Use等[17] 强化学习衰落的原因分析 - 2019年至2022年强化学习明显走下坡路,缺乏持久突破[19] - 学术短视导致领域集体设定了不合理的标准,如使用Agent57基准测试57款雅达利游戏[19] - 基准测试以样本数为x轴而非实际运行时间,且未限制硬件使用量,导致研究耗时且成本高昂[22] - 单个游戏运行可能需要数周GPU时间,消融实验需要1万GPU小时且利用率低于5%[22][23] - 大语言模型崛起吸引了99%的天才研究人员离开强化学习领域[25][26] - 强化学习存在超参数不合理、模型无法扩展、简单任务难以转移等基础问题[27] 当前强化学习研究的挑战与重复错误 - 现代强化学习研究重现了缓慢实验周期、过度优化评价体系等历史问题[29] - 领域为已有概念创造新术语,如“多轮RL”指“不只是赌博机问题”[32] - 对早期研究的不信任源于许多已发表内容确实存在问题[32] 强化学习的新发展方向与突破 - Joseph Suarez团队转向以墙钟训练时间为标准,重视性能工程[33] - 目标是将训练吞吐量从每秒几千步提升至数百万步[33] - PufferLib 3.0在单个RTX 5090上训练速度最高可达每秒400万步[35] - 新方法使新手程序员能在几天内让强化学习在新问题上运行,显著降低门槛[35] - 实验显示简单环境的结果能泛化到更难环境,开发周期快速[35] - 长期计划回归样本效率研究,但会保持flop效率,避免低利用率问题[36]
具身智能之心强化学习交流群来啦!
具身智能之心· 2025-08-04 09:59
行业交流平台 - 行业搭建技术交流与分享平台 专注于四足 人形 机械臂相关运控领域 [1] - 目标群体为从事强化学习技术研究的专业人士 [1] - 通过微信渠道加入交流群 需备注特定格式信息 [2]