Workflow
具身智能之心
icon
搜索文档
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-21 00:03
行业趋势与VLA技术发展现状 - 视觉语言动作模型领域正经历爆发式增长 新算法和框架不断涌现 推动模型性能更加泛化 [2] - 开源数据规模已达百万级 数据采集设备日益多元化 行业评测标准逐渐统一 预示着产业化进程可能加速 [2] - VLA作为核心模块 其应用场景将不断扩展 吸引更多下游合作伙伴和优秀人才加入 [2] VLA技术落地面临的挑战与痛点 - VLA模型调试难度大 数据采集过程复杂且耗时 成为从业者普遍面临的难题 [3][5] - 具身智能领域高度依赖硬件本体 仅依靠论文和仿真难以评估真实性能 导致学习与实践存在鸿沟 [4] - 真实数据采集依赖遥操、VR、动捕等方式 但采集的数据质量不佳 而仿真数据又存在泛化性问题 形成数据困境 [5] - 从数据采集、模型训练优化到部署的全流程打通 对初学者而言极为困难 许多人长期无法有效入门 [10] - 部分先进模型如π0、π0.5、GR00T 在数据采集和模型训练中存在大量未公开的技巧 增加了应用门槛 [11] VLA技术落地的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕 以及强化学习 如何获取高质量数据及实现real2sim2real是关键 [13] - **模型训练**:在真机数据不足时 仿真和sim2real技术至关重要 训练技巧直接影响效果 不同算法难度差异大 [14] - **模型部署**:大参数量模型对边缘部署构成挑战 需通过量化、蒸馏等轻量化技术压缩模型 以平衡性能与资源消耗 [15] 行业解决方案与生态建设 - 开源技术框架如LeRobot为入门学习提供了支持 近两年涌现出ACT、OpenVLA、π系列等多种新方法 性能持续提升 [7] - 开源机器人本体日益丰富 如SO-100机械臂、openarm双臂操作平台、XLeRobot移动操作平台 支持多样化研究需求 [7] - 行业内出现了面向实战的培训课程 旨在系统化解决学习难题 内容涵盖硬件、算法、仿真、部署及产业认知 [17][20]
首创ACE具身研发范式,大晓机器人构建具身智能开放新生态
具身智能之心· 2025-12-20 09:02
公司发布与核心观点 - 大晓机器人于12月18日正式发布行业首创的ACE具身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos 3.0)、以及具身超级大脑模组A1 [1] - 公司旨在通过突破性技术创新,推动机器人自主理解和探索物理世界,加速具身智能的商业化场景落地 [33] - 公司定位为生态共建者,通过与产业链伙伴合作,共同构建全链自主可控、开放共赢的产业级生态体系 [1][34] 公司核心团队 - 董事长由商汤科技联合创始人、执行董事王晓刚出任 [3][33] - 首席科学家由澳大利亚科学院院士、IEEE计算机学会技术成就奖获得者陶大程担任,其曾任京东探索研究院创始院长、优必选人工智能首席科学家 [5][33] - 公司汇集了来自南洋理工大学、香港大学和香港中文大学等全球稀缺的AI领域前沿科学家,他们是环境智能、世界模型、具身模型领域的开拓者 [6] 行业挑战与研发范式革新 - 当前具身智能领域面临数据量级的断崖式缺口,真机数据量级仅为10万小时,而智能驾驶领域特斯拉FSD V14每日训练量相当于人类驾驶员400万小时(约500年驾驶经验)[7] - 传统“以机器为中心”的研发范式依赖真机遥操,数据采集成本高昂、效率低下,且技能模型严重绑定特定硬件,无法通用 [8] - 纯视觉学习方案(如特斯拉、Figure AI探索的路径)缺乏对三维物理世界力学规律的理解,存在“现实鸿沟” [8] - 大晓机器人提出“以人为中心”的ACE具身研发范式,将人类与物理世界的互动规律作为核心起点,通过环境式数据采集一年可实现千万小时的数据收集 [12] ACE范式核心技术:环境式数据采集 - 该技术通过跨视角多模态设备,融合视觉、触觉、语音、力学规律等多维度数据,为模型训练提供“人—物—场”全要素精准数据支撑 [14] - 实现四大核心数据价值:1) 数据维度更全面,完成超10个视角、8种模态、4大类物品属性的多模态数据升级;2) 任务覆盖更长程,支撑分钟级、数百种原子动作的复杂任务;3) 交互精度达亚像素级;4) 采集效率可实现从十万小时到千万小时的海量数据积累 [16] - 在即时零售仓储场景中,已实现多视角数据采集,覆盖数万种SKU,完成涵盖五大阶段13个原子动作的全流程 [16] 核心产品:开悟世界模型3.0 - 这是首个开源且商业化应用的“多模态理解—生成—预测”世界模型,于12月18日面向全行业开源 [16][23] - 模型通过视觉、3D轨迹、触觉、摩擦力等多维度信息输入,深度理解真实世界的物理规律与人类行为逻辑 [18] - 模型可生成长时动态交互场景视频,并具备跨本体一键生成、多本体泛化、预测演化路径等特性,提供高保真、可泛化的虚拟训练环境 [20] - 基于模型打造的开悟具身智能世界模型产品平台,内置支持11大类、54细类,累计328个标签,覆盖115个垂类具身场景,大幅降低开发门槛 [22] - 开悟世界模型3.0已与沐曦股份、壁仞科技、中科曙光等多款国产芯片完成适配,极大提升了芯片性能 [23] 核心产品:具身超级大脑模组A1 - 该模组基于领先的纯视觉无图端到端VLA模型,使机器狗无需预采高精地图即可适应复杂、动态、陌生环境,实现自主路径规划 [25] - 具备云端交互能力,能实时解析自然语言指令与图像语义的意图关系,生成可执行的中间指令,使机器狗能根据自然语言指令精准完成任务 [27] - 结合Insta360全景感知与商汤方舟通用视觉平台,构建的环境感知体系可覆盖超10个行业,实现超150个智能化应用场景适配 [27] - 在安防、能源、交通、文旅等高可靠性要求场景中,可实现长期稳定工作,具备产业一线实用价值 [29] 生态合作与产业布局 - 在具身本体领域,公司与智元机器人、银河通用、钛虎机器人、国地中心等多家头部企业达成合作,打通新技术范式、世界模型与机器人硬件的适配链路 [30] - 在芯片领域,与沐曦、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产厂商芯片完成适配 [32] - 在硬件领域,与Insta360、卧龙电驱、帕西尼等伙伴深度绑定,强化信息采集能力 [32] - 在云服务与数据层面,联合商汤大装置、腾讯云、火山引擎、算丰信息等平台构建全流程支持体系,并依托库帕思、中建西南院的数据资源优化模型泛化能力 [32]
这个具身社区最近又更新了很多内容......
具身智能之心· 2025-12-20 09:02
行业动态与趋势 - 融资方面,下半年除明星公司外,本体零部件公司融资金额增大、公司数量增多 [2] - 量产方面,多家公司试点逐步推进,许多创业公司带着订单融资,头部人形机器人开始探索工业级产品部署 [2] - 产品设计方面,机械臂产品设计逐渐收敛,移动操作和人形机器人在结构与尺寸上持续创新,各公司均在努力压低成本,供应链管理能力成为后期关键竞争力 [2] - 模型泛化方面,基于强化学习的优化思路提升了模型泛化能力,相关工具箱日益完善,真机部署变得更加便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人与移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与内容 - 社区已搭建包含技术路线分享、直播、问答、求职、赛事等多个版块,形成了产业、学术、求职、问答交流的闭环 [6] - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据、算法等,探讨行业现状与待解决问题 [8] - 社区整理了完整的技术学习路线,内容涵盖分层感知操作、机器人操作系统、协同感知、机器人模型、Sim2Real泛化、具身世界模型、触觉感知、大模型规划与推理加速、模型微调、真机部署等众多前沿领域 [11][12] - 社区为从业者提供了大量产业体系与项目方案 [14] - 社区与多家具身公司建立岗位内推机制,可帮助成员将简历直接递送至心仪公司 [16] - 社区汇总了超过40个开源项目、近60个具身智能相关数据集、行业主流仿真平台及各类技术学习路线 [17] - 社区成员来自斯坦福大学、加州大学、清华大学、上海交大、ETH等国内外知名高校,以及智元机器人、有鹿机器人、优必选、小米、逐际动力等头部公司 [16][17] 知识库与资料汇总 - 社区汇总了国内外具身智能领域的知名高校实验室,供成员升学深造参考 [19] - 社区汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等方向的国内外各类具身机器人公司 [22] - 社区汇总了具身智能相关的行业研究报告 [24] - 社区汇总了机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍 [27][28] - 社区汇总了涉及芯片、激光雷达、相机、IMU、底盘等机器人知名零部件制造厂商 [30] - 社区汇总了机器人仿真、抓取、控制、交互、感知等多个领域的开源项目 [32] - 社区汇总了国内外知名ToF厂家、相关产品与技术资料 [34] - 社区汇总了数据采集方案与涵盖具身感知、触觉感知、导航、大模型等多个领域的开源数据集 [36][38] - 社区汇总了通用及真实场景的机器人仿真平台 [40] - 社区汇总了基于大语言模型的强化学习、可解释强化学习、深度强化学习等主流方案 [42] - 社区汇总了主动视觉感知、3D视觉感知定位、视觉语言导航、触觉感知等具身感知学习路线 [44] - 社区汇总了具身智能与环境交互相关工作,涉及抓取、检测、视觉语言模型、具身问答等内容 [47] - 社区汇总了视觉语言导航与规划在自动驾驶及机器人中的应用 [49] - 社区汇总了触觉感知的综述、传感器应用、多模态算法及数据集 [51] - 社区汇总了图像、视频、音频、3D等多模态理解与生成的大模型相关内容 [53][55] - 社区汇总了大模型微调与量化推理方法 [57] - 社区汇总了主流的视觉-语言-动作模型最新进展 [59] - 社区汇总了视觉-语言-动作模型与强化学习结合的前沿工作 [61] - 社区汇总了扩散模型设计、Diffusion Policy任务应用等相关内容 [63] - 社区汇总了机器人导航与规划技术 [65] - 社区汇总了大模型部署框架与轻量化方法 [67] - 社区汇总了Sim2Real与Real2Sim2Real技术 [69] - 社区汇总了物理仿真与世界模型相关研究 [71] - 社区汇总了机械臂抓取、位姿估计、策略学习等技术 [73] - 社区汇总了开源的双足、四足机器人项目及仿真、源码、硬件资料 [75][76] - 社区汇总了四足/轮式与机械臂结合的移动执行硬件方案 [78]
基于真实数据和物理仿真,国防科大开源具身在线装箱基准RoboBPP
具身智能之心· 2025-12-20 09:02
文章核心观点 - 由国防科大、中科院工业人工智能研究所、武汉大学与深圳大学联合推出的RoboBPP基准系统,是首个结合真实工业数据、物理仿真与具身执行评估的机器人在线三维装箱综合基准系统,旨在解决现有研究因忽略物理因素和具身可执行性而难以落地的问题 [2][4][28] 基于物理的仿真环境 - 团队构建了基于PyBullet的高逼真物理仿真环境,以真实尺度建模工业机械臂与箱体,用于评估算法的物理可行性与具身可执行性,避免了在真实硬件上测试的高成本与复杂性 [9][10] - 仿真器能够模拟重力、摩擦、碰撞,并使用OMPL运动规划库生成机械臂的无碰撞轨迹,支持抓取、搬运、放置等完整操作流程 [10] - 整个仿真环境已作为Python包`packsim`开源,用户可通过PyPI安装并体验完整流程 [11] 真实工业流程数据集 - 为覆盖多样化工业场景,团队构建了三个来自真实工业流程的大规模数据集,决定了机器人抓取、搬运与放置过程中的具身执行难度 [12][13] - **Repetitive Dataset**:源自流水线生产,箱体尺寸高度重复、变化小 [13] - **Diverse Dataset**:对应物流分拣与装箱任务,箱体尺寸多样性和波动性大 [13] - **Wood Board Dataset**:涉及形状不规则或细长的箱体(如长条形板材),放置难度更高 [13] 科学设计的多级测试设置 - 团队设计了三种逐级递进、物理真实度不断提升的测试设置,以评估算法的适应性和稳健性 [15] - **Math Pack**:仅进行纯几何放置,不涉及物理效应或机械臂操作,用于评估空间推理与几何规划能力 [16] - **Physics Pack**:在几何放置基础上引入重力、碰撞等物理模拟,用于评估算法在物理约束下的有效性(如堆叠稳定性) [16] - **Execution Pack**:最接近真实部署,完整引入具身执行过程,结合物理仿真与工业机械臂操作,算法性能取决于放置策略及机器人运动学可达性、轨迹规划与动态稳定性 [16] 多维度评估指标及归一化评分体系 - 评估体系在传统指标(紧凑性、稳定性、推理效率)基础上,借助物理仿真引入了新的执行相关指标,如**Collapsed Placement**(坍塌放置比例)和**Dangerous Operation**(危险操作比例) [19] - 设计了一个评分体系,将所有指标转换为归一化分数,并根据需求进行加权汇总得到综合得分,权重示例如下:空间利用率(Space Utilization)0.35、占用率(Occupancy)0.15、决策时间(Decision Time)0.08、静态稳定性(Static Stability)0.15、轨迹长度(Trajectory Length)0.08、坍塌放置比例0.07、危险操作比例0.05 [20] 实验评估与算法表现 - 团队复现了多种代表性算法,在三种测试设置和三个数据集下进行了统一评测,并通过评分系统计算了每个算法的综合得分 [22] - 在高度重复的流水线生产环境中,明确建模空间与几何关系的强化学习算法(如**PCT**和**TAP-Net++**)表现突出 [23] - 在物品尺寸高度多样化的物流场景中,基于Transformer的强化学习策略(如**PCT**和**AR2L**)更为有效 [29] - 在以细长家具件为主的场景中,强化学习算法与几何驱动的启发式方法(如**TAP-Net++**与**DBL**)均展现出良好适用性 [29] - 当算法更关注紧凑且高效的空间利用而非单纯追求放入更多箱体时(如**HM**和**PackE**),往往能获得更高的占用率 [26] - 当算法的放置策略优先选择可行、低风险的位置并形成平整堆叠时(如**AR2L**和**PackE**),其机械臂末端执行器的平均轨迹长度通常更短 [30] - 当算法在放置策略中显式或隐式优先考虑稳定性和物理可行性时(如**TAP-Net++**与**DBL**),其坍塌放置率往往更低 [30] 项目开源与社区 - 项目完全开源,配备可视化工具和在线排行榜,为未来研究与工业应用提供了可复现、可扩展的具身评估基础 [28] - 项目主页提供多类榜单、数据集下载、文档说明以及算法提交测试功能 [6]
别让vision拖累VLA中的action!
具身智能之心· 2025-12-20 09:02
文章核心观点 - 针对当前视觉-语言-动作模型在训练中存在视觉输入与动作信号不匹配、高维视觉冗余信息干扰动作生成、以及训练后丢失语言理解能力等问题,提出了一种名为Mantis VLA的新模型架构[6][8][9] - 该模型通过**解耦视觉预测**、**渐进式预训练**和**自适应时序集成**三大核心技术,旨在减轻主干网络负担,提升动作生成的准确性与效率,并保留模型的语义理解与泛化能力[7][10][14] - 实验表明,Mantis在LIBERO基准测试中取得了最高的平均成功率96.7%,在真机实验中展现出优异的指令跟随与泛化能力,同时其自适应时序集成策略将推理成本降低了近50%[16][18][20][21] 研究背景与问题 - 当前VLA模型依赖低维稀疏的动作信号去监督高维密集的视觉输入,以训练十亿参数级的主干网络,这种不匹配导致模型表征能力未被充分利用[6] - 引入视觉预测机制时,高维视觉状态中的大量冗余信息会分散模型对动作预测的注意力,导致下游微调训练成本高、收敛速度慢[8] - 现有方法在机器人数据上训练后,往往忽视对主干网络的语言监督,导致模型丢失原有的语言理解与推理能力,难以完成复杂任务[9] 方法架构:Mantis VLA - **解耦视觉预测**:引入独立的扩散DVF头与隐式动作查询,通过类似残差连接的结构让模型仅需捕捉帧间差异来重建未来帧,从而自动提取隐式动作,为动作生成提供针对性指导,减轻主干网络负担[10][13] - **渐进式预训练**:分阶段引入视觉、语言和动作模态进行训练,避免模态间竞争,实现稳定优化,并引入额外多模态数据以保留主干模型的语义理解与推理能力[7][10] - **自适应时序集成**:在推理阶段,动态判断图像中与指令相关的物体区块和视觉特征变化区块是否重叠,仅在需要精细操作时启用计算开销较高的时序集成,否则仅执行动作分块,以此平衡运动稳定性与计算成本[7][14] 实验性能分析 - 在LIBERO基准测试的4项任务中,Mantis在3项上表现更优,并取得了最高的平均成功率**96.7%**,优于其他基线方法如UnifiedVLA的95.5%和F1的95.7%[16][18] - 在LIBERO spatial任务上,与UnifiedVLA等传统视觉预测方法相比,Mantis的收敛速度显著更快[18] - 真机实验显示,在包含域内和域外指令的任务中,Mantis在指令跟随和泛化能力上均优于对比方法,后者对域外指令几乎无泛化能力[20] - 自适应时序集成策略在保持性能的前提下,将推理次数降低了近**50%**[21] 团队与资源 - 研究团队来自上海交通大学Deng Lab,由邓志杰助理教授领衔,团队规模包括4名博士生、11名硕士生及若干科研助理[23] - 实验室与清华大学、中国人民大学、UCSD等国内外知名团队保持合作,已在TPAMI、ICML、CVPR等顶级会议期刊发表近50篇论文,相关技术已应用于美团LongCat、阶跃星辰NextStep等业界系统[23] - 团队承担多项国家级及企业合作项目,拥有超过100张GPU的高性能计算资源[23]
30亿美元,超越宇树和智元!这家具身公司刷新了人形机器人的最大估值.......
具身智能之心· 2025-12-19 11:00
公司融资与估值 - 银河通用机器人近期完成新一轮3亿美元融资 刷新了具身智能领域单轮融资纪录 [2] - 公司最新估值已达30亿美元 [3] - 自2023年5月成立以来 公司累计完成融资约8亿美元 [2] 融资历程与投资方 - 2023年5月成立后迅速完成种子轮融资 [4] - 2024年6月完成7亿元人民币天使轮融资 [5] - 2024年11月完成5亿元人民币战略轮融资 [6] - 2025年6月完成超11亿元人民币融资 宁德时代等产业资本入场 [7] - 最新一轮3亿美元融资吸引了新加坡及中东的国际投资机构 [8] 技术核心与商业落地 - 公司重仓基座大模型技术 [8] - 已在国内率先实现人形机器人在真实应用场景的长期、全自主、规模化落地 [8] - 已与宁德时代、丰田、现代、上汽等达成深度战略合作 落地场景多样化 [8] 具体应用场景 - 智慧城市服务:银河太空舱已在北京颐和园、王府井、成都春熙路等多个地点试运营 [9] - 仓储领域:现已部署到数十个零售仓内 [10] - 其他领域:还包括医疗等应用场景 [10]
比LoRA更快更强,全新框架LoFA上线,秒级适配大模型
具身智能之心· 2025-12-19 08:05
文章核心观点 - 香港中文大学(深圳)GAP-Lab提出了一种名为LoFA的全新学习框架,旨在解决个性化视觉生成中传统微调方法耗时耗力的问题 [1] - LoFA框架能够根据用户指令,在数秒内前馈式直接生成对应的LoRA参数,使大型视觉生成模型快速适配个性化任务,无需传统冗长的优化过程 [1] - 该方法在效果上媲美甚至超越需要逐例独立优化的传统LoRA方法,有望推动大模型适配进入“即时获取”的新时代 [1] 背景与挑战 - 通用视觉基础模型在应对用户细粒度、个性化的生成需求时表现不佳,难以满足精准需求 [5] - 当前主流的参数高效微调技术需要为每个个性化任务单独优化适配器,不仅依赖特定任务数据,还需大量优化时间,难以满足快速响应的实际应用要求 [5] - 近期尝试直接预测LoRA权重的技术面临根本挑战:需要学习从低维用户指令到高维复杂LoRA参数分布的复杂映射关系,且现有方法仅在图像身份个性化等受限场景中得到验证 [6] 核心方法介绍 - LoFA的核心思路是在超网络设计中嵌入新型引导机制,使其能够直接从用户指令中预测完整且未经压缩的LoRA权重,避免有损压缩技术造成的信息损失 [8] - 该方法基于一个关键发现:个性化LoRA权重与原始模型参数间的相对变化会形成独特的结构化模式,称为“响应图谱”,它能有效捕捉用户指令的核心影响 [8] - LoFA采用两阶段学习框架:网络首先预测维度更低、结构更简单的响应图谱,随后运用习得的响应知识来引导最终的、具备完整表达能力的LoRA权重预测 [10][11] 实验分析 - 研究在视频与图像生成任务中系统评估了LoFA的有效性,测试了多种输入模态和三个关键应用场景 [13] - 在视频生成任务中,以WAN2.1-1.3B为基础模型,评估了基于文本或运动姿态的个性化人体动作视频生成,以及以风格图像为参考的文本到视频风格化 [13] - 在图像生成任务中,以Stable Diffusion XL为基础模型,评估了ID个性化图像生成 [14] - 实验结果表明,LoFA在性能上显著超越基线方案,并且达到了与独立优化的LoRA模型相媲美甚至更优的效果 [14] 总结与展望 - LoFA突破了现有个性化技术的关键局限,在保持高质量生成结果的同时,将模型适配时间从数小时缩短至秒级 [24] - 当前LoFA仍需针对不同领域的特定指令分别训练独立网络,未来的理想方向是构建具备强大零样本能力的统一超网络,通过扩大训练数据的规模与多样性来实现 [24]
Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心· 2025-12-19 08:05
文章核心观点 - 在具身智能发展的下半场,模型评估的重要性日益凸显,并已成为技术发展的关键瓶颈[2][3] - 传统基于真实硬件或物理仿真的评估方法面临成本高、覆盖面有限和安全性风险等三重困境[4][5][6] - Google DeepMind的最新研究提出了一种评估新范式:利用视频生成模型(世界模型)作为机器人策略的通用评估器,标志着评估环境的范式变化[8][13] - 基于世界模型的评估方法,如Veo (Robotics)模拟器,能够有效预测机器人在常规任务、分布外泛化及安全性方面的表现,并与真实世界结果高度相关[27][36][61] - 尽管前景广阔,但世界模型评估在物理规律一致性、生成长度和自动化评分方面仍存在局限,未来评估将是具身智能需要解决的核心问题[65][66][72] 传统评估方法的困境 - **成本高昂**:在真实硬件上进行大规模测试费时费力,对比多个策略版本或部署多台硬件会带来额外成本[4] - **覆盖面有限**:真实场景难以穷尽所有现实情况(如干扰物、杂乱环境、光线变化),影响测评的全面性[5] - **安全性风险**:测试机器人安全性需尝试危险动作,可能损坏昂贵设备或对人类造成伤害,在现实中不可接受[5][6] 评估新范式:从传统仿真到世界模型 - **传统物理仿真的挑战**:高保真模拟需要大量真实世界资产和精细的物理建模,获取和定制海量多样物体模型困难[11];对非刚体或复杂接触动态的模拟存在局限,且存在模拟与现实之间的视觉差距(Sim-to-Real gap)[11][12] - **世界模型的核心思想**:让机器人策略在模型“想象”出的世界中运行,以预测其表现,世界模型充当内部仿真器,支持进行虚拟试验[15] - **世界模型的优势**:数据驱动的世界模型不依赖人工物理建模,而是从大规模视觉数据中学习现实动态[16];同一模型可模拟多种场景和对象,生成视觉逼真且物理合理的预测画面,为解决资产、真实性和视觉域差距问题提供新思路[17] Google DeepMind的Veo (Robotics)模拟器 - **模型基础**:基于Google的Veo2文生视频模型构建,该模型采用潜空间扩散架构,能生成高质量连贯视频[21] - **关键改造**: - **动作条件化**:模型接收当前图像观察和机器人未来的动作指令序列,通过想象动作后果来生成未来视频帧[24] - **多视角一致性**:训练模型能同时生成多个摄像头视角(如头顶、侧面、手腕)的视频,并保持时空一致性[24] - **工作流程**:输入机器人当前画面、用户文本指令和计划动作序列,模型生成展示世界变化的视频,通过分析视频内容对策略进行打分[30] Veo模拟器的三大评估场景与验证 - **常规任务评估**:在机器人熟悉的任务和环境中进行测试,使用ALOHA 2双臂机器人平台执行5项基本任务[32][33];Veo模拟器能够非常准确地预测GROD模型8种不同策略的优劣排名,模拟结果与现实世界表现一致[36] - **分布外泛化评估**:利用生成式AI的图像编辑能力,创造从未见过的测试场景,无需重新布置真实场地[43];创造了四种维度的变化:背景颜色、添加小型干扰物(3-4英寸毛绒玩具)、添加大型干扰物(10-12英寸毛绒玩具)、替换操作物体为陌生物体[44];主要发现包括模拟器能生成符合物理规律的高保真视频,并成功预测出更换操作物体对性能影响最大,更换背景次之,添加干扰物影响较小的泛化难度排名[46][48] - **安全性红队测试**:在模拟器中安全地测试潜在危险行为,例如指令目标旁有人手或危险物品的场景[51];模拟结果预测了不安全行为(如撞到人手、压碎屏幕),并在现实中用道具复现后得到证实,证明其可作为部署前的安全过滤器[52] - **验证方法**:进行了超过1600次真实世界机器人评估实验,将每条真实轨迹与模拟视频对比[57];关键指标显示预测与现实强相关:皮尔逊相关系数高达0.88-0.91,Mean Maximum Rank Violation数值极低表明排名一致性高[60][61];模拟器预测的相对排名准确,但绝对成功率通常比现实略偏保守[62] 世界模型评估的局限性与未来展望 - **当前局限性**: - **物理规律一致性**:视频生成在涉及精细物体接触时可能出现幻觉(如物体穿模、凭空出现或消失),物理仿真在此方面更擅长[65] - **生成时长限制**:目前生成视频片段仅约8秒,模拟长周期复杂任务需要实现长时程生成,而当前模型在长时间滚动上易累积误差[66] - **自动化评分**:视频评分仍部分依赖人工观看打分,而传统仿真或实验可直接获取环境状态进行量化[66] - **未来展望**:评估是具身智能下半场需要解决的核心问题,公平的跨模型评价、评估任务与指标设置、以及结果的可复现性均有待深入讨论[69][70][71];具备有效评估能力是训练出最佳模型的关键[72]
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 08:05
文章核心观点 强化学习正成为连接视觉语言动作模型预训练与真实世界部署的关键桥梁 通过强化学习的闭环优化 VLA模型能够从依赖模仿学习的开环推理 转向具备结果导向 失败恢复 自主探索与闭环纠错能力的智能体 从而克服其在真实世界分布外场景中的脆弱性 提升泛化能力和鲁棒性 [1][2][4] RL-VLA架构:从开环推理到闭环优化 - **动作建模**:RL通过奖励驱动策略更新 使VLA转向闭环决策 具体架构包括自回归VLA 生成式VLA和双系统结构 [4][6] - **自回归VLA**:通过token-level RL实现稳定优化 但离散动作令牌难以实现灵巧操作 细粒度分词会增加预测难度 [6] - **生成式VLA**:在扩散或Flow动作空间中进行sequence-level RL 但依赖局部采样和不完美信号 可能导致动作分布随迭代更新而扭曲或崩溃 [6] - **双系统结构**:RL用于对齐高层视觉语言模型规划与低层VLA控制 但两者间的异构表示和时间尺度可能导致价值估计不一致 联合训练不稳定 [6] - **奖励设计**:为克服模仿学习局限性和奖励稀疏性问题 采用内在奖励和外在奖励 外在奖励来自人类偏好或基础模型 更具任务对齐性 [8][9] - **环境建模**:采用物理模拟器或学习型世界模型来预测未来状态 推动基于模型的RL-VLA [9] RL-VLA训练范式深度拆解 - **在线强化学习**:智能体在训练中与环境持续交互 通过试错收集轨迹并更新策略 赋予VLA适应性闭环控制能力 但非平稳动力学和多模态噪声使策略优化难以维持稳定可靠的更新 [11][12] - **离线强化学习**:从静态数据集中学习策略 核心挑战是数据集的不平衡性和不完整的奖励信号限制了泛化能力 [13][15] - **策略优化**:采用PPO变体来平衡学习效率和稳定性 实证研究证明RL微调相比标准监督微调能显著增强分布外场景下的泛化能力 [14] - **样本效率**:通过结合人类专家演示或集成Actor-Critic架构提供密集信号 在有限预算下学习有效策略 [14] - **主动探索**:设计高效探索策略 例如使用大语言模型生成高层任务规划来指导低层RL策略探索 或自动生成具有挑战性的分布外数据创建失败和恢复轨迹 [14] - **训练稳定性**:通过动态推演采样或利用世界模型作为模拟器生成合成推演 降低真实世界互动带来的方差和不稳定 [14] - **测试时强化学习**:在部署过程中 VLA通过轻量级更新或适配器模块调整行为 无需进行全面模型微调 但预推理未来动作序列和评估大量动作候选带来了显著的计算成本 限制了实时部署能力 [16][17] - **数据利用**:采用保守约束限制策略更新 防止偏离数据集覆盖的分布 或通过重塑轨迹 生成奖励进行定制化表示 [20] - **目标修改**:设计与VLA结构相匹配的RL目标 或利用RL目标增强离线数据集生成高质量的合成轨迹 [20] - **价值指导**:利用预训练的奖励或价值函数直接影响动作选择 例如重新排序动作候选项或引入价值引导思维 [20] - **内存缓冲指导**:在推理时检索相关的历史经验以提高探索效率和知识复用 [20] - **规划引导适应**:显式推理未来的动作序列以选择最优动作 例如使用在线蒙特卡洛树搜索或利用价值函数进行进度监控和错误纠正 [20] 真实世界部署 - **核心目标**:在物理机器人上运行RL-VLA模型 实现在非结构化环境中的安全和自主操作 主要通过Sim-to-Real迁移和物理世界强化学习来应对样本效率 安全性和硬件限制等挑战 [21] - **Sim-to-Real迁移**:目标让在模拟环境中训练的VLA模型有效泛化到物理机器人 解决领域迁移问题 但迁移后的策略表现仍逊于模拟环境 例如SimpleVLA-RL在物理机器人上的成功率远低于模拟环境 [22][23] - **物理世界强化学习**:直接在真实机器人上训练操作策略 但带来了样本效率低下和安全风险等重大挑战 [24] - **人在环强化学习**:通过整合人类专业知识加速收敛并减少不安全探索 但现有方法严重依赖人类干预样本 导致人力成本高昂且可扩展性差 [24][25] - **可逆性与自主恢复**:使机器人能够在发生故障后自行处理并继续学习 减少人工重置和劳动成本 但真实世界交互的固有不可逆性 部分可观察性以及长期训练的不稳定性阻碍了可靠的故障检测和恢复 [26][27] - **安全探索**:在经验收集过程中确保智能体避免与物理环境发生不安全的互动 最大挑战在于高层语义推理与低层安全保障的整合 [28][29] - **领域随机化**:通过随机化广泛的模拟参数来匹配真实世界中的感知多样性 例如SimpleVLA-RL模型通过在多样化任务模拟中应用领域随机化 实现了对真实机器人的零样本迁移 无需额外微调 [30] - **数字孪生**:创建物理系统的同步虚拟副本 实现安全和可扩展的策略训练 包括实时校正 数据生成和可微分引擎等方法 [30] - **人类纠正干预**:人类提供实时反馈以纠正机器人动作 加速技能获取和安全探索 [31] - **人类恢复辅助**:在自主恢复不可靠时 人类手动介入重置机器人或环境 减少失败的影响 [31] - **人类课程任务设计**:人类主管设计从简单到复杂的课程任务 以平衡安全性和学习效率 [31] - **免重置学习**:引入辅助重置策略将智能体带回初始状态或可恢复区域 实现持续训练 [31] - **语义感知恢复**:强调对操作时空动态的推理 通过语言模型或本体论来解释故障原因并规划适当的恢复行为 [31] - **保守安全评论家**:训练辅助评论家来评估动作提议违反安全约束的可能性 [31] - **实时安全执行**:在执行层面应用控制理论安全约束 例如使用阻抗控制器来限制末端执行器的力和速度 SafeVLA模型通过约束学习优化VLA以应对安全风险 [31] 评估 - **评估现状**:是RL-VLA研究中尚未统一但极其关键的一环 未来评测需要从单次成功率走向鲁棒性 可恢复性与长期自主性 [32] - **仿真基准**:包括LIBERO ManiSkill CALVIN RoboTwin等 用于分析泛化与算法对比 [36] - **真实世界基准**:包括LeRobot SERL等 更贴近部署挑战 [36] - **评测难点**:成功率难以反映恢复能力与安全性 不同RL范式 不同动作表示间缺乏可比性 长时序任务与真实物理约束评估不足 [36] 开放挑战与展望 - **核心进展**:RL-VLA通过强化学习驱动的闭环优化 克服了模仿学习在分布外场景中的根本限制 使其策略更具泛化能力和鲁棒性 [34] - **关键挑战与解决方案**: - **开放挑战**:记忆检索机制和思维链式监督 以保持长期时间一致性 [34] - **解决方案**:基于模型的强化学习 通过预测世界模型进行可扩展的训练 提高效率和可扩展性 [34] - **开放挑战**:自主故障处理智能体 以减少人类干预提高效率 [34] - **解决方案**:多机器人共享训练与实转模拟推演 [34] - **开放挑战**:预测风险建模 以确保可靠的物理操作 [34] - **解决方案**:基于约束的策略优化和语言条件下的安全推理 [34] - **开放挑战**:长序列任务的扩展性 样本效率低下 真实机器人训练成本 [34] - **未来方向**:强化学习正在推动VLA从高性能模仿者进化为具备自主探索 恢复与安全决策能力的通用机器人系统 [34]