Workflow
具身智能之心
icon
搜索文档
8个实战,彻底讲清VLA的各类方案
具身智能之心· 2025-12-08 09:11
具身智能与视觉语言动作模型技术现状 - 行业普遍面临视觉语言动作模型在实际硬件上难以跑出效果的挑战 [1] - 具身智能领域高度依赖硬件本体,算法与硬件紧密耦合,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用“真机数据”路线 [2] - 近2年来,算法技术快速发展,从ACT、OpenVLA到π0、π0.5、π0.6等新方法层出不穷,性能持续提升,基于强化学习的优化方案使模型运行更流畅 [4] - 开源硬件本体多样化,例如SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台,支持各类研究需求 [4] VLA模型落地实施的核心模块与挑战 - 数据采集是首要模块,主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习方法,在机械臂结合VLA领域更多采用遥操作和VR [7][8] - 数据采集的质量保障及real2sim2real流程是关键问题 [8] - 模型训练前通常需进行仿真调试,在真机数据不足时,Mujoco、Isaac Gym等仿真框架及sim2real技术尤为重要 [10] - 模型训练技巧至关重要,包括如何微调模型、如何在小数据量下取得良好效果,许多模型存在机械臂运动准但夹爪操作不佳或运动误差大的问题 [10] - ACT算法相对简单易出效果,而π0、π0.5、GR00T等模型训练难度高,对细节和技巧要求严格,强化学习优化模型的经验门槛高 [6][10] - 模型部署前需进行“瘦身”操作,即使参数量为2B的模型,在边缘芯片部署挑战仍大,需通过量化、蒸馏等轻量化技术最小化参数量并保证性能 [12] VLA技术学习与人才培养 - VLA技术更新快,学习曲线陡峭,许多学习者即使拥有真机硬件也不知如何入手 [13] - 行业推出了首个面向实战与求职的VLA小班课,内容涵盖机械臂硬件、数据采集、VLA算法与评测、仿真、主流VLA模型部署、VLA结合世界模型、真机实验及具身产业讲解 [14][16] - 课程为学员提供SO-100机械臂一套,包含示教臂和执行臂 [21] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,精通具身智能全栈技术,并在顶级期刊发表学术论文10篇以上 [25] - 课程目标人群包括:具身领域求职者、VLA入门进阶者、相关领域学生、从传统CV/机器人/自动驾驶转行者以及对具身智能感兴趣的人员 [27] - 课程对硬件有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,也可自租云服务器,并要求学员具备一定的Python和PyTorch基础 [27] - 完成课程后,学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,并对具身产业有清晰认识,简历项目经验可达到1-2年以上算法工程师水平 [30] - 课程计划于2025年12月30日开课,共分九章,持续至2026年2月25日 [28][31]
SpaceX估值8000亿美元超OpenAI,IPO就在明年
具身智能之心· 2025-12-08 09:11
SpaceX估值与融资动态 - 据华尔街日报报道,SpaceX正与投资者就新一轮内部股份出售进行谈判,若交易达成,公司估值将飙升至8000亿美元(约合人民币5.66万亿元)[1] - 此次估值为二次股票出售(即现有股东向新投资者出售股份),若完成,将使SpaceX超越OpenAI(估值5000亿美元),成为全球估值最高的私营企业之一[2][10][12] - 公司估值在不到半年内翻番,今年7月进行上一轮二次股票出售时估值仅为4000亿美元(约合人民币2.83万亿元)[3][10] - 另有媒体报道(如彭博社)指出,交易可能以每股约300美元进行,届时估值可能为5600亿美元,最终数字在交易敲定前仍可能变化[11] 公司业务与运营状况 - SpaceX成立于2002年,是一家私营航空航天和太空运输公司,核心业务为火箭发射和卫星[5][17] - 公司在火箭发射市场已占据主导地位,为商业卫星公司和NASA等机构提供服务[18] - 卫星业务(特别是Starlink部门)被认为是推动其高估值的主要理由,该部门目前拥有约9000颗卫星,是重要收入来源[19][23] - 公司正在开发下一代完全可重复使用的运载火箭“星舰”(Starship),迄今为止已完成11次试飞实验[20][21] - 据马斯克今年6月透露,SpaceX 2024年全年预计营收将达155亿美元,略高于OpenAI同期的130亿美元预计营收[25][26] 上市计划与行业对比 - SpaceX被曝最早将于2025年下半年进行首次公开募股(IPO)[16] - 公司高管目前更倾向于将火箭发射和Starlink卫星业务打包上市,而非拆分Starlink独立上市[24] - 在上市时间点上,SpaceX(可能2025年下半年)可能比OpenAI(传闻最早2026年下半年提交申请,2027年上市)更快一步[26] - OpenAI上市时估值有望高达1万亿美元,SpaceX的估值正快速追赶[26][27]
看到字节最新的GR-RL丝滑系鞋带,真的怕了......
具身智能之心· 2025-12-07 11:03
文章核心观点 - 字节跳动提出的GR-RL框架成功解决了机器人长时程精细操作的核心瓶颈,成为首个能自主完成多鞋孔系鞋带任务的学习型模型 [1] - GR-RL框架通过“数据提纯-能力增强-行为对齐”的三层逻辑闭环设计,将通用视觉-语言-动作模型转化为长时程精细操作专家 [9] - 该方案在系鞋带任务中实现了83.3%的成功率,显著优于基线模型,为通用模型向真实世界专精模型转化提供了可复用的范式 [18][22][28] 问题根源:长时程精细操作的三大核心矛盾 - **演示数据质量与任务精度的矛盾**:人类演示数据中存在“犹豫停顿”、“错误尝试”等次优行为,直接模仿这些含噪声的数据会导致模型学到低效或错误的动作模式 [4] - **训练与部署的行为mismatch矛盾**:部署时对模型输出动作进行“轨迹平滑”等优化,与训练阶段学习的原始动作存在差异,这种差异在精细操作中会被放大,导致性能下降 [5] - **泛化能力与任务特异性的矛盾**:通用模型缺乏对特定任务的针对性优化,无法利用机器人形态对称性提升鲁棒性,且难以应对长时程操作中的突发场景和误差累积 [6] 方案设计:GR-RL的三层逻辑闭环 - **第一层:数据提纯**:采用基于分布式评论家网络的任务进度评估器,通过TD3+BC离线强化学习算法,以任务成功/失败为稀疏奖励,并利用“重试关键帧标注”技术,其预测的Q值作为任务进度指标,用于筛选和剔除进度值下降超过阈值的次优演示数据 [10] - **第二层:能力增强**:利用双臂机器人的形态对称性设计数据增强策略,包括视觉层面水平翻转和交换摄像头画面、动作与状态层面的镜像对称转换、以及语言层面同步修改文本指令,无需额外采集数据即可提升模型“左右手通用”和“多视角适配”的操作能力 [10] - **第三层:行为对齐**:提出基于潜在空间探索的在线强化学习方案,在动作扩散模型的噪声输入空间引入轻量级噪声预测器进行引导,并施加分布约束,同时采用双缓冲池采样策略平衡稳定学习与环境适配,以弥合训练与部署的差异 [11][14] 落地支撑:硬件与模型架构的协同优化 - **ByteMini-v2机器人硬件优化**:肘部执行器峰值扭矩从17 Nm增至35 Nm,臂部最大负载从1.4 kg提升至3.15 kg;底盘投影面积缩小至450 mm×650 mm,优化空间机动性;并进行了人机交互与可靠性升级 [12][15] - **混合Transformer模型架构**:采用总参数量达50亿的混合Transformer架构,高效处理多模态信息;其中VLA策略网络以Qwen2.5-VL-3B-Instruct为骨干,通过动作扩散Transformer生成动作;分布式评论家网络采用因果Transformer结构,预测动作块的Q值分布以避免价值高估 [12][21] 验证逻辑:从整体性能到组件有效性的层层拆解 - **整体性能突破**:在系鞋带任务中,基础通用模型GR-3成功率仅45.7%,仅加入数据筛选后提升至61.6%,叠加形态对称增强后达72.7%,最终通过在线RL,成功率稳定在83.3%,在线训练后期一度超过90% [18][22] - **关键阶段性能提升**:数据筛选主要提升“穿入鞋孔”阶段的成功率,从46.4%升至63.8%;形态对称增强对所有阶段均有提升,如“拾取鞋带”阶段从58.7%升至76.5%;在线RL进一步降低“交接”、“拉紧”阶段的失败率,如“交接”阶段从45.7%升至83.3% [20][26] - **核心组件有效性验证**:通过消融实验对比,GR-RL采用的分布式评论家网络相比非分布式评论家,能避免在稀疏奖励场景下的价值高估问题,预测更稳健;相比回归型预测器,对“毫米级偏差”等细微失败更敏感,且能捕捉对任务有长期正向作用的操作 [24][27][30][31] 局限与未来方向 - **行为漂移问题**:在线RL阶段,稀疏噪声奖励可能导致模型行为不稳定,未来可通过动态调整噪声约束阈值或引入分层强化学习优化信用分配 [27] - **基础模型融合不足**:当前未将专精能力蒸馏回基础模型,导致模型难以兼顾“长时程精细操作”与“多任务泛化”,未来需探索专精知识蒸馏技术 [27] - **任务扩展性有限**:实验仅验证系鞋带任务,未来需在“精密零件装配”、“手术辅助”等更多长时程精细操作任务中测试,以进一步验证框架通用性 [27]
今年大家最关注的具身方向原来是这些?
具身智能之心· 2025-12-07 11:03
文章核心观点 - 公司正在为具身行业起草一份内容丰富的研报,计划于明年第一季度公布 [1] - 研报将涵盖融资、产业、政策、算法、落地、出口等多个模块 [1] - 公司希望了解市场关注重点,以确定研报内容的侧重点 [1] 研报调研涉及的关键板块 - 国内具身产业与政策 [4] - 国外具身产业情况 [4] - 具身公司融资、业务情况 [4] - 具身数采相关 [4] - 具身算法优化部署相关 [4] - 机器人边缘芯片相关 [4] - 具身下游产业发展 [4] - 具身产业人才结构与需求 [4] - 具身公司上市辅导等 [4] - 其它 [4]
深扒PI π*0.6迭代式强化学习思路:VLA+在线RL,实现自我进化
具身智能之心· 2025-12-07 11:03
文章核心观点 - 视觉-语言-动作模型与在线强化学习的结合已成为具身智能领域极具前景的研究方向,能够解决仅靠监督微调面临的泛化性与鲁棒性不足的问题 [3][4] - 星动纪元的iRe-VLA方法通过“分阶段冻结参数、动静结合”的两阶段迭代循环,率先突破了VLA模型应用强化学习的困境,并被海外顶尖研究团队Physical Intelligence的π*0.6工作引用 [15][17][23] - iRe-VLA方法在仿真与真实世界实验中均展现出显著优势,包括更高的任务成功率、卓越的训练稳定性、强大的泛化能力以及符合实际部署的经济性 [45][47][49][58][65] 为什么VLA+RL很重要 - 仅依赖模仿人类专家数据的监督微调方法存在局限,当机器人遇到未见情况或数据不完美时会不知所措,难以实现鲁棒、持久的工作 [6][9] - 在线强化学习允许智能体通过试错发现更优解,有望超越演示数据专家的水平,而离线强化学习则受限于演示数据的质量 [9] 强化学习应用在VLA的三大难点 - **环境差异**:物理世界任务周期长、奖励稀疏,学习困难,不同于在离线数据集上训练的聊天机器人 [22] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现灾难性遗忘或训练崩溃 [22] - **算力负担**:在本地机器人控制器上对大规模模型进行全量梯度更新,硬件要求通常超出极限 [22] 行业解决VLA强化学习困境的三种路径 - **外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA生成动作,VLA本身未发生质变 [23] - **暴力美学**:直接使用PPO等算法全量微调VLA,易导致模型坍塌且算力要求高 [23] - **从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为内化为模型的原生能力,是更可行的方案 [16][23] 星动纪元iRe-VLA方法详解 - **模型架构**:VLA模型由负责理解的预训练VLM主干(大脑)和负责输出控制信号的轻量级动作头(四肢)组成,并使用LoRA技术提高微调效率 [20][21] - **核心流程-第一阶段(在线强化学习)**:冻结VLM主干参数,仅训练动作头和一个评价网络,使机器人能在本地(如单张4090显卡)稳定探索并发现成功轨迹 [26][30][32] - **核心流程-第二阶段(监督学习)**:解冻VLM主干,混合使用新探索的成功轨迹与原始专家数据,对整个模型进行微调,将新技能固化并防止遗忘 [33][40] - **迭代循环**:两个阶段循环往复,实现“小参数探索,全参数内化”的持续学习过程 [38][42] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而直接使用PPO微调VLA则成功率曲线震荡剧烈,甚至性能下降 [47] - **仿真环境性能**:在MetaWorld基准测试中,iRe-VLA在多项任务上成功率显著超越SFT和PPO-Replay方法,例如Button-Press-new任务从SFT的56%提升至100% [49][51] - **真实世界性能**:在抓取未见物体任务中,iRe-VLA将成功率从SFT的约35%提升至80%,并且对完全未参与训练的第三类物体,抓取成功率也从37%提升至61%,展现了强大的泛化能力 [52][55][58] - **消融实验必要性**:实验证明,若第二阶段不解冻VLM主干,模型性能提升将遇到瓶颈,说明利用大模型深层特征表示能力对掌握复杂技能至关重要 [59] 结论与意义 - iRe-VLA方法为解决大模型在机器人控制中落地难的问题提供了切实可行的方案,其优势体现在训练稳定性、算力分配的经济性以及持续学习能力上 [61][65] - 该工作与海外PI的π*0.6研究共同揭示了VLA在线强化学习技术的发展前景,未来研究方向包括高效探索、稀疏奖励下的学习以及大规模VLA的稳定RL算法构建等 [63]
具身智能的黄埔军校,都有哪些东西?
具身智能之心· 2025-12-07 11:03
文章核心观点 文章旨在推广“具身智能之心知识星球”社区,该社区定位为国内首个具身智能全栈技术交流平台,通过汇总行业信息、技术路线、开源资源及提供交流与求职服务,为从业者、研究者和学习者提供一站式支持,以缩短学习路径并促进产业、学术与人才之间的闭环连接 [1][20][22] 行业生态与公司汇总 - 社区汇总了从事具身大脑与本体研发的公司,并指出本体研发领域竞争激烈(“卷不太动了”)[1] - 汇总了国内外各类具身相关机器人公司,业务覆盖教育、宠物、工业、救援、物流、交互、医疗等多个方向 [26] - 社区成员来自国内外知名高校实验室及机器人头部公司,高校包括斯坦福大学、加州大学、清华大学、西湖大学等,公司包括智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用等 [21][22] 机器人本体产品与平台 - 推荐了数款适合科研的机器人本体产品,包括SO-100系列、openarm系列、XLerobot系列 [2] - SO-100及其升级版本能够运行VA和VLA算法,实现常见功能 [2] - Openarm是一款双臂任务框架,已有几家公司开始生产相关本体,缺乏移动能力,但可满足叠衣服、pick and place等任务,其VR版本在数据采集上体验更佳 [4] - XLerobot具备一定的移动能力,适合入门科研与个人开发,可适配移动操作任务 [6] - 提及了其他开发平台,如方舟无限、星海图、宇树的几款本体,但指出其成本较高,需要一定资金投入 [8] 技术路线与算法方向 - 社区收拢了广泛的技术路线,包括VLA(训练、无需训练方式、VLA+RL、VLA+世界模型、轻量化、部署等)、VLN(时间语言、目标导航、点导航等)、运控(强化学习、MPC、WBC)、仿真(通用、真实)、触觉感知等多个方向 [8] - 汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [22] - 提供了详细的技术学习路线,涵盖具身智能感知、交互、强化学习全栈、VLN、VA/VLA、多模态大模型、Diffusion Policy、传感器融合、机械臂控制、机器人导航、世界模型等超过20个具体方向 [22] 部署方案与算力平台 - 当前部署大多集中在云端推理 [8] - 边缘侧基于索尔的VLA模型方案已逐渐落地,小鹏等公司基于自研芯片已完成VLM/VLA的部署 [8] - 对于100T以下算力平台的部署,目前方案很少,未做推荐 [8] 社区资源与服务 - 社区汇总了具身智能多个研究方向的国内外知名实验室,供读研、申博、博后参考 [24] - 汇总了大模型、人形机器人等行业相关研报,以了解行业发展与工业落地情况 [28] - 汇总了机器人导航、动力学、运动学、路径规划、视觉控制等多个方向的PDF书籍,供基础学习 [31][32] - 汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等品牌 [34] - 汇总了机器人仿真、抓取、控制、交互、感知等领域的开源项目,助力快速上手 [36][37] - 汇总了国内外知名ToF厂家、产品、技术手册及综述 [38] - 汇总了数据采集相关方案,包括遥操、动作捕捉、AR等 [39] - 汇总了具身感知、触觉感知、导航、大模型、机械臂抓取等多个领域的开源数据集 [41] - 汇总了通用与真实场景的机器人仿真平台 [43] - 社区与多家具身公司建立了岗位内推机制,可第一时间对接简历 [19][20] - 社区邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,可为成员答疑解惑 [20] - 社区提供持续的直播分享与圆桌论坛,内容涵盖本体、数据到算法,探讨行业现状与待解决问题 [9][10] - 社区成员已近3000名,涵盖近200家具身公司与机构 [20][88]
已经有7所高校,在悄悄地设立具身专业了......
具身智能之心· 2025-12-06 11:11
行业趋势:高校加速布局具身智能本科专业 - 除清华大学与上海交通大学外,另有6所双一流高校正在申请增设“具身智能本科专业”,表明高等教育体系正积极回应产业对具身智能领域人才的迫切需求 [1] 高校专业申报详情 北京航空航天大学 - 专业设置在机械工程与自动化学院,基于已有的机器人工程(2017年开设)和人工智能(2019年开设)专业建设经验 [3][4] - 年度计划招生人数为30人,其中预计升学20人,定向就业10人 [3][5] - 人才需求调研涉及宇树科技、九号机器人、邀博机器人、智元机器人、度量科技、青瞳视觉等公司,预计提供共10个就业岗位 [5] 北京理工大学 - 专业设置在人工智能学院,依托人工智能、机器人工程、自动化等学科建设经验 [6] - 年度计划招生人数为120人,规模为已披露高校中最大,其中预计就业50人,升学70人 [6][7] - 人才需求调研覆盖广泛,包括中国兵器工业集团(10人)、中国航天科技集团(7人)、华为(5人)、阿里巴巴、宇树科技(5人)、比亚迪、小米(3人)、字节跳动(3人)、腾讯(3人)、顺丰(2人)及北汽集团等企业 [7] 北京邮电大学 - 专业设置在人工智能学院,主要基于人工智能专业建设经验 [8] - 年度计划招生30人,预计就业与升学各15人 [9] - 人才需求调研企业包括北京字节跳动(1人)、美团(2人)、阿里巴巴(2人)、中国航空集团(1人)、北京人形机器人创新中心(1人)、亿航智能(2人)、中国电信、华为、小鹏汽车(1人)、傅利叶智能(1人)等 [10] 浙江大学 - 专业归属于控制科学与工程学院,基于机器人工程、人工智能等学科建设经验 [11] - 年度计划招生30人,预计升学20人,就业10人 [12] - 人才需求调研企业包括杭州云深处科技(1人)、微分智飞(1人)、深圳元戎启行(1人)、逻腾科技(1人)、比亚迪(1人)、中车株洲所(1人)、浙江大学湖州研究院(1人)、杭州华为(1人)、中航西飞(1人)等,另有选调生岗位(1人) [12] 其他申报高校 - 根据教育部公示名单,申请增设具身智能本科专业的高校还包括东北大学和西安交通大学 [2]
字节前技术负责人联手清华姚班校友创业!
具身智能之心· 2025-12-06 00:02
文章核心观点 - 由清华姚班校友领军的中国初创公司“词元无限”开发的编码智能体InfCode,在SWE-Bench Verified和Multi-SWE-bench-CPP两项权威基准测试中均取得第一名的成绩,标志着AI编程从注重快速原型的“感性时代”(Vibe Coding)进入了面向企业级复杂工程的“工程时代” [6][9] - InfCode的技术突破主要体现在其多智能体体系,能够解决传统AI编程在大型代码库、跨文件修改和C++等系统级语言中面临的挑战,为企业引入AI编码提供了从“单体提效”走向“组织进化”的新范式 [8][12][17] AI编程范式演进与行业基准 - AI编程正从传统大模型生成代码片段,演进为强调自主性、全流程覆盖和工程实用性的“编码智能体”(Coding Agent)时代 [10][11] - **SWE-Bench Verified**:由普林斯顿大学等提出、OpenAI升级的权威基准,包含来自真实GitHub项目的Python问题,要求智能体解决问题且不破坏其他功能 [11] - **Multi-SWE-bench**:由字节跳动等机构于2025年推出,覆盖Java、TypeScript、JavaScript、Go、Rust、C与C++七种语言,包含1632个人工验证的修复任务 [11] - 系统级语言(如C++)的修复任务远难于高级语言,通常需要一次修改200多行、涉及7个文件,导致大语言模型表现显著降低,领先模型的解决率往往不足8% [12][16] 公司产品InfCode的性能表现 - 在**SWE-Bench Verified**基准上,InfCode以Pass@1得分**79.4%** 刷新世界最佳记录(SOTA),远高于公开排行榜上GPT-5、Claude等顶尖模型约70%的成绩 [7][14] - 在**Multi-SWE-bench的C++子集**上,InfCode达到**25.58%** 的解决率,大幅领先于Claude 3.7 Sonnet的**8.59%**、DeepSeek V3的**7.75%** 以及Qwen2.5-72B-Instruct几乎为零的解决率 [7][15][16] - 该成绩体现了产品在复杂语法和大型项目中生成正确补丁的能力,对工业界具有重要价值 [17] InfCode的核心技术亮点 - **基于功能意图的复杂上下文定位**:提出“代码意图分析”机制,超越传统基于向量相似度的RAG,通过理解自然语言背后的功能意图并将其映射到具体实现单元,精准定位问题代码,尤其在无堆栈信息的条件下表现突出 [20][21] - **基于AST的结构化检索**:自研基于抽象语法树的结构化检索引擎,通过Tree-Sitter构建完整语法树,提供如FindClass、FindFunction等语法层API,实现语法感知搜索,在C++等复杂语言中能高精度定位bug,避免传统文本搜索工具(如grep)的噪声问题 [22][23][25][26][28] - **对抗式双智能体生成架构**:首创由代码补丁生成器与测试补丁生成器构成的对抗式双智能体架构,二者在闭环中交替迭代,使补丁在鲁棒性与完备性上持续演化,达到工程级质量,契合了下一代编码智能体迭代-验证-优化的核心范式 [29][30][31][32][33] 产品的工程化流程 - 修复流程分为**生成**与**筛选**两阶段 [35] - **生成阶段**:系统并行启动多个独立容器运行修复链路,允许模型查看代码库、运行测试、分析错误,并最多进行五轮迭代以产生多样化候选补丁 [40] - **筛选阶段**:在真实构建和测试环境中重放每个补丁,除验证测试通过外,还考虑行为一致性、稳定性和副作用,最终选出具有更强工程完整性与可维护性的补丁 [40] 公司团队背景与战略 - 核心团队由**清华姚班校友**带队,拥有顶尖技术实力,并融合了技术前瞻、产品化能力与商业化思维 [6][42] - 团队领军人物**杨萍**曾在字节跳动主导创立公司首个软件工程实验室,其孵化的内部AI Coding产品已全面覆盖公司研发体系,对在超大规模组织中应用AI有深刻理解 [42] - **CTO 王伟**来自清华姚班,曾带队在SWE-Bench获得全球第二的成绩,具备扎实的大模型与智能体算法工程经验 [42] - **商业化负责人 李莹**拥有十余年AI产业落地经验,曾主导完成大模型To B领域数亿元规模的项目落地,具备将技术价值转化为商业回报的能力 [43] - 团队汇聚了来自字节、百度、微软等顶尖企业及清华、北大、哥大、MIT等世界名校的人才,构成“顶尖老将 + 新生代骨干”组合,多个重要岗位由00后领衔 [43] - 公司对AI Coding赛道的认知已从“工具效能”提升转向对软件工程全生命周期的重构(AI SWE),致力于打造提供端到端价值闭环的“数字员工”平台,并通过“Coding + 细分行业”的深度融合构建商业生态闭环 [44]
对话多个行业大佬!VLA与RL方案在真机上的部署怎么样啦?
具身智能之心· 2025-12-06 00:02
直播活动概览 - 具身智能之心公众号将举办一场主题为“VLA与RL的真机部署 如何更好落地”的线上直播 [13] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [25] - 直播将围绕VLA算法与RL落地问题展开,探讨多个具体技术话题 [3][16] 分享嘉宾背景 - **隋伟 (地瓜机器人副总裁)**:曾任职地平线,负责机器人与自动驾驶的2.5D及3D视觉算法研发,带领30人团队开发了高阶自动驾驶BEV感知方案并搭建了先进的4D标注系统,其成果已在数百万片旭日系列芯片和多个量产车型上应用,发表论文20余篇,拥有专利40多项 [4][5] - **张强 (北京人形机器人首席研究员和学术委主任)**:研究方向包括人形机器人运动控制、多模态感知及具身智能体,曾在Fourier GR-1、PNDbotics Adam及天工机器人平台担任强化学习算法核心研发,发表数十篇顶会顶刊论文 [6][7][8] - **汪天才 (原力灵机合伙人)**:原旷视科技高级研究员,是端到端自动驾驶算法PETR及多目标追踪算法MOTR的核心作者,发表顶会顶刊论文30余篇,谷歌学术引用量超6000次,PETR论文入选2022年最具影响力百篇AI论文 [9][10] - **于超 (清华深圳研究院助理教授)**:研究方向为强化学习驱动的决策智能,以第一/通讯作者发表顶级会议期刊论文50余篇,谷歌学术总引用4600余次,其NeurIPS 2022论文MAPPO引用超2000次 [11][12] 核心讨论议题 - VLA的架构和模型目前存在哪些痛点 [7][16] - 让机器人“舞得更好”的全身运动控制方案还有哪些进化空间 [7][16] - VLA与强化学习如何更好地在真机上部署,包括如何挑选硬件“板子”以及轻量化实现方法 [7][16] 后续深度内容 - 直播完整版深度内容、技术细节、QA及未公开彩蛋已独家上线知识星球「具身智能之心」 [28] - 知识星球涵盖多个深度技术解析主题,包括灵巧手设计与难题、Agent概念探讨、VLA推理加速框架Spec-VLA以及CMU的跨实体世界模型等 [28]
最新分层VLA模型:使用失败的演示数据,也能优化VLA模型!
具身智能之心· 2025-12-06 00:02
文章核心观点 - 提出了一种名为VINE的新型分层视觉-语言-动作模型 该模型创新性地将机器人操作数据中的失败经验转化为结构化学习信号 通过失败感知的树搜索规划机制 显著提升了模型在复杂和未见场景中的任务成功率和鲁棒性 [2][3][4] 现有VLA模型的局限与研究目标 - 传统视觉-语言-动作模型依赖人类遥控收集的成功演示数据训练 而数据采集过程中产生的大量失败尝试常被当作噪声丢弃 [2] - 这些失败数据蕴含着政策脆弱点的关键信息 单纯依赖成功数据的模型难以应对复杂环境中的不确定性 在未见场景中鲁棒性大幅下降 [2] - 研究目标是构建分层VLA模型 将失败经验转化为结构化学习信号 在不改变机器人核心技能的前提下 提升复杂操作任务的成功率和鲁棒性 [3] 模型架构与核心设计理念 - VINE模型基于分层强化学习构建 借鉴认知双系统理论 将高层推理与低层控制分离 形成System 2和System 1两大核心模块 [4] - 核心设计理念包括分层解耦 高层专注可行性规划 低层专注动作执行 失败信号仅注入高层规划 [7] - 采用失败感知机制 通过失败数据训练价值函数 让规划过程能预判高风险路径并提前剪枝 [7] - 支持离线训练 完全基于离线遥控数据进行训练 降低了落地成本 [7] 关键技术细节 - 问题形式化基于半马尔可夫决策过程 高层抽象为节点和边构成的SMDP 低层为标准马尔可夫决策过程 [7] - System 2作为元控制器 通过树搜索实现可行性导向规划 其核心包括世界模型与候选生成 失败感知价值函数以及树搜索算法 [6][8] - 失败感知价值函数估算从节点出发先到达目标集再到达失败集的概率 通过成功和失败数据联合训练 确保对失败路径的敏感 [6] - 树搜索采用批量蒙特卡洛树搜索 通过失败数据训练的价值函数剪枝脆弱分支 优先选择高可行性路径 [8][9] - System 1负责将高层规划的子目标序列转化为连续控制动作 仅基于成功数据训练 采用流匹配模型生成高频率动作块以适应20Hz控制需求 [10] 实验设置与核心结果 - 实验环境包括仿真环境和真实环境 均设置了见过和未见过场景以测试泛化能力 [12] - 仿真任务包括插头插入和抽屉打包 使用了人类遥控轨迹数据集 其中插头插入450条 抽屉打包240条 [17] - 在插头插入任务中 VINE在未见过场景中的成功率达到0.422 比最佳基线提升了26.7% 平均成功率达0.611 领先所有基线 [18] - 在抽屉打包任务中 VINE在未见过场景的成功率达0.675 比基线提升17.4% 平均成功率达0.752 相对提升10.1% [19] - 变体分析表明 树搜索和失败数据均为关键 无树搜索的变体在未见过场景成功率仅0.244 无失败数据的变体为0.525 而完整VINE达到0.675 [19] - 在真实世界实验中 VINE在见过场景的海绵收纳成功率达0.75 毛巾收纳达0.55 均优于基线 在未见过场景中 VINE的海绵收纳成功率达0.65 毛巾收纳达0.55 大幅领先基线 [21][23] 消融实验与模型分析 - 树搜索算法中 蒙特卡洛树搜索比深度优先搜索在未见过场景成功率高3.1% 且延迟减少9.7秒 [25] - 在多模态骨干网络融合中 当插值权重λₘ=0.6时性能最优 见过场景成功率0.800 未见过0.422 证明了动作先验与语言推理平衡的重要性 [27][29] - 添加不确定性触发的重规划模块后 抽屉打包未见过场景成功率从0.675提升至0.740 缓解了执行过程中的状态漂移问题 [30] 核心优势与贡献 - 有效利用了失败数据 将失败从噪声转化为可行性约束 通过价值函数直接指导规划 大幅提升了泛化能力 [33] - 分层架构具有灵活性 高层规划可通过调整搜索宽度适应任务复杂度 低层执行保持稳定 无需全模型重训 [33] - 支持离线训练 完全基于现有遥控数据 无需在线交互 降低了机器人部署的安全风险和成本 [33] - 研究提出了融合失败经验的分层VLA框架 首次将失败数据作为结构化规划信号 [33] - 设计了基于2D场景图和树搜索的失败感知规划器 通过价值函数量化路径可行性 实现前瞻性风险规避 [33] - 通过仿真与真实环境的全面验证 证明了失败数据和分层推理对提升鲁棒性的关键作用 [33]