VLA模型

搜索文档
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
具身智能之心· 2025-08-02 00:02
新加坡国立大学VLA-OS研究 - 首次系统解构机器人VLA模型任务规划与推理机制 提出任务规划表征与模型范式的统一对比框架 [2] - 构建包含10,000条多模态轨迹的标注数据集 覆盖2D/3D视觉、仿真/现实环境、单/双臂操作等多样化场景 [25][29] - 设计三大可组合VLA范式:ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA 实现公平对比 [23] 技术架构创新 - 采用Qwen 2.5 LLM基座构建0.5B-7B参数VLM家族 配合DINO+SigLIP混合视觉编码器 [20] - 开发标准化动作头与规划头模块 支持KV Cache提取技术实现三大范式灵活组合 [22] - 创新性定义语言/视觉/目标图像三种规划表征 建立32x32网格化空间语义标注体系 [26][30] 核心研究发现 - 视觉规划表征相比语言规划成功率提升13.2% 推理速度提高100倍 [43][58] - Hierarchical-VLA范式展现最强泛化能力 任务分解准确率比Integrated-VLA高4.5% [52][55] - 模型规模超过1B参数时性能下降 在5,000条数据场景下0.5B模型最优 [62][64] 行业应用指南 - 推荐视觉表征与目标图像规划为主 语言规划为辅的混合方案 [68] - 资源充足时优先选择Hierarchical-VLA 资源受限采用隐式Integrated-VLA [68] - 确认任务规划预训练有效性 但需注意持续学习中的遗忘问题 [67][73]
VLA+强化学习,会催生更强大的系统!
具身智能之心· 2025-07-31 08:04
机器人基础模型发展 - RT-2作为首个机器人VLA模型,通过将机器人控制问题构建为视觉问答任务实现基础功能,基于PaLI-X和PaLM-E预训练模型开发[5][7] - RT-X跨具身数据集整合34个实验室、22种机器人数据,通用模型性能比单一场景专业模型平均提升50%,分布外指令处理能力提升3倍[10][11] - 第二代VLA模型采用连续动作分布设计(如扩散模型/流匹配模型),支持高频率精细控制,动作生成跨度达50个时间步[15][17][19] PI公司技术迭代 - π0模型基于30亿参数Polyglot-LLM开发,集成动作专家模块,输入包含1-3张图像+语言指令,可控制多样化机器人形态[18][19] - π0训练数据集达10,000小时,融合RT-X数据后实现复杂任务微调,如折叠盒子(成功率66%)和衣物(抗干扰恢复能力突出)[21][23][26] - π0.5版本新增分层推理架构,支持长期任务(如卧室清洁),仅3%移动操作数据但实现真实场景迁移应用[28][30][32] 技术融合方向 - 当前VLA模型依赖模仿学习,未来将通过强化学习(RLPD算法)优化任务成功率与鲁棒性,采用稀疏奖励+人工干预机制[35][39][43] - RLDG方法尝试将强化学习专家数据整合至VLA,已实现连接器插入等技能泛化,但端到端训练流程仍需突破[45][46] - 视觉编码器+图像分类奖励机制提升强化学习效率,动态任务如煎蛋翻面、家具组装验证技术互补潜力[42][43]
PI联合创始人,机器人大神!详解VLA+强化学习,催生更强大的系统
具身智能之心· 2025-07-30 14:03
以下文章来源于RoboX ,作者RoboX RoboX . 从AI汽车到机器人,我们关注最具潜力的超级智能体! 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 7 月 27 日,在 2025 WAIC 上,由智元机器人主办的「智启具身论坛」如期举办。在其重量级嘉宾阵容中,我们 首先编译整理了 Sergey Levine 的演讲内容,供大家参考: 开端:RT-2的「视觉问答」 "几年前,基于 首个机器人基础模型,我的学生凯文·布莱克发送了一个指令——'把茄子放进锅里'。当时的基础模型运行在远程服务器上,且 运行的是一个我们没有开发、也不太清楚工作原理的模型。凯文能够向这个模型发送指令,然后机器人就完成了任务。 " 在演讲的开头,Levine 回忆道,像这样简单的任务,却已经让凯文研究了很长一段时间。因此,这一指令的成功,让他们看到了新型系统势 的能力,以及其不可阻挡的趋势: " 随着我们开发出可远程调用的机器人基础模型,这将释放出一种力量,使任何机器人都能 ...
国产人形机器人硬件+应用加速落地
2025-07-14 08:36
纪要涉及的行业和公司 - **行业**:国产人形机器人行业 - **公司**:智元、宇树、优必选、长江机械、Figer AI、小鹏、小米、广汽集团、华为 纪要提到的核心观点和论据 行业进展 - **投资与订单**:智元和宇树中标中移杭州信息技术有限公司 2025 - 2027 年代工服务采购项目,总金额 1.24 亿元,智元获 7800 万元,宇树获 4605 万元;天宫行者标配版售价约 30 万元,2025 年产量和订单预计超 1000 台[1][2] - **产业链推进**:2025 年长江机械发布 14 篇人形机器人系列深度报告;国内外通用人形机器人商业公司约 150 家,国内超 80 家,半数以上为高校背景创业[1][3][4] - **模型开发应用**:国内企业在 VRA 和 VLA 模型开发及应用取得进展,构建数据通用化层次,搭建素材平台,利用大规模数据复用,资源链和优必选链进展受关注[3][8] - **产业链发展**:国内人形机器人产业链发展迅速,本体进展积极,贴近生产生活场景,数据应用成优势,2025 年政策引导资本开支显性,国产链条表现优于海外企业[9] 公司进展 - **优必选**:2025 年等待 Walker S Two 发布,展示可更换背部电池等功能;向第三方客户小批量出货工业订单;与国创中心合作的天宫行者获科研教育界青睐,交付订单预计超预期[1][5] - **宇树**:运动控制领先,展示四足狗爬山涉水及 H One 舞蹈能力;基旺仿人形机器人减重优化成本,展示跑步、越障和上肢抓取能力[1][6] - **智元**:2025 年初提出五款商业化产品,探索软件平台;积极采集数据迭代技术,计划每周采集 50 万条数据,与其他厂商合作构建 H BOT 数据集[1][7] 应用前景 - **巡检领域**:电力巡检中可替代人工进行高空巡检,提高安全性;通过训练框架能执行简单设备运动状态监测及开关操作任务;降价后性价比高,电力巡检场景复制潜力大,适用于化工园区、矿山巷道等[10][11] - **搬运领域**:具备识别物体位置和执行操作任务能力,可替代人工完成工厂内产品运输、搬运、上下料等任务,与无人物流车协同实现无人化工厂环节[10][12][13] - **纺织领域**:纺织业为劳动密集型行业,机器人可替代部分人工操作;随着技术进步,人形机器人 VR 模型对柔性材料理解深入,未来可替代更多场景[10][16] 其他重要但可能被忽略的内容 - 小鹏、小米、广汽集团等车企和科技集团积极布局国内市场,展示如小鹏 Aero 行走能力等创新成果[8] - 海外企业 Figer AI 在物流产线分拣包裹动作方面有优秀表现[9] - 当前市场本体发展百花齐放,本体加场景应用加速产业化[17]
EmbodyX最新!VOTE:集成投票&优化加速VLA模型的通用框架,吞吐量加速35倍!
具身智能之心· 2025-07-13 17:48
具身智能与VLA模型优化 核心观点 - VOTE框架通过无分词器微调和集成投票策略显著提升VLA模型的推理速度(35倍加速)和泛化能力(成功率提升20%以上)[4][9][31] - 该方法摒弃传统扩散技术和额外视觉模块,采用单一<ACT> token压缩动作块表示,使边缘设备吞吐量达42Hz[9][21][31] - 在LIBERO和SimplerEnv基准测试中超越CogACT等SOTA模型,WidowX机器人任务平均成功率54.2%[28][32] 技术背景 - 现有VLA模型依赖动作分词器或扩散技术,导致CogACT延迟增加33.8%内存开销,SpatialVLA因多模态输入使token序列延长50%[7][11][13] - 传统方法在跨形态数据训练时需162K-200K轨迹数据,而VOTE通过LoRA微调(秩r=32)降低70K步训练成本[24][25] - 7自由度动作空间设计(平移+旋转+gripper状态)兼容多样化机器人控制需求[16] 创新架构 - 引入<ACT> token替代传统分词器,将ND个动作解码简化为1次MLP前向传播,A6000 GPU吞吐量达145Hz[18][19][21] - 动态投票集成策略基于余弦相似度(阈值τ=0.5)筛选历史动作,错误预测过滤效率提升40%[22][23] - 双token变体支持16动作块解码,NVIDIA Orin平台内存占用仅0.7%[31][32] 性能验证 - LIBERO测试中块大小8的单token方案最优,跨任务成功率超OpenVLA基准线15-25%[27][32] - SimplerEnv评估显示每帧3倍延迟优化,WidowX任务执行误差降低3% vs CogACT[28] - 消融实验证实block大小与吞吐量正相关,但单token8块配置保持精度优势[32]
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
机器之心· 2025-07-13 12:58
视觉-语言-动作(VLA)模型研究进展 - 视觉-语言-动作(VLA)模型因多模态理解与泛化能力成为机器人领域重要研究方向 但高频率和精细操作任务中仍受推理速度瓶颈制约[2] - Jacobi解码虽能提升推理效率 但因需要较多迭代次数 实际加速效果有限[3] CEED-VLA核心技术突破 - 采用一致性蒸馏训练策略 使模型单次迭代可预测多个正确动作token 结合混合标签监督机制缓解误差积累[4][9] - 提出早期退出(early-exit)解码策略 放宽Jacobi解码收敛条件 实现4.1倍推理加速与4.3倍解码频率提升[5][10] - 框架通过预训练VLA模型生成Jacobi轨迹数据集 采用KL散度构建一致性损失 混合使用教师模型与真实数据监督训练[13][15][16] 实验验证效果 - 在CALVIN ABC-D和LIBERO-Long基准测试中 保持任务成功率同时实现4倍以上推理速度与执行频率提升[18] - 真实世界实验中 机械臂操作频率提升使灵巧任务成功率超过70% 显著优于基线模型[22][24] 方法论创新点 - 首创结合一致性蒸馏与混合标签监督的训练范式 同步保障动作生成精度与速度[8][9] - 首次发现Jacobi解码存在低效迭代瓶颈 通过动态调整收敛条件实现解码效率突破[10][17] - 构建完整技术闭环:从Jacobi轨迹采集、一致性训练到早期退出解码的全流程优化[13][14]
VLA爆发!从美国RT-2到中国FiS-VLA,机器人的终极进化
具身智能之心· 2025-07-09 22:38
具身智能与VLA模型发展 - 2025年全球具身智能赛道爆火,视觉语言动作模型(VLA)成为核心驱动力,从美国RT-2到中国FiS-VLA实现技术快速迭代 [4][6][7] - 谷歌DeepMind、Figure AI等硅谷领军企业加速布局VLA,谷歌发布首个离线VLA模型实现机器人精准离线操控 [8][9] - 中国智平方联合高校推出FiS-VLA模型,通过快慢双系统架构解决机器人操控效率与推理能力矛盾问题 [10][12] 技术演进关键节点 - 谷歌RT-1(2022年)开创机器人Transformer模型,首次实现"预训练+微调"范式,完成多步骤任务如"把可乐放入冰箱" [23][25][27] - 微软ChatGPT for Robotics(2023年)实现零样本任务规划,但暴露语言模型在动作控制上的局限 [31][32][34] - 谷歌RT-2(2023年7月)确立VLA范式,将动作离散化为文本token联合训练,在未见任务上成功率超50% [38][39][40][46] 中国技术创新突破 - 智平方推出RoboMamba模型,引入Mamba架构使推理速度达主流模型3倍,仅微调0.1%参数实现SE(3)位姿预测 [45][47][50][52] - HybridVLA模型融合自回归与扩散架构,在仿真任务成功率提升8%,真实环境提升11% [74][77][79] - FiS-VLA实现21.9Hz控制频率,是CogACT的2倍以上,在RLBench任务平均成功率69%领先基线方法 [105][114][115] 国际竞争格局 - 开源模型OpenVLA以7亿参数超越55亿参数的RT-2-X,29种操作任务成功率高出16.5% [54][57][58] - Figure AI发布Helix双系统模型,系统1(80M参数)与系统2(VLM主干)实现7-9Hz工作频率 [88][89][93][96] - 英伟达开源GROOT N1人形机器人基础模型,融合互联网与机器人数据实现广义推理 [97][98][101] 行业应用前景 - VLA技术推动机器人从实验室走向工业落地,已在人形机器人和智能制造领域部署应用 [123][124] - π系列模型实现开放世界泛化,在未见家庭场景零样本完成清洁任务,标志技术具备大规模推广能力 [63][69][70] - 技术演进形成"自回归到扩散到混合"与"非端到端到快慢耦合"双路径,推动机器人向通用能力进化 [122]
智能网联汽车ETF(159872)政策与技术共振,车联网基建+高阶自动驾驶双主线凸显
新浪财经· 2025-06-17 10:25
市场表现 - 智能网联汽车ETF(159872SZ)截至06月17日10:01上涨000% 其关联指数CS车联网(930725CSI)上涨015% [1] - 成分股表现分化:上汽集团上涨063% 万马科技大涨539% 千方科技上涨136% 移远通信上涨073% 大华股份上涨045% [1] 政策动态 - 交易商协会召开银行间市场支持汽车企业高质量发展座谈会 中国一汽 上汽集团等9家车企参与讨论融资需求及转型建议 [1] - 协会表态将强化债券市场制度创新 支持车企向智能化 绿色化转型方向升级 [1] 技术进展 - VLA模型整合视觉 语言和行动模块 使自动驾驶平均无接管里程提升至50-100公里 显著优于传统方案的1-10公里 [2] - 技术升级带来算力需求激增:理想汽车在OrinX芯片部署的VLA模型参数规模达4B级别 [2] - 海格通信基于"北斗+5G+C-V2X"构建车路一体通信网络 已参与国家级车联网试点项目 [2] 产业链关联 - 智能网联汽车ETF关联个股覆盖整车制造(上汽集团 比亚迪) 零部件(华域汽车 德赛西威) 电池(宁德时代) 及智能技术(科大讯飞 大华股份)等领域 [3]
能干活才是未来!五大先锋公司激辩从实验室到产业化的跨越式突破
机器人圈· 2025-06-11 19:43
具身智能技术突破 - 宇树科技G1机器人凭借自主决策算法与高动态运动控制,在机甲格斗中击败多国劲旅夺冠,验证了全身协调性和毫秒级反应能力 [2] - 北京人形机器人创新中心天工2.0完成半程马拉松仅需2小时40分钟,具备多地形适应能力,上肢灵巧手系统自由度更高、负重能力更强 [3] - 银河通用Galbot轮式机器人在商超复杂环境中实现"所见即所得"抓取能力,自研VLA模型在货架密集场景中品识别与抓取成功率超高 [6] - 穹彻智能机器人通过力觉-位置双重反馈完成刮胡子、挖冰淇淋等精细操作,力反馈技术已在食品加工行业规模化落地 [7] - Physical Intelligence的π-0.5模型通过100个家庭场景训练实现第101个陌生家庭任务高效泛化,证明算法架构优化比数据堆砌更重要 [8] 产业落地进展 - 银河通用在北京部署7家24小时无人药店,由人形机器人承担夜间接单配送任务,计划年底前扩展至北上广深并进军工厂料库管理 [9] - 机器人赛事被视为产业化催化剂,既能展示技术能力又能连接产业界与潜在客户,未来需要更多体现生产力和实际应用价值的"技能型"比赛 [8] - 行业共识认为机器人稳定运行2000小时无故障是产业爆发临界点,当前重点是从"炫技"转向"干活"的范式转变 [9] 技术形态争议 - 针对人形机器人是否最优解的争议,有观点认为家庭环境天然适配人形设计,长远看仍是推动具身智能落地的最理想选择之一 [9] - 宇树科技提出"形态解耦"理念,认为机器人下半身可采用轮式或四足,上半身保留类人结构以利用现有动作数据 [10] - 未来进入AGI阶段后机器人外形将极大多样化,根据不同任务出现各种更高效的设计 [10] 模型技术瓶颈 - VLA模型虽在简单任务中表现优异,但在复杂、高不确定性任务空间中仍有明显局限 [11] - 当前模型在长序列任务中的成功率达不到实际应用所需水平,即便有无限数据也难以在精细操作任务上接近100%成功率 [11]
智源大会热议人形机器人:技术趋势与商业现实
中国经营报· 2025-06-08 21:39
具身智能行业发展现状 - 2025年北京智源大会上展示具身智能真实应用场景,包括宇树科技G1机器人格斗、银河通用机器人Galbot零售抓取、天工机器人水果摆盘等[1] - 具身智能领域迎来爆发式增长,成为AI与机器人技术融合核心赛道,智源大会首次将具身智能升级为全天分论坛并加入人形机器人主题[1] - 人形机器人赛事蔚然成风,包括春晚跳舞、马拉松、格斗比赛及8月运动会,企业通过表演和赛事展示技术并产生商业价值[2][3] 企业技术突破与研发进展 - 宇树科技16台H1机器人春晚表演舞蹈,5月举办业内首个人形机器人格斗比赛,G1"AI策算师"夺冠[2] - Physical Intelligence研发通用机器人基础模型π0,通过VLA模型实现陌生环境下80%-90%任务完成率,目标达到100%稳定性[4] - 银河通用采用合成数据为主+真实数据校准的训练范式,通过十亿级仿真数据实现零样本泛化,已在零售、工业场景落地[4] - 千寻智能利用互联网视频数据预训练模型,结合强化学习解决仿真与现实差距,突破数据采集成本高的瓶颈[6] 商业化应用落地案例 - 宇树科技上半年人形机器人租赁市场火爆,已产生产业价值[7] - 银河通用在北京开设7家24小时无人药店,机器人负责拣药对接骑手,计划年内在北上深扩展至100家[7] - 星动纪元提出具身智能需跨越三阶段鸿沟:创新者阶段已开始,未来将进入to B行业和to C消费级市场,终局规模达亿级[7] 技术发展路径与行业趋势 - 智源研究院探索两条发展路径:数字智能物理化(大模型延伸至物理世界)和低成本功能化(垂直场景降本+规模化)[8] - 行业共识认为小型专用机器人可能率先渗透家庭与产业场景,为具身智能长期发展奠定基础[8] - 机器人比赛被视作重要技术训练场和产业化桥梁,中国赛事规模远超海外,获得国际企业关注[3]