Workflow
VLA模型
icon
搜索文档
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-16 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yang Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在多模态大模型的基座上, 视觉-语言-动作(Visual-Language-Action, VLA) 模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然而, 现有VLA基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练 (Post-Training),特别是当目标场景本 体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了VLA模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训练阶 段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。 为了解决该问题, 中国电信人工智能研究院(TeleAI)具身智能团队 提出了一种"对齐-引导-泛化"(Align then Stee ...
正式开课!具身大脑和小脑算法与实战教程来啦
具身智能之心· 2025-09-15 08:04
在通往通用人工智能(AGI)的探索中,具身智能逐渐成为关键方向之一。相比于传统的预设动作序列不 同,具身智能强调智能体与物理环境的交互与适应,聚焦于如何让智能体具备在物理世界中感知环境、理 解任务、执行动作并反馈学习的能力。 具身智能技术的发展经历了从低层感知到高层任务理解与泛化的持续演进,其核心目标是不断提升机器人 在真实世界中自主感知、理解和行动的能力。 第一阶段: 技术研究主要聚焦于抓取位姿检测(Grasp Pose Detection),通过点云或图像预测合适的末端 执行器姿态,实现静态物体的抓取。然而这一阶段的策略多为单步决策,缺乏对任务上下文和动作序列的 建模,难以胜任复杂操作任务。 而具身智能领域最重要的两个部分:大脑和小脑构成了具身机器人最重要的模块,如果类比于人,大脑负 责思考感知(主导语义理解和任务规划),小脑负责执行(高精度的运动执行)。 国内外相关领域产业分析 近2年,许多具身明星团队陆续出来创业,成立了多家非常有价值的公司。星海图、银河通用、逐际动力等 团队陆续从实验室走向商业和工业界,推动具身本体和大小脑技术的不断进步。 国内传统大厂,华为于2024年底启动"全球具身智能产业创新中 ...
蔚小理自研智驾芯片:谁在掉队、谁在摇摆、谁在大步向前?
雷峰网· 2025-09-05 20:49
文章核心观点 - 智能驾驶行业正经历算力军备竞赛 车企自研芯片成为关键战略 旨在降低成本、掌握供应链自主权并提升技术竞争力[1][2][3] - 蔚来、小鹏、理想三家新势力车企采用不同自研芯片路径 面临技术挑战、组织架构冲突及资金压力[4][12][16] - 外部芯片供应链存在不确定性 英伟达Thor芯片延期加剧行业自研需求 7nm/5nm制程芯片成为竞争焦点[24][25][35] 车企自研芯片背景与动因 - 智能驾驶算力竞赛始于2021年 英伟达Orin-X芯片算力达254TOPS 领先Mobileye Q5H和特斯拉HW3.0[2] - 自研芯片可降低单车成本约1万元 但需至少100万颗产量摊薄研发成本 且技术有效期仅覆盖1-2代车型[3][12] - 外部供应链风险加剧 Marvell等国际芯片厂商撤出中国 英伟达Thor芯片延期导致供应不稳定[1][11][35] 蔚来自研芯片路径 - 2020年启动自研芯片项目 未经过董事会讨论 李斌凭借资本运作筹集385亿元资金支持研发[7] - 芯片团队规模达400-500人 由华为海思背景张丹瑜领导 采用NPU/ISP/SoC全自研模式 拒绝外包[8][10][11] - 2025年发布5nm神玑NX9031芯片 但研发成本达6亿美元 同年将芯片团队剥离成立独立公司寻求融资[12][15][16] 小鹏自研芯片挑战 - 2021年中美双团队启动研发 因协作问题导致项目难产 北美团队最终裁员[19] - 芯片与算法部门存在资源争夺 地理隔离(上海芯片团队 vs 广东算法团队)加剧协作障碍[22][23] - 2024年首代7nm芯片流片 通过台积电7nm工艺规避晶体管数量限制(300亿个) 二代5nm芯片研发中[24][25][26] 理想自研芯片策略 - 2021年启动自研 团队规模约200人 CTO谢炎整合芯片、OS、模型部门形成统一管理体系[29][31][34] - 初期外包研发遇阻 芯原未能提供完整代码 第二代芯片转为自研前端设计以应对美国芯片禁令[32][34] - 优先布局操作系统再推进芯片 VLA大模型对算力需求推动自研进程[30][34] 行业技术趋势 - Transformer架构向VLA模型迁移 对芯片实时推理算力要求显著提升[4][34] - 台积电7nm工艺每平方毫米集成1亿晶体管 5nm达1.5亿 制程限制影响车企芯片设计选择[25][26] - 算法与芯片研发需协同 但两者存在本质冲突:算法追求迭代效率 芯片要求确定性[4][22] 成本与资金压力 - 蔚来2021-2024年累计研发投入419亿元 主要用于人员成本[10] - 2024年蔚来采购英伟达芯片支出超3亿美元 自研芯片成本优化效果需规模量产支撑[12] - 小鹏芯片研发延迟三次 算法与芯片项目投资均达10亿级别[4]
就在今天|物理智能产业与资本峰会:L3高阶智驾专题暨VLA模型产业白皮书及产业图谱发布
文章核心观点 - 视觉-语言-动作模型(VLA)正成为L3级智能驾驶和具身智能产业的核心技术框架 有望构建类似人类驾驶员的整体认知体系 将重塑产业格局并带来巨大市场机遇 [1][2] 会议议程及参与方 - 国泰海通证券与上汽集团金融事业部高层领导出席致辞 体现金融机构与产业资本对智能驾驶领域的重视 [3] - Momenta作为全球领先自动驾驶公司 通过"一个飞轮"技术洞察和"两条腿走路"产品战略 实现量产辅助驾驶与RoboTaxi的规模化应用 [3] - 车联天下定位全球领先AI智能座舱和机器人系统提供商 多个高通SOC平台全球首发 整合优化大语言模型在智能座舱领域落地 [4] - 觉非科技以数据闭环为核心引擎 通过多传感器融合实现时空数据高效处理 成为AI数据要素主要供给方 [5] - 艾博连科技专注于汽车智能座舱技术革新 通过Al-Link平台实现动态场景生成和零层级交互系统 降低车企开发成本80% [5] - 零一汽车作为新能源重卡科技企业 基于VLA架构推进重卡智能化跃迁 通过垂直集成技术打造运输机器人解决方案 [6] 技术发展趋势 - VLA模型将视觉 语言和动作能力深度融合 形成类似人类驾驶的认知框架 成为实现L3智能驾驶与具身智能的关键技术路径 [1][3] - 智能座舱向AI大模型驱动演进 从"功能堆砌"向"主动智能"跃迁 端云协同架构成为主流技术方案 [4][5] - 数据闭环体系成为智能驾驶高质量发展核心引擎 多传感器融合技术实现高精度时空数据处理 [5] - 情感计算与多模态交互技术推动智能场景创新 显著提升用户体验和开发效率 [5] 产业应用方向 - 乘用车领域量产辅助驾驶解决方案已实现全场景端到端智能辅助驾驶体验 [3] - 商用车领域VLA架构正推动重卡智能化升级 开启绿色高效运输新时代 [6] - 智能座舱系统向情感化 个性化方向发展 形成新的车载交互范式 [4][5] - 自动驾驶商业化路径呈现"量产辅助驾驶+RoboTaxi"双线并行发展态势 [3]
理想汽车-W(02015):反转押注i6表现,有待经营优化、VLA优势赋能
开源证券· 2025-08-31 18:47
投资评级 - 维持"买入"评级 [1][3] 核心观点 - 理想汽车-W 2025年销量表现取决于i6上市能否驱动整体交付势能反转 中期需关注增程产品优化 营销能力提升及VLA优势赋能 [3] - 2025Q2业绩受益于费用率优化和其他营业收益增长 抵消了毛利率环比下滑的影响 季度Non-GAAP净利润环比提升45%至14.7亿元 [3][6] - 公司指引2025Q3收入248-262亿元 交付9.0-9.5万辆 目标9月实现i8累计交付0.8-1.0万台 季度毛利率维持在19%左右 [4] 财务表现与预测 - 2025Q2收入302.5亿元 同比下滑5% 环比提升17% 季度交付11.1万辆 ASP环比下滑0.6万元至26.0万元 [3] - 2025Q2毛利率环比下降0.4个百分点至20.1% 其中汽车毛利率环比下降0.4个百分点至19.4% 服务毛利环比下降1.9个百分点至33.5% [3] - 下调2025-2027年收入预测至1209/1544/1828亿元 同比增速-16.3%/27.8%/18.3% 下调Non-GAAP净利润预测至59/94/135亿元 [3] - 当前市值对应2025-2027年1.5/1.2/1.0倍PS 30.5/19.3/13.6倍PE [3] 产品与技术进展 - 2025年9月增程全系AD Max车型升级VLA 推送含"小理师傅"的完整版及指挥功能 11月或亦有重要更新 [4] - VLA模型短期有望显著提升智能驾驶体验 中期配合2026年自研芯片上车 助力2027年L4智驾落地目标兑现 [4] - i6上市结合产品及营销优化 有望驱动销量趋势反转 [4] 市场表现 - 当前股价91.700港元 总市值1963.19亿港元 流通市值1858.36亿港元 [1] - 近3个月换手率57.3% 一年最高最低股价138.30/71.400港元 [1]
元戎启行CEO周光:幼年期的VLA智驾,强于巅峰期的端到端
经济观察网· 2025-08-31 09:05
产品发布与技术架构 - 元戎启行发布新一代辅助驾驶平台DeepRoute IO 2.0 搭载自研VLA模型 融合视觉感知、语义理解与动作决策三大能力 [2] - VLA模型通过强化学习实现进化 区别于端到端架构的模仿学习 使机器理解行为背后的原因 [2] - 公司策略兼顾激光雷达与纯视觉版本 VLA平台同时支持两种方案以适应不同客户需求 [6] 技术转型动因与行业趋势 - 技术转型直接动因为2024年6月深圳福田保税区场景 测试车因无法理解"车辆左转不受灯控"文字指示导致交通中断 [3] - 行业逐步触及端到端系统性能瓶颈 理想汽车预测VLA可将事故里程提升至人类驾驶10倍(600万公里/次事故)[4] - 行业兴起VLA研发热潮 小鹏汽车、理想汽车等企业均进行相关布局 [7] 商业化进展与规模挑战 - 公司已获得超10款车型定点合作 实现近10万辆具备城市领航辅助系统的量产车型交付 涵盖SUV/MPV/越野车等多车型 [3] - 交付量达10万辆级别后问题被放大 早期千台万台阶段问题概率低 但规模扩大后面临更严格市场监督 [3] 技术优势与创新方向 - VLA模型核心训练目标为防御性驾驶 使AI具备风险敬畏之心 在盲区等场景主动进行预防性预判 [5] - 系统突破视觉遮蔽限制 实现对空间关系理解与推理 而非依赖"穿墙透物" [4] - 技术可复用于机器人/无人驾驶等多移动场景 支持室内外环境泛化应用 [7] 发展前景与技术局限 - VLA模型处于早期幼年期 当前评分仅6分(满分10分) 仍无法实现全无人驾驶且缺乏完全推理能力 [8] - 技术上限远高于端到端方案 "下限超过端到端方案上限" 需新一代高算力芯片支持潜力释放 [8] - 通过实际用户体验而非技术概念灌输推广产品 持续优化复杂场景应对能力 [8]
「摩根士丹利」最新人形机器人研报:主流价值链公司梳理和趋势分析(附报告)
Robot猎场备忘录· 2025-08-28 08:06
摩根士丹利研报核心观点 - 摩根士丹利发布最新人形机器人研报,探讨2025年下半年推动人形机器人领域发展的因素,预测中国市场将迎来订单爆发并被广泛采用,未来中国在该领域优势将扩大,与美国等国家的差距逐步拉开[2][3] - 报告预测人形机器人行业市场规模达5万亿美元,并梳理100家人形机器人及核心供应链上市公司、投资机会、商业化模式和技术壁垒[3] - 市场逻辑从炒作预期切换到聚焦落地,商业价值验证成为支撑估值的核心,能否兑现短期商业价值决定板块上行[6] - 下游落地应用和技术突破是推动市场情绪的两个关键因素[12] 市场动态与趋势 - 2025年头部人形机器人公司将实现初步商业化,但实际场景有待商榷,创企分为以运动能力为亮点的硬件派和以AI能力为亮点的软件派[12] - 硬件派企业如宇树科技、众擎机器人优先选择教育、科研场景落地,其次是展示和表演场景,而非工业场景,宇树科技年度营收突破10亿元,松延动力旗下N2机器人订单数量突破2500台,总金额突破1亿元[13] - 软件派创企如智元机器人、银河通用具备强大AI能力且涉及本体,宣布取得商业化突破,但商用场景经不起推敲,实际有价值场景处于POC阶段[13] - 优必选被花旗银行下调2025年和2026年出货量从500/3000台至300/1000台,但若实现工业场景商业化突破,后续将一骑绝尘[13] 技术发展与创新 - 头部厂商新一代机型进展成为行情催化剂,包括硬件层面突破和软件层面创新[9] - 特斯拉Optimus Gen3据报道重新评估设计,由Ashok Elluswamy接管项目,测试供应商样品并扩大合成数据使用,目标年底发布最史诗演示,敏捷度约等于敏捷人类[9] - Figure AI完成下一代机器人Figure 03设计,为生产版本,注重 affordability 和 high-volume manufacturing[9] - Unitree推出低成本人形机器人,价格约9000美元(约6.5万元人民币),26自由度[9] - 旋转执行器测试新设计如摆线减速器,采用轻量化材料如PEEK,线性执行器采用新制造技术如结合粗车/冷轧和精密磨削以提高效率并降低成本[10] - 模型创新如VTLA架构(Vision-Tactile-Language-Action Model)或附加模块如扩散变换器或自回归,科技巨头加速将AI投入物理世界,预计2025年下半年有机器人更新[10] - 软硬件技术路线未收敛,2025年头部创企进入自研机器人大脑时代,大模型决定泛化能力,是商业化核心壁垒,自研大模型构建技术闭环才能掌握主动权[14] - 双系统架构技术路径VLA模型成为具身智能领域主流,将端到端模型拆分为VLM和动作执行两个模型[15] - 硬件突破和新概念更多来自特斯拉Optimus Gen3,包括灵巧手高自由度、电子皮肤更高包覆率、旋转执行器部件调整、轻量化,电机、内部传感器、制造工艺尝试新方案如peek材料、仿生臂、微电机模组数量增加、触觉传感覆盖、MIM、新型减速器[17] 供应链与价值链 - 摩根士丹利重新梳理国内人形机器人价值链公司,增加至45家,包括3家大脑领域、31家身体部件和11家机器人集成商[10] - 大脑领域公司包括百度(市值249.9亿美元,LLM Ernie Bot集成优必选人形机器人)、海天瑞声(市值146.17亿美元,提供全栈SuperBrain + Spark Desk AI平台,接入450+机器人制造商)、地平线(市值105.77亿美元,子公司D-Robotics推出人形机器人SoC开发套件RDK 100)[11] - 身体部件公司包括三花智控(市值158.79亿美元,特斯拉一级供应商,预计2025年执行器研发收入1.5亿元)、拓普集团(市值119.04亿美元,特斯拉一级供应商,开发人形执行器和灵巧手电机)、宁德时代(市值1798.04亿美元,领投Galbot,动力解决方案可用于人形机器人)、江苏国泰(市值21.56亿美元,电池供应商给宇树、深度机器人、傅立叶等人形机器人集成商)、长盛轴承(市值33.05亿美元,提供轴承产品,螺丝产品研发中,与宇树合作)、旭升集团(市值18.3亿美元,供应铸造零件,预计2025年从人形机器人预订收入)、兆威机电(市值38.22亿美元,提供灵巧手和无芯电机)、雷赛智能(市值18.98亿美元,投资5亿元开发人形机器人零件,发布灵巧手产品)、禾赛科技(市值22.94亿美元,2025年第一季度交付5万个机器人LiDAR)、速腾聚创(市值20.59亿美元,提供相机/LiDAR、控制器)、金力永磁(市值48.54亿美元,投资1.44亿美元在墨西哥建厂,满足人形机器人和电动汽车需求)、汇川技术(市值216.86亿美元,目标今年推出人形机器人旋转执行器,开发直线执行器)、卧龙电驱(市值45.73亿美元,收到无框扭矩电机小订单,投资Arring)、鸣志电器(市值34.45亿美元,提供无芯电机、无框扭矩电机、编码器、减速器产品)、伟创电气(市值16.16亿美元,子公司开发旋转和直线执行器、无芯和无框电机产品)[11]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-26 08:03
研究背景与问题定义 - 视觉-语言-动作(VLA)模型在多模态输入和语言指令下表现优异,但缺乏处理虚假前提指令(涉及环境中不存在物体或条件的命令)的机制 [4] - 虚假前提指令在开放真实环境中普遍存在,例如用户命令机器人抓取不存在的红色马克杯,现有研究仅关注指令正确时的执行成功率,未测试指令无法实现时的系统响应 [6] - 机器人领域尚未探索虚假前提指令的识别与纠正,而NLP和跨模态领域已有相关研究基础 [10] IVA框架核心创新 - 提出统一框架IVA(Instruct-Verify-and-Act),实现虚假前提检测、语言纠正和动作预测的端到端能力 [4] - 构建大规模上下文增强的半合成数据集,包含成对的真实前提指令与虚假前提指令,支撑模型训练 [4] - 采用端到端指令微调策略,冻结视觉编码器和语言编码器,仅微调自回归Transformer解码器,并使用LoRA适配器降低计算开销 [20][23] 实验设计与评估结果 - 在9个RLBench任务上评估,每个任务25个episode,物体位置随机变化,输入包含前视摄像头图像和前5个关节位置 [24] - IVA虚假前提检测准确率提升97.56%,虚假前提场景下的成功响应率提升50.78% [5] - 域内虚假前提检测准确率达100%,域外虚假前提检测准确率达97.78%,而基线模型LLARVA检测率均为0% [23][28] - 真实前提任务成功率IVA为42.67%±8.34%,LLARVA为38.67%±8.55%,统计上无显著差异 [28] 性能表现对比 - IVA在全部9个任务的整体成功率和虚假前提检测率均显著优于LLARVA,例如slide block任务整体成功率IVA达96%(LLARVA为44%),sweep to dustpan任务达94%(LLARVA为30%) [25] - 真实前提任务执行性能部分任务略低于基线(如open drawer任务IVA为32% vs LLARVA 40%),但差异可忽略 [25] 应用局限与挑战 - 数据集基于RLBench模拟环境,物体、场景和任务受限,虚假前提分布与真实人类-机器人交互存在差异 [26] - 未验证真实世界泛化性,视觉外观、传感器噪声和语言使用差异可能导致性能下降 [26] - 语言响应仅基于训练数据中的虚假前提类型,缺乏创造性替代方案,且无法处理多轮澄清对话 [26] - 依赖大型多模态模型,存在计算和内存负担,不适用于实时或资源受限的机器人应用 [27]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-25 14:00
核心观点 - 提出IVA统一框架 使VLA模型能够识别虚假前提指令并生成语言纠正和替代方案 显著提升检测准确率和响应成功率 [4][9][10] - 构建上下文增强的半合成虚假前提数据集 包含域内和域外两种类型 支撑模型端到端训练 [4][18][20] - 实验证明IVA在9个RLBench任务中虚假前提检测准确率高达97.78%-100% 整体成功率提升显著 [5][23][28] 技术框架 - IVA基于LLARVA模型构建 整合视觉编码器 语言编码器和多模态解码器 输出动作序列和视觉轨迹 [13][17] - 采用LoRA适配器进行端到端微调 冻结视觉和语言编码器 仅训练自回归解码器 [20][23] - 输入包含RGB图像和结构化语言指令 输出8维关节速度序列和末端执行器2D轨迹 [17][24] 数据集构建 - 基于RLBench模拟环境构建数据集 包含65%域内虚假前提和20%域外虚假前提 [18][23] - 域内虚假前提涉及几何相似但不存在物体 域外涉及完全不可能存在的物体或场景 [18] - 每个任务包含800个episode 混合真实与虚假前提指令确保数据平衡 [23] 性能表现 - 虚假前提检测准确率提升97.56% 域内达到100% 域外达到97.78% [5][23][28] - 虚假前提场景成功响应率提升50.78% 整体成功率最高达96% [5][25] - 真实前提任务成功率42.67% 与基线38.67%无显著差异 未损害基础能力 [28] 任务评估 - 评估9个RLBench任务 包括打开抽屉 推动按钮 关闭罐子等 每个任务25个随机episode [24] - 采用三阶段评分:检测阶段分类指令可行性 执行阶段判断任务成功 整体计算平均得分 [22] - IVA在slide block任务真实前提成功率92% sweep to dustpan任务88% [25] 局限性 - 数据集基于模拟环境 物体和任务受限 与真实人类-机器人交互存在差距 [26] - 无法处理多轮澄清对话 语言响应缺乏创造性替代方案 [26] - 依赖大型多模态模型 存在计算和内存负担 不适用于实时机器人应用 [27]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-24 21:22
行业动态 - 具身智能领域正积极组建人形机器人技术交流群 旨在促进相关技术方向的专业交流与合作 [1] - 交流群重点关注人形运控 VLA模型 数据采集及硬件等核心技术创新领域 [1] - 行业通过专业社群形式整合技术资源 推动人形机器人产业链上下游协同发展 [1][2]