视觉语言动作

搜索文档
谷歌拍了拍Figure说,“起来卷”
虎嗅· 2025-06-28 14:50
技术突破 - 谷歌Gemini Robotics On-Device模型实现机器人脱机工作,无需持续互联网连接[3] - 该模型是公司首个"视觉-语言-动作"模型,帮助机器人更快适应新任务和新环境[3] - 模型解决了灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理三大问题[5] - 在双臂Franka FR3机器人和Apptronik Apollo人形机器人上展示了通用指令执行能力[14][17] 性能表现 - 模型泛化能力略低于旗舰Gemini Robotics模型,但远超之前最好的离线模型[8] - 在分布式任务和复杂多步骤指令方面优于其他设备端替代方案[10] - 通过50到100次演示即可快速适应新任务,展示了强大的适应能力[12][14] - 能够处理以前未见过的物体和场景,完成折叠衣服等灵巧任务[14] 行业比较 - 与Figure的Helix模型不同,谷歌模型独立于数据网络运行,适合延迟敏感应用[3] - 模型提供了微调选择,而Helix使用一组神经网络权重学习所有行为[12] - 技术白皮书提出机器人应成为物理世界的解读者而非人类模仿者[19] 应用展示 - 机器人未经教授完成"扣篮"动作,展现快速适应新场景能力[1] - 在RSS2025大会上完成全球首个互动式现场展示[1] - 灵巧手可以拿起笔并相互配合拔掉笔盖[7] - 完成"放置蓝色砖块"、"拉开抽屉"等基于自然语言指令的任务[8]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 17:41
EI/中文核心/毕业论文/申博等 点击下方 卡片 ,关注" 具身智能 之心 "公众号 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深导师团 队在线 "救援",一站式解决你的论文烦恼! 【前沿论文辅导重磅上线!多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会 方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 你是否正在研究以下前沿领域却苦于突破瓶颈? 多模态大模型(视觉-语言预训练、跨模态推理) 视觉语言动作(VLA)(端到端、分层等) 视觉语言导航(VLN)(Embodied QA、指令跟随、场景理解) 机器人抓取与导航(Sim2Real、强化学习、3D场景建模) 具身智能体泛化(跨任务迁移、零样本适应、仿真环境构建) 3D高斯泼溅(3DGS)(实时渲染、动态场景建模、SLAM结合) 端到端具身智能体(决策闭环、多模态传感器融合) 具身合成数据生成(自动标注、域适应、数据增强) 为什么选择我们? ✅ 顶会/顶刊导师团队:来自CMU、Stanford、MIT等名校的PhD及大厂研究员,覆盖ICRA、NeurIPS、C ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
元戎启行VLA模型三季度要量产,能否冲破市场+技术壁垒?
南方都市报· 2025-06-13 23:04
近日,在2025年火山引擎Force原动力大会上,自动驾驶公司元戎启行宣布其VLA模型将于2025年第三季度推向消费者市场,并预计在年内上车五款车 型。 在活动现场,元戎启行CEO周光高调展示了VLA模型的四大"超能力":透视眼式的盲区破解、百事通般的异形障碍物识别、翻译官级的路标解析、应 答灵式的语音控车,引发了业内浓厚的兴趣。 元戎启行并非智能驾驶领域的新兵。自 2018 年成立以来,这家总部位于深圳的高科技企业便在自动驾驶和车联网技术方面深耕细作。 此外,元戎启行在技术研发过程中也比较注重成本控制。以与高通的合作为例,通过技术优化,在100TOPS算力的骁龙SA8650 平台上实现了原本需 更高算力支撑的复杂场景运行,将智驾方案价格大大降低。 如何挤占出足够的市场空间? 在智能辅助驾驶领域,行业已经进入激烈的市场争夺阶段,众多方案商早已提前布局,纷纷与车企达成合作,拿下大量合作车型。 因此,准备入场的元戎启行,拿着今年第三季度才能推向市场的 VLA 模型时,不仅需要在短时间内突破市场壁垒,而且必须在华为、地平线、 Momenta等品牌的包围下,快速提升知名度和产品认可度,这无疑是一项艰巨的任务。 这家企 ...
拆解特斯拉机器人供应链:30 多位从业者看到的泡沫和希望
阿尔法工场研究院· 2025-06-08 21:36
核心观点 - 特斯拉人形机器人Optimus的研发带动了全球产业链投入超1000亿元,但当前量产仍面临高成本、低效率问题,硬件技术尚未突破瓶颈[2][25][30] - 行业出货量预计2024年仅2万台,单台成本6万美元,效率仅为人工20%-30%,远未达到替代蓝领工人的经济性[2][35][40] - 软件端采用VLA模型训练机器人,但数据采集成本高(单条10元),真机数据不足制约模型泛化能力[52][54] 技术路径 硬件设计 - 采用行星滚柱丝杠(单价超4000元/根)替代传统旋转关节,单腿承重达半吨,精度误差小于6微米[10][36] - 灵巧手复刻22个自由度,绳驱结构模拟肌肉组织,但耐用性差(3个月需更换),双手更换成本10万元[18][20][42] - 传感器方案包含六维力传感器(误差<0.2%)、电子皮肤(单指节100+力传感器),但感知精度仍落后人类[15][16][22] 软件系统 - 放弃波士顿动力的规则控制路线,转向VLA模型训练端到端动作,需1000万条真机数据(当前不足100万条)[45][52][54] - 数据采集依赖物理交互仿真,如开冰箱门需建模质量/摩擦力等参数,通过Real-to-Sim生成多场景训练数据[56] 产业链现状 供应商格局 - 核心部件由舍弗勒(滚柱丝杠)、哈默纳科(RV减速器)、ATI(六维传感器)等国际龙头主导[10][11][16] - 中国供应商如三花智控、拓普集团累计投入超50亿元,特斯拉提供技术图纸扶持代工厂[27][28] - 行星滚柱丝杠产能严重受限(月产仅300根),迫使特斯拉降低精度标准至C3级[36][37] 商业化进展 - 特斯拉2024年目标产量5600台,实际应用仅数十台用于搬运电池,效率不及工业机械臂[30][59] - 中国公司宇树/智元预计出货5000台,但主要场景转向车展模特、情绪价值产品[59][60] - 行业估值分化明显:具身智能公司Physical Intelligence成立15个月估值超20亿美元[57] 性能参数 - 第三代Optimus身高1.72米/重55公斤,50+自由度,双臂负载20公斤,续航5小时[30][34] - 行走速度8-10公里/小时,但60%概率1.5公里内摔倒,关节温度超70℃会降频[35][39] - 硬件成本中执行器占比55%,灵巧手复杂度超其余部件总和[6][18]
机器人数据仿真专家
2025-05-21 23:14
纪要涉及的行业和公司 - 行业:机器人、自动驾驶 - 公司:NV、Avia、特斯拉、国家智能网联汽车创新中心 纪要提到的核心观点和论据 仿真数据在机器人任务训练中的有效性 - 有效性取决于任务类型和仿真与真实世界差异,VLA 仿真在虚拟环境效果好,迁移到现实场景差,现阶段适合算法原型验证 [3] - 局部运动类任务从仿真迁移到现实场景可行性更强,主要依赖电机信号和本体姿态,需考虑地面摩擦力 [4] 机器人训练的数据生成方法 - 常用传感器仿真、物理交互和场景重建方法,构成完整仿真系统,但面临高逼真图像生成、物理参数模拟和数据匹配真实世界分布的挑战,多用于快速验证算法原型 [5] 仿真器在机器人训练中的应用 - 优势是电信号仿真准确,开发团队常自行开发;局限是环境交互效果差,感知层面数据分布与真实世界差异大,可迁移性取决于任务数据分布差距 [6] 通过观看视频训练自动驾驶系统和机器人 - 有效性存在争议,视频数据与实际操作数据模态不同,重建复杂且精度难保证,只能作为辅助手段 [7][8][9] 结合传统动补数据与仿真数据的方法 - 在自动驾驶感知领域使用过,效果有限,因仿真数据简单,若仿真器对物理描述发达,理论上可用假数据完成本体训练,但目前未实现 [11] 第三方仿真工具评价 - ISAC 平台功能全面但笨重不易上手,新兴轻量级智能仿真器如 Discover、RoboTone 和 RobotWars 更具优势,适合巨量数据生成需求 [12] 仿真器发展对芯片公司市场竞争力的影响 - 优秀的辅助工具链能吸引公司选择特定硬件,增强芯片公司市场地位,如 NV 推广 ESPEC 仿真器推动云上 GPU 销售 [13] 专用芯片对训练好的模型部署的影响 - 影响不大,模型可部署到不同芯片,用户根据通用性和算力选择端侧芯片 [14] 仿真平台提升仿真精度的情况 - 特殊传感器仿真已存在,但真实世界信号有随机噪声,难以完全仿真,目前传感器仿真质量参差不齐 [15] 当前主流的数据采集及训练方式 - 自动驾驶依赖真实量产数据闭环,机器人领域探索依靠仿真器,国际共建数据采集中心数据质量低,仿真数据训练的模型在真实世界泛化性差 [17] 数据和模型对齐方面的挑战 - 最大挑战是数据,硬件不统一和数量不足导致数据量少、质量差,跨本体数据无法使用,模型早期发展激进,需先模仿学习再转向 VELA 路线 [20] 跨本体之间的数据运用问题 - 存在问题,硬件自由度和尺寸差异会影响数据使用,差异大时仿真效果等同于重新训练 [21][22] 解决不同公司间零散化数据问题的方法 - 标准化硬件尺寸和旋转比例,减少差异,提高数据利用效率 [23] 工业场景中机器人学习的情况 - 采集数据成功率低,因动作轨迹含干扰信号和遥操作技术不成熟,目前精确度达 90%,有提升空间,人形机器人适合通用性任务而非精细化操作 [24][25][27] 数据采集确保未来数据有效使用的方法 - 采用解耦方式,标准化传感器并解耦本体,确保数据共用性 [28] Tesla FSD 算法框架迁移到机器人领域的情况 - 可以迁移,深度学习模型和网络结构基本不变,但数据模态、输入输出需重新定义和训练,基础设施和芯片可复用 [30] 国家智能网联汽车创新中心的数据采集方式 - 主要通过遥操方式,人员佩戴外骨骼或 VR 设备操作机器人,用惯性设备捕捉手部动作,高精度光捕设备因成本高较少使用 [31] 其他重要但可能被忽略的内容 - 完成单个舞蹈动作所需数据量少,一个模型解决一个特定动作,注重从仿真到真实世界的迁移性 [18][19] - 机器人若能通过观看视频学习任务完成逻辑,学到的是思维链能力,可通过监督训练实现 [16] - 当前阶段人形机器人无法实现边走路边拿水的动作,因运动模块感知能力不足、数据量和标准不够 [29]
具身智能:一场需要谦逊与耐心的科学远征
Robot猎场备忘录· 2025-05-20 13:01
具身智能的核心观点 - 具身智能为机器人领域注入新活力,有望突破性能上限,需保持开放态度避免派别之争 [1] - 具身智能是跨学科产物,依赖材料科学、生物力学等多领域协同突破,而非单一技术路径 [2][6] - 当前具身智能处于早期阶段,人形机器人能力仅相当于自动驾驶"L0"水平,硬件和算法均未成熟 [7] 学科与技术发展 - 传统机器人学的"特殊任务研究"对具身智能有间接贡献,如波士顿动力动态平衡算法、蛇形机器人柔性驱动技术 [2] - 技术迭代呈现沉积效应,如GAN框架仍影响当前AI领域,VLA模型可能被更高效方案取代但会留下技术遗产 [5] - 纯软件算法难以构建长期壁垒,需结合工程实践、材料工艺等"脏活累活"形成护城河 [12] 通用性与具体性 - 通用智能需建立在具体问题钻研基础上,如达芬奇手术机器人亚毫米级操作依赖生物组织参数积累 [3] - 产业需求如汽车线束整理、半导体封装高精度要求等"不性感"的工程细节是锤炼智能的关键场景 [3] - 人形机器人形态优势仅限于人类环境适配,物流/农业等领域专用非人形机器人更具成本效率 [11] 技术路径与产业实践 - VLA技术路径存在争议,儿童和乌鸦案例显示操作能力可独立于语言系统,当前大模型性价比低 [8][9] - 短期优先采用learning与model结合方法,长期纯learning或成主流但需脑科学等学科突破支持 [10] - 工业界更认可model-based解决方案因其稳定可控,端到端大模型并非客户关注重点 [10] 行业动态与案例 - 人形机器人马拉松比赛暴露当前技术局限,多数需人工干预且电机发热问题突出 [7] - 行业存在同质化重复项目风险,需警惕过度追求"酷炫"而忽视经济性 [11] - 华为、智元机器人等公司加码人形机器人赛道,全栈自研和跨领域协作成为焦点 [15][16][18]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 21:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]
3个月斩获两轮数亿融资,头部具身智能机器人创企迎技术、商业化双重突破!
Robot猎场备忘录· 2025-04-21 10:38
温馨提示 : 点击下方图片,查看运营团队2025年最新原创报告(共210页) 说明: 欢迎约稿、刊例合作、行业人士交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w ) 微信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 2025年2月20日,国外知名人形机器人独角兽公司【Figure AI】 推出自研通用型视觉语言动作(VLA)模型— Helix ,并开创性采用 双系统架构( 负责"慢思考",处理高层语义和目标规划 S2和负责"快反应",实时执行和调 整动作 S1 ),开启双系统架构VLA模型先河,专为高频率、灵巧控制整个人形机器人上半身而设计。 2025年2月26日, 作为国外最早提出视觉语言动作(VLA)模型,拥有全球具身智能领域"最强创始团队的具身智能 大模型初创公司[Physical Intelligence](简称 PI或 π )基于其公司端到端大模型π0( pi-zero) 推出"分层交互 式机器人"系统(全称:Hierarchical Interactive Robot ,简称Hi Robot) ,它允许整合VLA模型,例 ...