Workflow
视觉语言动作模型
icon
搜索文档
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 19:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...
元戎启行VLA模型三季度要量产,能否冲破市场+技术壁垒?
南方都市报· 2025-06-13 23:04
近日,在2025年火山引擎Force原动力大会上,自动驾驶公司元戎启行宣布其VLA模型将于2025年第三季度推向消费者市场,并预计在年内上车五款车 型。 在活动现场,元戎启行CEO周光高调展示了VLA模型的四大"超能力":透视眼式的盲区破解、百事通般的异形障碍物识别、翻译官级的路标解析、应 答灵式的语音控车,引发了业内浓厚的兴趣。 元戎启行并非智能驾驶领域的新兵。自 2018 年成立以来,这家总部位于深圳的高科技企业便在自动驾驶和车联网技术方面深耕细作。 此外,元戎启行在技术研发过程中也比较注重成本控制。以与高通的合作为例,通过技术优化,在100TOPS算力的骁龙SA8650 平台上实现了原本需 更高算力支撑的复杂场景运行,将智驾方案价格大大降低。 如何挤占出足够的市场空间? 在智能辅助驾驶领域,行业已经进入激烈的市场争夺阶段,众多方案商早已提前布局,纷纷与车企达成合作,拿下大量合作车型。 因此,准备入场的元戎启行,拿着今年第三季度才能推向市场的 VLA 模型时,不仅需要在短时间内突破市场壁垒,而且必须在华为、地平线、 Momenta等品牌的包围下,快速提升知名度和产品认可度,这无疑是一项艰巨的任务。 这家企 ...
拆解特斯拉机器人供应链:30 多位从业者看到的泡沫和希望
核心观点 - 特斯拉人形机器人Optimus的研发带动了全球产业链投入超1000亿元,但当前量产仍面临高成本、低效率问题,硬件技术尚未突破瓶颈[2][25][30] - 行业出货量预计2024年仅2万台,单台成本6万美元,效率仅为人工20%-30%,远未达到替代蓝领工人的经济性[2][35][40] - 软件端采用VLA模型训练机器人,但数据采集成本高(单条10元),真机数据不足制约模型泛化能力[52][54] 技术路径 硬件设计 - 采用行星滚柱丝杠(单价超4000元/根)替代传统旋转关节,单腿承重达半吨,精度误差小于6微米[10][36] - 灵巧手复刻22个自由度,绳驱结构模拟肌肉组织,但耐用性差(3个月需更换),双手更换成本10万元[18][20][42] - 传感器方案包含六维力传感器(误差<0.2%)、电子皮肤(单指节100+力传感器),但感知精度仍落后人类[15][16][22] 软件系统 - 放弃波士顿动力的规则控制路线,转向VLA模型训练端到端动作,需1000万条真机数据(当前不足100万条)[45][52][54] - 数据采集依赖物理交互仿真,如开冰箱门需建模质量/摩擦力等参数,通过Real-to-Sim生成多场景训练数据[56] 产业链现状 供应商格局 - 核心部件由舍弗勒(滚柱丝杠)、哈默纳科(RV减速器)、ATI(六维传感器)等国际龙头主导[10][11][16] - 中国供应商如三花智控、拓普集团累计投入超50亿元,特斯拉提供技术图纸扶持代工厂[27][28] - 行星滚柱丝杠产能严重受限(月产仅300根),迫使特斯拉降低精度标准至C3级[36][37] 商业化进展 - 特斯拉2024年目标产量5600台,实际应用仅数十台用于搬运电池,效率不及工业机械臂[30][59] - 中国公司宇树/智元预计出货5000台,但主要场景转向车展模特、情绪价值产品[59][60] - 行业估值分化明显:具身智能公司Physical Intelligence成立15个月估值超20亿美元[57] 性能参数 - 第三代Optimus身高1.72米/重55公斤,50+自由度,双臂负载20公斤,续航5小时[30][34] - 行走速度8-10公里/小时,但60%概率1.5公里内摔倒,关节温度超70℃会降频[35][39] - 硬件成本中执行器占比55%,灵巧手复杂度超其余部件总和[6][18]
具身智能:一场需要谦逊与耐心的科学远征
Robot猎场备忘录· 2025-05-20 13:01
具身智能的核心观点 - 具身智能为机器人领域注入新活力,有望突破性能上限,需保持开放态度避免派别之争 [1] - 具身智能是跨学科产物,依赖材料科学、生物力学等多领域协同突破,而非单一技术路径 [2][6] - 当前具身智能处于早期阶段,人形机器人能力仅相当于自动驾驶"L0"水平,硬件和算法均未成熟 [7] 学科与技术发展 - 传统机器人学的"特殊任务研究"对具身智能有间接贡献,如波士顿动力动态平衡算法、蛇形机器人柔性驱动技术 [2] - 技术迭代呈现沉积效应,如GAN框架仍影响当前AI领域,VLA模型可能被更高效方案取代但会留下技术遗产 [5] - 纯软件算法难以构建长期壁垒,需结合工程实践、材料工艺等"脏活累活"形成护城河 [12] 通用性与具体性 - 通用智能需建立在具体问题钻研基础上,如达芬奇手术机器人亚毫米级操作依赖生物组织参数积累 [3] - 产业需求如汽车线束整理、半导体封装高精度要求等"不性感"的工程细节是锤炼智能的关键场景 [3] - 人形机器人形态优势仅限于人类环境适配,物流/农业等领域专用非人形机器人更具成本效率 [11] 技术路径与产业实践 - VLA技术路径存在争议,儿童和乌鸦案例显示操作能力可独立于语言系统,当前大模型性价比低 [8][9] - 短期优先采用learning与model结合方法,长期纯learning或成主流但需脑科学等学科突破支持 [10] - 工业界更认可model-based解决方案因其稳定可控,端到端大模型并非客户关注重点 [10] 行业动态与案例 - 人形机器人马拉松比赛暴露当前技术局限,多数需人工干预且电机发热问题突出 [7] - 行业存在同质化重复项目风险,需警惕过度追求"酷炫"而忽视经济性 [11] - 华为、智元机器人等公司加码人形机器人赛道,全栈自研和跨领域协作成为焦点 [15][16][18]