Workflow
VA
icon
搜索文档
机器人浓度最高的一届春晚后,具身智能离走进千家万户还有多远?
AI前线· 2026-03-18 16:33
文章核心观点 - 具身智能作为通往AGI的关键路径,其产业落地仍面临模型泛化性不足、数据采集难、闭环难以实现等深层难题,目前处于技术爬坡与产业磨合期,而非完全被卡住的状态 [4][5][6] - 工业场景的落地逻辑与通用场景(ToC)存在本质差异,无需过度追求通用性(AGI),而应聚焦于特定高价值工位,实现稳定、可靠、高效,这本身足以支撑百亿估值级别的公司 [3][12] - 现阶段技术落地的核心矛盾在于:复杂的物理世界交互要求多模态感知与高精度控制,但算法、数据、系统集成等方面均存在瓶颈;有效的路径可能是结合模块化(Modular)设计、智能体(Agent)架构、世界模型(World Model)以及高质量数据工程,而非单纯依赖端到端模型 [8][9][12][15][29] 技术路径与算法挑战 - **VLA与VA的路径选择**:工业场景高度结构化,流程确定,无需通过自然语言(L)引导,因此仅以视觉为输入的VA模型比视觉-语言-动作模型VLA更适配;语言交互在工业中作用有限且增加计算开销 [8][12] - **模型通用性的再认识**:工业场景不需要追求AGI级别的通用性,核心要求是稳定(不宕机)、可靠(成功率近100%)、高效;通用性可体现在模型架构层面,针对不同任务使用相同架构训练不同模型,形成“模型超市” [12][13] - **端到端模型的局限性**:当前端到端模型难以落地,因为人类高度压缩的指令与完成任务所需的完整信息之间存在巨大缺口;更可行的路径是基于模块化的智能体架构,整合感知、决策、记忆与执行的闭环 [8][9] - **世界模型的作用与形态**:世界模型可作为评估器和奖励来源,为VLA训练提供反馈信号;主流有两类形态,一是在像素空间预测未来帧,二是在隐空间预测特征演化;其对操作任务有正向作用,未来将向多模态集成发展 [20][21][24] - **感知模态的局限与补充**:纯视觉模态存在瓶颈,力觉对于高精度、高安全性操作至关重要;工业落地需按需引入关节力矩、六维力传感、高分辨率触觉等不同层级的力觉模态以突破成功率天花板 [38][40] 数据瓶颈与解决方案 - **数据质量优先**:在机器学习中,保证数据质量是第一位的,模型是第二位的;对采集的机器人轨迹数据进行标准化“消毒”处理,剔除噪声、提升流畅度,可使模型训练精度提升20个百分点 [3][29] - **数据极度稀缺**:具身基础模型可能需要百万小时量级的视频数据,但当前数据远未达到此规模;数据来源主要有三种:真实采集、仿真引擎生成、从视频或世界模型中获取 [26][30] - **生成式数据的潜力与挑战**:规模化最终需依赖视频生成模型或世界模型生成数据,但生成数据缺乏力的标注是关键难点;一种探索方向是将力的梯度(临界变化量)而非绝对大小作为物理标注 [30] - **数据闭环与强化学习**:通过智能体架构可实现数据闭环优化,例如HIL-SERL算法,仅需少量人工示教数据,结合奖励构建强化学习缓冲区进行训练,已在真机可靠性上取得提升 [26] - **先验知识与数据驱动的结合**:将物理规律、常识知识以规则或约束形式注入模型(如通过WBC加MPC),可以降低数据需求、加快模型收敛,实现学习突破上限、规则负责兜底的效果 [32][33] 系统集成与产业落地挑战 - **从实验室到现场的失效原因**:导致“现场失效”的主要技术原因包括网络信号问题(丢包、带宽不足)、感知层受环境变化干扰、决策层因时延或微小误差失准、执行层硬件精度与策略推理不匹配等 [15] - **工业场景的落地价值定位**:在绝大多数场景下,具身方案目前比不过传统工业自动化;其价值在于解决传统自动化难以覆盖的高柔性、长链条任务,或在通用性与高度定制化之间找到平衡点,具备边际成本递减的潜力 [46][47] - **隐形成本与决策成本**:企业落地具身智能最容易低估的是决策成本,因信息不对称、不全面导致错误决策,会杠杆式放大后续人力、资本和代码开发投入,形成高昂代价 [44][45] - **经济账是核心**:ToB市场的成本敏感度极高,例如有头部企业报价400万,而规模仅其十分之一的团队报价200万,工厂最终选择了后者;政府补贴退去后,必须算清经济账才能持续 [7][51] 未来展望与突破方向 - **规模化引爆点的预测**: - 工业场景的“iPhone时刻”可能源于一台具身机器人能在某个工位上持续稳定工作一个月,证明其长期商业落地价值 [51] - 远程操控是另一可行方向,当机器人足够鲁棒、硬件足够便宜、时延基本解决,可实现跨时区人力协同,同步实现商业与数据闭环 [51] - ToB本质是经济账,补贴退去后若经济账算不过工业自动化,则需重新思考 [51] - **未来2-3年的技术突破点**:感知层落地趋势明显,但动作层仍是核心卡点,包括移动性(导航与运动)和操控,对真实物理世界物体交互的探索尚不充分 [49][50] - **对从业者的建议**:工程师不应将技能栈锁定在单点,建议全栈了解从机械臂控制到模型训练部署的整体方案,以建立全局视角和价值判断 [49]
一见Auto采访小米陈光的一些信息分享......
自动驾驶之心· 2025-12-26 09:56
行业技术路线争鸣 - 智能驾驶行业在2025年出现“名词过载”现象,技术路线分化出多个派别,争鸣不断 [7] - 理想汽车与智驾供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [4] - 华为表示不会走向VLA,而是坚定选择WA路线,小鹏也在尝试去掉Language环节 [4] - 小米汽车是持续深耕端到端方向的企业之一 [5] 小米汽车的技术路径与策略 - 小米汽车端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [5] - 但小米追赶迅速,在2025年2月向用户全量推送了300万Clips的端到端,7月再次推送了1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版 [5] - 小米HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性以及推断复杂场景因果的能力 [5] - 公司认为在端到端算法中引入世界模型和强化学习并非首创,但会将其做得“更坚决” [5] - 公司智能驾驶团队主要分成三拨,除端到端和VLA外,市面上所有路线(包含WA、VA)在内部都有预研团队 [10] - 面对技术路径选择,公司并非“一刀切”,认为新技术的引入需要循序渐进,技术是否先进并不代表体验一定更好 [12] - 公司判断技术的最终标准是能否被用户感知、信任和长期使用,用户体验不好,用户只会觉得是公司的问题,而非技术问题 [12][24] - 公司认为在有限算力下训练出智能密度最大的模型是努力方向,不过分卷算力,用户体验才是关键 [18][32][33] 小米智驾团队的独特性与能力 - 小米智驾团队虽然不是成立最早,却是组建最快、追赶最猛的团队 [12] - 自2021年3月官宣造车起,第一年便组建了500人团队,而理想组建700人团队花费两年,小鹏花费3年 [13] - 4年间,团队已超1800名成员 [13] - 自2024年3月SU7上市以来,公司从高精度地图进化到无图,近一年间推送了三个版本的端到端,实现了“一年追三代”,而其他新势力的摸索至少经历了三年时间 [13] - 截至2025年第三季度,公司年内已投入235亿元研发费用,其中四分之一(约58.75亿元)用于AI研发 [13] - 公司具备强大的“基建”能力,即以数据为核心的研发效能提升,包括快速数据挖掘、标注、模型训练与自动化评测 [41][42] - 云端基建能力可相互借鉴且经验可复制,公司其他业务(如云服务)的扎实底层基建能够被汽车业务快速复用 [14][44][45] - 公司测试资源、数据资源非常充沛,易于获取高质量场景数据 [46] - 强大的基建能力与对专属素材及测试的重视,共同造就了公司快速的研发迭代 [47] 端到端、世界模型与强化学习的应用 - 公司认为,无论是VA、WA还是VLA,本质都是如何让模型的智能密度最大 [5][18] - 单纯的端到端只是模仿学习,属于数据驱动;而引入强化学习、世界模型或VLA后,则进入认知驱动阶段,模型具备推理因果逻辑的能力 [20] - 强化学习在智能驾驶中应用面临两大难题:世界模型难以完全保真,需要放入大量可编辑的数字资产;并行探索的效率面临算力合理分配的挑战 [6] - 公司在新版本中优化了奖惩制度,算法会在世界模型里反复练习,通过奖励机制不断尝试以找到更优的驾驶思路 [39] - 公司认为端到端+世界模型+强化学习主要解决“直觉”问题,针对中等难度或非极端困难场景,本能反应更快 [22] - VLA则旨在解决需要长序思考的复杂场景问题 [35] - 公司不认为存在唯一最好的技术路线,有时不一定能找到最强的技术,但一定能找到最适合自身系统的技术方案 [23] 仿真测试的战略价值 - 仿真测试是公司研发的“三支柱”之一,另外两者是场地测试和实车测试 [68] - 公司针对所有实车测试里程,在仿真中的测试目标是达到至少100倍的比例 [67][70] - 在模型训练中,真实数据与仿真数据的分配比例约为八二开,真实数据占80%,仿真数据占20% [71] - 20%的仿真数据能够显著降低人力成本,若无仿真,人力成本至少需翻几倍 [72] - 仿真的核心价值在于解决实车难以遇到、不好收集和挖掘的场景数据,例如高速路上运输几十米大风叶等罕见场景 [73][74] - 公司当前仿真数据的生成质量很强,并会通过评价指标保证其与真实数据的一致性 [61][62] - 仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力,以改变光照、天气、路面状况、交通参与者等要素 [60] 关于芯片与VLA的考量 - 公司认为自研自动驾驶芯片需权衡需求与成本,好处是成本可控、软硬件配合更好,但前期投入大、回本辛苦 [78][79] - 从一颗芯片迁移到另一颗芯片时,会面临“部署偏差”问题,包括算子支持差异、计算精度不同导致的输出不一致等,需要针对性的优化和校准 [80] - 芯片迁移优化工作量巨大,通常需要6到10个月甚至更长时间 [81] - 公司从英伟达Orin芯片迁移到Thor芯片的速度比一般企业快很多 [83] 对L2与L4发展的看法 - 从技术栈来看,L2与L4正越来越走向统一,在数据驱动和认知驱动下,开发逻辑越来越相同,主要差异在于场景化和安全要求 [86] - 目前L2面临的挑战更大,因其受限于车上有限的算力与传感器,且需要不断平衡安全、效率、舒适性以及用户的驾乘习惯 [87] - L4对安全系数要求更高,需要做更多的安全冗余以实现绝对安全,其最终责任方是系统本身 [86][88] - L2作为辅助驾驶,人类驾驶员是最终的监督和把控责任方 [88] - 公司认为L4一定会做成,从车企的角度来说,也慢慢会涉足到L4领域 [89]
小米陈光:我们不想制造技术焦虑了
21世纪经济报道· 2025-12-25 16:24
行业技术路线争鸣 - 2025年智能驾驶行业出现“名词过载”现象,分化出VLA、VA、WA等多个技术派别,争鸣不断 [2] - 理想汽车与供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [2] - 华为与小鹏是VLA的反对派,选择WA路线,尝试去掉Language环节 [2] - 小米汽车认为VA、WA、VLA本质目标一致,都是追求在有限算力下使模型的智能密度最大 [3][8] 小米汽车技术路径与进展 - 小米汽车坚定选择并深耕端到端技术路线,同时内部对VLA、WA、VA等所有主流路线均有预研团队 [3][4] - 小米端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [3] - 但小米追赶迅速,在2025年2月向用户全量推送300万Clips的端到端,7月推送1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版,实现了“一年追三代” [3][6] - Xiaomi HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性和推断复杂场景因果的能力,标志着进入认知驱动阶段 [3][9] - 小米智能驾驶团队规模已超过1800人,自2021年3月官宣造车后快速组建,第一年即组建500人团队,速度远超同期友商 [5][6][12] - 公司计划在2025年内完成Xiaomi HAD增强版的量产任务 [6] 技术理念:认知驱动与用户体验 - 行业共识是从单纯的数据驱动走向认知驱动阶段,以解决数据驱动无法覆盖所有长尾场景、难以平衡数据分布的问题 [9] - 简单的端到端模仿学习属于数据驱动,而引入强化学习、世界模型或VLA则属于认知驱动,其特点是让模型知道行为原因并进行自主探索与推理 [9] - 小米认为技术是否先进不代表体验一定更好,最终判断标准是能否被用户感知、信任和长期使用 [5][10] - 用户体验是最终落脚点,用户体验不好,用户会归咎于公司而非技术 [5][10] - 在有限硬件条件下训练出智能密度最大的模型是各家的努力方向,不应过分内卷算力 [14][15] 研发策略与基建能力 - 小米研发策略并非“一刀切”,新技术的引入需要循序渐进,并注重寻找最适合自身的技术方案 [5][9] - 强大的以数据为核心的研发基建是小米快速追赶的关键,其优势在于高效的研发架构、数据闭环和自动化流程 [17][18][19][20] - 基建能力强的体现包括:快速从已有数据中挖掘并标注问题、模型训练速度快、评测自动化程度高 [20] - 小米作为科技企业,其云端基建能力可在不同业务间相互借鉴和快速复用,这是其天然优势 [6][21][22] - 截至2025年第三季度,小米年度研发总投入已达235亿元,其中四分之一资金用于AI研发 [6] 仿真技术的应用与价值 - 在世界模型中应用强化学习面临两大难题:世界模型的保真度、并行探索的算力分配效率 [4][33] - 小米在应用强化学习和世界模型构建仿真环境方面比一般友商更为坚决 [32] - 高质量的仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力 [34][35] - 仿真数据主要用于解决实车难以遇到或危险的长尾场景,其生成质量很高 [35][36][42] - 在测试体系中,仿真测试里程要求至少是实车测试里程的100倍 [37][40] - 在模型训练数据中,仿真数据占比约为20%,真实数据占80% [41] - 这20%的仿真数据价值很高,能解决实车难以采集的场景,预计可减少数倍的人力成本 [41][42]