VLA
搜索文档
机器人浓度最高的一届春晚后,具身智能离走进千家万户还有多远?
AI前线· 2026-03-18 16:33
文章核心观点 - 具身智能作为通往AGI的关键路径,其产业落地仍面临模型泛化性不足、数据采集难、闭环难以实现等深层难题,目前处于技术爬坡与产业磨合期,而非完全被卡住的状态 [4][5][6] - 工业场景的落地逻辑与通用场景(ToC)存在本质差异,无需过度追求通用性(AGI),而应聚焦于特定高价值工位,实现稳定、可靠、高效,这本身足以支撑百亿估值级别的公司 [3][12] - 现阶段技术落地的核心矛盾在于:复杂的物理世界交互要求多模态感知与高精度控制,但算法、数据、系统集成等方面均存在瓶颈;有效的路径可能是结合模块化(Modular)设计、智能体(Agent)架构、世界模型(World Model)以及高质量数据工程,而非单纯依赖端到端模型 [8][9][12][15][29] 技术路径与算法挑战 - **VLA与VA的路径选择**:工业场景高度结构化,流程确定,无需通过自然语言(L)引导,因此仅以视觉为输入的VA模型比视觉-语言-动作模型VLA更适配;语言交互在工业中作用有限且增加计算开销 [8][12] - **模型通用性的再认识**:工业场景不需要追求AGI级别的通用性,核心要求是稳定(不宕机)、可靠(成功率近100%)、高效;通用性可体现在模型架构层面,针对不同任务使用相同架构训练不同模型,形成“模型超市” [12][13] - **端到端模型的局限性**:当前端到端模型难以落地,因为人类高度压缩的指令与完成任务所需的完整信息之间存在巨大缺口;更可行的路径是基于模块化的智能体架构,整合感知、决策、记忆与执行的闭环 [8][9] - **世界模型的作用与形态**:世界模型可作为评估器和奖励来源,为VLA训练提供反馈信号;主流有两类形态,一是在像素空间预测未来帧,二是在隐空间预测特征演化;其对操作任务有正向作用,未来将向多模态集成发展 [20][21][24] - **感知模态的局限与补充**:纯视觉模态存在瓶颈,力觉对于高精度、高安全性操作至关重要;工业落地需按需引入关节力矩、六维力传感、高分辨率触觉等不同层级的力觉模态以突破成功率天花板 [38][40] 数据瓶颈与解决方案 - **数据质量优先**:在机器学习中,保证数据质量是第一位的,模型是第二位的;对采集的机器人轨迹数据进行标准化“消毒”处理,剔除噪声、提升流畅度,可使模型训练精度提升20个百分点 [3][29] - **数据极度稀缺**:具身基础模型可能需要百万小时量级的视频数据,但当前数据远未达到此规模;数据来源主要有三种:真实采集、仿真引擎生成、从视频或世界模型中获取 [26][30] - **生成式数据的潜力与挑战**:规模化最终需依赖视频生成模型或世界模型生成数据,但生成数据缺乏力的标注是关键难点;一种探索方向是将力的梯度(临界变化量)而非绝对大小作为物理标注 [30] - **数据闭环与强化学习**:通过智能体架构可实现数据闭环优化,例如HIL-SERL算法,仅需少量人工示教数据,结合奖励构建强化学习缓冲区进行训练,已在真机可靠性上取得提升 [26] - **先验知识与数据驱动的结合**:将物理规律、常识知识以规则或约束形式注入模型(如通过WBC加MPC),可以降低数据需求、加快模型收敛,实现学习突破上限、规则负责兜底的效果 [32][33] 系统集成与产业落地挑战 - **从实验室到现场的失效原因**:导致“现场失效”的主要技术原因包括网络信号问题(丢包、带宽不足)、感知层受环境变化干扰、决策层因时延或微小误差失准、执行层硬件精度与策略推理不匹配等 [15] - **工业场景的落地价值定位**:在绝大多数场景下,具身方案目前比不过传统工业自动化;其价值在于解决传统自动化难以覆盖的高柔性、长链条任务,或在通用性与高度定制化之间找到平衡点,具备边际成本递减的潜力 [46][47] - **隐形成本与决策成本**:企业落地具身智能最容易低估的是决策成本,因信息不对称、不全面导致错误决策,会杠杆式放大后续人力、资本和代码开发投入,形成高昂代价 [44][45] - **经济账是核心**:ToB市场的成本敏感度极高,例如有头部企业报价400万,而规模仅其十分之一的团队报价200万,工厂最终选择了后者;政府补贴退去后,必须算清经济账才能持续 [7][51] 未来展望与突破方向 - **规模化引爆点的预测**: - 工业场景的“iPhone时刻”可能源于一台具身机器人能在某个工位上持续稳定工作一个月,证明其长期商业落地价值 [51] - 远程操控是另一可行方向,当机器人足够鲁棒、硬件足够便宜、时延基本解决,可实现跨时区人力协同,同步实现商业与数据闭环 [51] - ToB本质是经济账,补贴退去后若经济账算不过工业自动化,则需重新思考 [51] - **未来2-3年的技术突破点**:感知层落地趋势明显,但动作层仍是核心卡点,包括移动性(导航与运动)和操控,对真实物理世界物体交互的探索尚不充分 [49][50] - **对从业者的建议**:工程师不应将技能栈锁定在单点,建议全栈了解从机械臂控制到模型训练部署的整体方案,以建立全局视角和价值判断 [49]
对话星动纪元陈建宇:28 岁成为清华博导,想做万亿市值具身公司
晚点LatePost· 2026-03-13 14:06
公司融资与估值 - 星动纪元在2025年11月完成10亿元融资后,于2026年3月又完成一轮10亿元融资,3个月内两轮融资总额达20亿元[5] - 2026年3月融资后,公司估值突破100亿元人民币,领投方为三星和高成投资[5] - 创始人陈建宇认为融资不仅是融钱,更是融资源,旨在将战略合作伙伴绑定在同一阵营以扩大竞争优势[5][8] - 公司目标是成为万亿市值的巨头,并计划在10年内实现这一目标[5][35][36] 行业融资与趋势 - 在星动纪元两轮融资之间的3个多月里,整个具身智能行业有二十多家公司融资超过200亿元[5] - 2025年春节后,至少有五家具身公司宣布完成了超十亿元的融资[9] - 创始人认为硬科技行业的需求真实存在,长期趋势将稳步上升,行业波动源于对技术发展速度预判的偏差[8] - 行业目前缺乏统一的评估基准,未来将通过量化数据和商业化业绩形成判断共识[17] 创始人背景与公司文化 - 创始人陈建宇出生于1992年,19岁考入清华大学,博士毕业于加州大学伯克利分校,研究方向为机器人强化学习控制[5] - 2020年回国后在清华大学交叉信息研究院担任助理教授,28岁成为博士生导师,于2023年创办星动纪元[5] - 陈建宇被评价为中国具身智能公司创始人中最懂技术的一位,其强项在于快速学习、洞察并构建复杂系统的能力[31] - 公司管理注重架构、目标管理以及激励团队,并参考学习阿里、字节、华为、小米及“蔚小理”等公司的发展经验[32][33] 技术路线与研发重点 - 公司选择研发带灵巧手和双腿的全尺寸人形机器人,同时追求运动控制能力和具身智能模型研发[7] - 在具身模型层面,公司同时研究视觉语言动作模型和世界模型结合的不同分支,认为单靠一套技术能做的事有限[7][15] - 公司是全球最早研发机器人视觉语言动作模型的团队之一,并于2024年开始研发用于机器人的世界模型,引入世界模型后相比纯视觉语言动作模型方法效果平均提升约40%[13][14] - 世界模型与视觉语言动作模型的结合方式主要有松耦合和紧耦合两种,公司均在研究,具体技术路线仍属前沿探索领域[16] 商业化策略与场景 - 公司认为行业的下一个关键是从表演走向真正干活,2024年至2025年很关键,机器人需在工业类、生产类场景中找到第二增长曲线[11] - 公司定义的高价值场景是市场天花板高的领域,如物流、汽车、零售、3C等,其中物流分拣、上架等环节成本高达数百亿元[25] - 公司有两种商业模式:一是面向工厂等真实用户,在干活的同时收集数据;二是售卖机器人平台、供应链及零部件[26] - 公司判断当前不适合直接进入家庭场景,而是先通过更成熟的工业场景落地技术,待模型能力足够强、能泛化后再大规模部署家庭[26][27] 产品与硬件 - 公司非常重视灵巧手的研发,认为手是干所有活的核心,其灵巧手耐用度是其他产品的4倍,目标是从目前的百万次使用寿命达到千万次[21][25] - 公司研发全尺寸人形机器人旨在打通适配范围最广的技术闭环,在此基础上已衍生出轮式双臂机器人等产品[24] - 公司属于软硬全栈派,对标Figure和特斯拉,自研有助于加快迭代速度、降低成本并提高毛利率[34] - 创始人认为当前硬件已基本够用,行业最大的突破障碍在于模型层面,而硬件方面最大的卡点仍在灵巧手[37] 数据战略 - 公司认为真机数据是最直接、最精准的训练数据,当前训练数据主要包括遥操数据、UMI框架数据和视频数据三类[18] - 数据量级方面,1000小时数据能训练出一些可用的模型,10000小时能训练出效果不错的模型,而10万或数十万小时数据能看出规模效应[19] - 公司计划自建数据采集场,但更希望利用真实落地场景来采集数据,类似于自动驾驶的影子模式,但机器人场景维度更复杂[19][20] - 通过在不同场景积累数据,模型的泛化能力会提升,例如在物流场景训练好的抓取任务模型可以泛化到家庭收拾碗筷等场景[20]
AI智能涌现新阶段-智驾VLA与世界模型之争
2026-03-04 22:17
行业与公司研究关键要点 一、 涉及的行业与公司 * **行业**:智能驾驶(自动驾驶)行业,涵盖技术演进、政策法规、商业化进程 * **公司**: * **整车/技术方案商**:小鹏汽车、理想汽车、华为、蔚来、特斯拉 * **上游供应商**:禾赛科技(激光雷达)、地平线(智驾芯片) * **Robotaxi运营商**:小马智行、文远知行、曹操出行 二、 核心观点与论据 1. 技术范式演进路径 * 智能驾驶正从“规则+地图”向“端到端大模型数据驱动”演进,并进一步加速向“VLA(视觉-语言-动作)+世界模型”的物理AI范式演化[3] * 技术路径出现分化:华为、蔚来侧重“云端世界引擎+车端世界行动模型”;小鹏、理想侧重VOA路线,将大语言模型嵌入支架算法内部[1] * 结构演进路径:从分模块(感知、决策独立)→ 两段式端到端(模块间隐式表达)→ 一段式端到端(单一全链路模型)[6] * 两段式端到端被视为向一段式过渡的相对可实现路径,因存在中间表达更利于观察模型运行过程[6] 2. 模型能力与训练范式升级 * **模型规模**:智能驾驶模型参数规模持续跃迁,车端迈向“数十亿参数门槛”,云端向“百亿级别”提升[1][6] * **训练范式转变**:从依赖人类驾驶数据的模仿学习,转向“预训练+监督微调+强化学习”模式,以突破人类能力上限并解决风险非对称性问题[1][8] * **推理能力增强**:引入“结构化推理”或“长链思维”以提升复杂场景决策质量,例如小鹏第二代VLA通过“32倍超密视觉推理思维链”使预测误差降低约33%[1][4][5] * **通用大模型映射**:通用大模型在规模化能力跃迁、推理能力增强、后训练优化等方面的突破,持续向智能驾驶模型“映射”关键能力[3] 3. VLA/VOA与世界模型的核心特征与差异 * **VLA/VOA模型**:在统一模型框架内融合视觉、语言与动作,实现感知、推理与控制一体化,强调复杂语义理解与决策[9][10] * 优势:将大语言模型嵌入支架算法内部,相比外挂双系统方案,在交互性、类人性与长尾场景泛化性上更强[10] * 输入:摄像头、导航、地图等信号;输出:轨迹解码器(生成未来行驶计划)和文字解码器(生成自然语言解释)[10] * **世界模型**:在系统内部构建对物理环境的动态模拟与未来状态推演,以提升复杂场景的预见性与应对能力[7][11] * 核心能力:对未来物理世界的生成、行为规划与决策、联合预测与规划[11] * **两者关系**:并非相互排斥,呈现相辅相成与融合趋势,例如将世界模型能力嵌入VOA的训练目标,或设计统一的动态融合模型[11] 4. 头部厂商技术路线与进展 * **小鹏汽车**:侧重VOA路线,已发布第二代VLA * 采用原生多模态物理世界基座模型,支持“视觉+语言”多模态直接输入[12] * 通过32倍超密视觉推理思维链,预测误差降低约33%[1][12] * 全栈自研优化提升车端运行效率,云端数据储备与模型训练量规模与ChatGPT相当[12] * **理想汽车**:采用MindV-VOA路线,强化空间信息处理、场景理解与集体行为动作生成能力[12] * **华为**:侧重世界模型路径,采用“云端世界引擎+车端世界行动模型”的两段式架构,车端感知数据直接映射控制行为[1][12] * **特斯拉**:在感知端到端阶段的关键技术组合包括BEV、Transformer与OCC,解决了多传感器融合、信息丢失与遮挡等问题[7] 5. 关键时间节点与行业催化 * **2026年为关键催化时点**[1] * **政策端**: * L3/L4相关法案草案已于2026年春节前出台[13] * L2组合驾驶强标预计2026年第二季度发布正式版本[1][13] * 线控制动(EMB)、线控转向等技术标准有望2026年下半年逐步落地[1][13] * **产业端**: * 特斯拉Cybercab预计2026年4月量产,FSD将全量入华[1][13] * 国内头部厂商智驾算法加速迭代[13] * Robotaxi商业化运营迎来拐点[13] 6. 投资逻辑与关注方向 * **投资聚焦**:冗余能力与国产替代[2] * **重点关注增量方向**: * **激光雷达**:监管要求与智驾升级推动需求提升,如禾赛科技[2][13] * **高阶智驾芯片自主化**:国产替代空间大,如地平线[2][13] * **Robotaxi商业化**:单车UE模型跑通,迎来商业化拐点,关注小马智行、文远知行、曹操出行[2][13] * **智驾领先整车标的**:智驾能力对估值提升作用增强,关注小鹏汽车[2][13] 三、 其他重要内容 1. 通用AI发展对智驾的启示 * **Deepseek路径启示**:在算力资源受限情况下,可通过更高效的后训练设计、多阶段微调与强化学习,在不依赖巨额预训练投入的情况下实现高性能推理与人类偏好一致性,这对算力储备相对较少的车企具有参考意义[4][5] * **通用大模型关键跃迁路径**: * 第一阶段:“预训练+后训练对齐”(ChatGPT时刻)[4] * 第二阶段:引入多模态与显著增强推理能力(AI Agent时刻)[4] * 第三阶段(2025年后):以Deepseek为代表的“成本高效推理模型”(Deepseek时刻)[1][4] 2. 技术挑战与解决方案 * **模仿学习的瓶颈**:能力上限受制于人类驾驶水平,存在风险非对称性问题(如紧急制动场景下,“刹车更多”与“刹车更少”结果风险不同但可能受同等惩罚)[8] * **端到端模型的局限**:传统端到端偏黑盒,对物理规律理解不足,输出偏差难以定位根因[7] * **解决方案**:引入多模态大语言模型与VLA架构弥补视觉模型推理能力短板;通过强化学习提升泛化能力与模型能力上限[7][8]
印奇挂帅后,阶跃星辰要做大模型第三股?
21世纪经济报道· 2026-02-27 20:25
公司近期动态与传闻 - 有报道称公司考虑在港交所IPO,计划筹集约5亿美元 [1] - 公司完成超50亿元B+轮融资仅一个月后,即传出IPO消息 [1] - 旷视科技联合创始人印奇正式出任公司董事长,与CEO姜大昕等组成全新核心管理团队 [1] 公司技术战略与方向 - CEO姜大昕出身微软,信奉“多模态是通往AGI的必经之路”,公司已构建覆盖语言、多模态、推理的Step系列大模型矩阵 [1] - 董事长印奇将技术攻坚方向拆解为三个:基模、全模态融合、VLA(视觉-语言-动作) [2] - 公司持续投入研发语言基础大模型,从Step 3.5向Step 4迈进,坚持通用大模型路径 [2] - 公司认为未来人机交互是文字、语音、图像三个模态的融合,并在视觉编码、理解生成一体化等难题上长期投入 [2] - VLA(视觉-语言-动作)是公司寻求差异化的方向,旨在实现大脑与执行器件在终端设备上的协同 [2] 公司商业化路径与业务进展 - 2025年,公司业务聚焦于为智能终端设备打造AI智能体(Agent),重点布局汽车、手机、物联网设备等场景 [3] - 截至2025年年底,公司终端智能体的API调用量连续三个季度增长近170% [3] - 公司已布局车载AI,联合千里科技、吉利汽车推出业内首个搭载端到端语音模型的AgentOS智能座舱,应用于吉利银河M9车型 [3] - 公司收入模式为“端+云”结合:端侧按License收费,云侧按消耗计费 [6] - 公司选择“终端侧突围”的商业化路径,与手机、汽车等厂商合作,增长稳健但规模化依赖合作伙伴出货量 [6] 行业竞争格局与市场环境 - 国内大模型竞争已从参数规模比拼,进入以应用深度和产业整合为核心的下半场 [3] - 2026年开年港股迎来AI上市潮,壁仞科技、智谱、MiniMax相继上市,昆仑芯、天数智芯也已递交申请 [3] - 智谱香港公开发售获1159倍认购,MiniMax获超1837倍超额认购 [4] - 截至2月27日,智谱与MiniMax股价涨幅均超过360%,市值双双突破2300亿港元 [4] - 已上市AI公司路径分化明显:智谱2025年上半年本地化部署贡献约85%收入,毛利率高达59%,主要面向政企客户 [5];MiniMax收入超70%来自C端AI原生应用,2025年前九个月营收为5344万美元,同比增长超过170%,大部分收入来自海外市场 [5] - 大模型赛道的竞争,已经从技术路线的争论,演变为商业模式的对决 [6]
为什么春晚的机器人不“僵”了?具身智能正在经历一场大脑进化
机器人大讲堂· 2026-02-19 08:00
行业演进:从舞台表演到物理理解 - 人形机器人在春晚舞台的表现逐年进步,从2019年6台优必选Walker集体起舞,到2025年16台宇树H1表演赛博秧歌,印证了本体控制与群体协同的初步成熟[1] - 2026年春晚的机器人表演展现出超越视觉奇观的进步,机器人在复杂阵型变换与光影追踪下表现出生物般的灵动,这源于更先进的控制算法、毫秒级轨迹追踪及软硬件深度耦合[2][5] - 行业共识认为,预设的舞台场景已不足以应对真实世界挑战,机器人要进入非标工厂、杂乱家庭或多变养老院等场景,必须发展出能理解、预判并规划物理世界的“大脑”[5][6] 主流技术范式:VLA的成就与局限 - 视觉-语言-动作模型是当前具身智能最主流的“大脑”底座,2026年该赛道竞争激烈[7] - 蚂蚁灵波推出使用20000小时真实数据训练的最强开源VLA基座,拥有精确空间感知能力,可适配9种不同构型双臂机器人,实现“一个大脑,适配多个身体”[8] - 地平线的HoloBrain-0基座模型通过“具身先验”强化3D空间感,能处理折叠柔软衣物、抓取新物体等任务,并具备强大跨平台泛化能力[10] - 小米开源的Xiaomi-Robotics-0模型采用双脑协同架构,以47亿参数在消费级显卡上运行,在叠毛巾、拆乐高等单任务上可保持30分钟连续作业的高稳定性,几乎达到实用级[11] - VLA在结构化环境及单任务场景下已迈入实用门槛,但其“端到端”模式存在根本局限:缺乏对重力、重心等物理常识的理解,难以处理长序列任务中的意外,使其在真实复杂环境中受限[13] 技术跃迁:向具身世界模型演进 - 行业意识到下一场进化需从“看图说话”式的动作对齐转向“脑内预演”式的物理模拟,即从VLA向具身世界模型范式跃迁[14] - 全球范围内展开竞速:DeepMind的Genie模型通过海量视频训练证明AI可脑补出可交互的物理世界;NVIDIA的GR00T项目利用生成式AI在仿真环境中为机器人提供预演能力;Figure 02在其架构中强化“动作后果预测”,向世界模型靠拢[15] - 蚂蚁灵波在此次跃迁中采取硬核务实打法,通过开源给出从“视觉模拟”到“动作控制”的闭环方案[16] - 其核心系统之一LingBot-World构建了一个高保真、可交互且符合物理规律的仿真环境,机器人可在其中进行零成本模拟学习,再将经验迁移到现实[16] - 同步开源的LingBot-VA是全球首个自回归视频-动作一体化世界模型,可根据当前观测同步生成下一帧画面及对应动作,实现“边推演,边行动”,并能通过画面不对齐瞬间感知偏差并自动修正[18][21] - 这种“预测-对齐-修正”的闭环赋予机器人应对非标环境的物理直觉,是解决药房、家庭、工厂等复杂场景挑战的关键[21][22] 产业价值:推动规模化交付 - 从“动作映射”到“物理预演”的跨越为产业规模化交付扫清障碍[23] - 数据效率发生质变:在懂因果、懂常识的世界模型逻辑下,仅需30至50条演示数据就能类比学会新任务,极大缩减落地成本,而以往训练新技能需上万条真机数据[23] - 任务成功率确定性提升:在RoboTwin 2.0仿真基准数据中,具备“预判能力”的大脑在多任务成功率上稳定在91%以上,使机器人能在环境杂乱、传感器有噪声的非标工厂稳健完成长流程操作[23] - 大脑通用性增强:全栈开源方案提供了一套通用大脑适配多元硬件的底座,无论是宇树H1、G1还是各类工业机械臂,都可共用底层认知逻辑,使下游厂商无需为每款机器人重复开发,可专注于垂直场景工艺打磨[24][25] 发展路径与未来展望 - 具身智能发展是分步过程:2023年接入大模型让机器人“听懂人话”;2024年硬件成熟让机器人学会基本拿放;当前阶段是逻辑觉醒,机器人开始理解物理规律并在行动前进行脑内预演[26] - VA架构虽展现降维打击潜力,但并非唯一路径,业内对最优方案存在博弈,包括坚信大数据VLA可暴力模拟物理规律,以及主张用严谨数学公式确保极端场景零差错等不同路线[27] - 多路线交叉竞争让2026年具身智能赛道更具实战价值,当机器人拥有物理逻辑并能精准预判和稳健操作时,技术才算真正从表演舞台落到现实产业中[28] 产业链相关企业 - 文章末尾列举了工业机器人、服务与特种机器人、人形机器人、具身智能、医疗机器人及上游产业链等领域的大量相关企业名单[29][30][31][32]
世界模型,是自动驾驶的终极答案吗?
36氪· 2026-02-05 12:30
行业核心趋势:世界模型成为智能驾驶新焦点 - 世界模型是继端到端、VLA后,智驾领域最时髦的技术名词,多家公司推出相关概念,如小鹏的“世界基座模型”、蔚来的“端到端世界模型”、华为的“世界行为模型”,地平线、理想、元戎启行、Momenta也在进行相关研发 [2] - 在广义语境中,世界模型本质是在虚拟世界再造真实世界,使AI能理解现实世界的物理规律、因果关系和环境动态,被科学家和科技公司视为实现“物理世界AI”的关键拼图 [3] - 当前智驾行业谈论的“世界模型”在技术路径上差异不大,主要是对传统仿真工具进行范式升级,旨在还原度、颗粒度、场景丰富度和自由度更高的虚拟世界中,解决端到端模型的测试与验证问题,以训练出更拟人化的智驾模型 [4] 技术驱动因素:端到端普及暴露传统仿真短板 - 过去两三年,头部智驾方案从规则栈转向AI驱动的端到端模型,感知、预测、规划被整合进一张网络,配合更大模型和更高算力,旨在使驾驶行为更拟人 [7] - 端到端模型的“黑盒”特性导致新版本OTA可能表现不稳定甚至“退步”,核心问题在于AI驱动使得模型评估和回归验证变得困难,研发人员难以定位错误原因 [8][9] - 端到端的普及凸显了传统仿真器的短板,传统仿真器在规则时代主要用于问题重现和增加特定场景数据,但无法支撑端到端模型所需的大规模、系统性闭环验证 [10] 核心应用定位:世界模型作为云端仿真与验证系统 - 截至目前,智驾行业的世界模型仅应用于云端,尚未部署到车端,其主要作用是充当仿真器,用于测试和验证端到端模型 [6] - 头部玩家如理想和小鹏均将世界模型作为仿真器应用,理想为使其VLA在仿真环境中进行强化学习,提出了包含自车和他车轨迹的驾驶世界模型;小鹏也在采用世界模型进行仿真测试以评测新算法 [10] - 世界模型在工程上被定位为端到端时代的“验证与反证系统”,用于在云端重放、改写、扩增现实驾驶场景,检验车端大模型输出的稳定性和可复现性,并形成可追踪的错误证据链 [14] - 世界模型的核心能力包括对物理世界的数字化建模与抽象,以及基于此对物理世界进行合理的想象和预测,例如通过给定图片预测未来变化 [14] 技术路径与挑战:生成质量、幻觉与算法瓶颈 - 世界模型的好坏取决于其能否在云端生成足够真实和多样性的数据,仅回放真实数据并非真正的世界模型,训练数据的质量会显著影响生成结果的质量 [15] - 世界模型底层是生成式模型,天生存在“幻觉”风险,目前最难的是保证生成内容符合真实世界的物理规律和行为逻辑,否则将导致车端模型学到错误知识,性能变差 [16] - 行业普遍处于早期阶段,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体在时空一致性和多视角一致性上存在较大问题 [16] - 前理想汽车辅助驾驶负责人指出,世界模型的瓶颈首先在于算法层面未有突破,图像模型的自监督训练尚未找到像语言模型那样顺畅的范式,图像信息密度低,对驾驶决策有用的信息占比极低,模型需从海量噪声中提取极少有效信号 [17][18] - 由于基础技术尚未明确突破,车企对世界模型的投入更多是研究性质,目前世界模型主要停留在用于训练与验证的第一阶段,而非能支撑决策规划的第二阶段 [18] 效率价值与未来展望 - 基于世界模型,车企在云端仿真时可以无限制地生成所需场景,根据指令生成视频作为训练数据,效率远高于真实数据采集与训练,能带来模型迭代速度的断代式领先 [16] - 特斯拉采用了“世界模拟器”的概念,其基于海量数据集训练,根据当前状态与动作生成未来状态,并与车端端到端模型形成闭环评估,其方法更倾向于用神经网络“拟合”世界,渲染通过计算生成,以增强模型泛化能力 [11][14] - 业内观点认为,如果世界模型足够成熟且算力可支撑,未来有望部署到车端,实现通过预测世界变化并进行有利决策,从而解决自动驾驶和机器人相关问题,但目前尚无公司在车端应用世界模型 [18][19]
见谈|地平线吕鹏:端到端是基石,做不好端到端就做不好VLA
21世纪经济报道· 2026-02-03 16:04
智能驾驶技术路线 - 行业专家认为市场无需对技术路线的不同名词感到焦虑 无论是端到端 VLA WA还是VA 本质上没有冲突 其技术架构均基于端到端构建 [1] - 端到端技术是基石 没有端到端的基座 很难引入新的模态 也无法更好地提升产品性能 做不好端到端就做不好VLA [1]
五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论
中金在线· 2026-01-28 10:39
物理AI的发展趋势与核心突破 - AI技术正取得三大突破:从聊天到干活的智能体、开源模型降低门槛、物理智能理解客观自然世界 物理智能展现出AI开始理解蛋白质结构、化学分子、流体力学等自然科学规律 这被认为是AI的下一波浪潮[1] 物理AI的核心技术范式:VLA与世界模型协同 - 为加速AI理解、重建和生成物理世界,需依赖世界模型这一利用AI训练AI的新工具[2] - 行业共识认为,单纯依赖真实机器人数据采集不够 正在见证VLA模型或VA模型与世界模型双模型协同的新范式崛起[2] - VLA或VA模型担当负责感知、推理和行动的大脑 世界模型充当负责推演和想象的场景模拟器[2] VLA与世界模型协同的价值与路径 - VLA+世界模型是解决物理AI中具身智能数据饥渴和物理安全性矛盾的最优解 真实机器人数据采集较贵、较慢、有危险[3] - 世界模型能生成无穷无尽的仿真数据 可低成本生成各种情景甚至反事实场景 为VLA提供细节丰富的训练场[3] - 斯坦福大学李飞飞教授提出空间智能是连接数字与物理世界的桥梁 世界模型应生成具备3D几何一致性、物理互动性的可操作世界 VLA在此训练才能真正理解物理规律[3] - 协同进化工程化落地分为四个阶段:冷启动、接口对齐、在仿真场景中训练、虚实迁移与校准[4][5] 解决生成式模型物理常识缺失的关键技术 - 需警惕生成式模型在长时间序列预测中的一致性幻觉 如物体突然变大或穿透[6] - 解决对策:引入3D几何、材质等约束 结合3DGS等技术 确保生成的物体在三维空间中守恒[6] - 公司日常训练中将3DGS技术与3D几何图形引擎融合 形成3DGS混合仿真引擎 使虚拟环境物理特性与真实环境保持一致[6] - 为判断任务成功 需训练配套的奖励模型作为裁判 查看生成场景并给出分数反馈[6] - 为解决世界模型推演速度瓶颈 可采用潜一致性模型等加速技术 将预测从像素级转移到特征级 速度可大幅提升[6] 数据共享与互补的最佳实践 - 世界模型训练需要输入真实数据与合成数据[7] - 共享视觉底座:VLA和世界模型的视觉编码器可共享权重或联合训练 以节省显存并保证对世界特征的同频理解[7] - 反事实数据生成:利用世界模型生成假设性失败案例数据 让VLA学习从未经历过的失败 提升鲁棒性[7] - 数据配比:建议发展初期按照真实数据与合成数据1:9的比例混合使用 真实数据用于校准物理规律 合成数据用于拓展多样性[7] 物理AI的演进方向与未来应用 - 世界模型未来需直接生成4D的交互式环境 VLA将在完全三维的动态可交互环境中训练[8] - 在公司的"数字孪生工厂"中 利用物理AI可在虚拟产线调试机械臂、应对异常 再同步到实体工厂执行[8] - 构建动态"虚拟训练场" 使人形机器人在部署前学会应对数千种突发状况[8] - 实现快慢系统默契配合:VLA处理毫秒级实时反应 世界模型处理长程规划 当VLA遇难题可呼叫世界模型推演方案[8] - 最终VLA和世界模型可能合并为一个大一统模型 输入观测时既能预测下一个动作也能预测下一帧状态[9] - 未来应用包括:机器人管家、模拟火星环境中自主作业的工程车、在药物研发中推演蛋白质折叠与分子互作的"虚拟实验室"[10]
从 DeepMind 到投身具身智能,王佳楠:算法最终还是要服务真实世界|万有引力
AI科技大本营· 2026-01-23 18:09
文章核心观点 - 通往AGI的终极路径是具身智能,其目标是让大模型进入物理世界,成为可用、可落地、可持续演化的智能体[1] - 具身智能并非AI的新分支,而是各类AI技术在现实世界中的统一落地点[6] - 实现具身智能需要从纯粹的算法研究转向与硬件、数据和真实场景不确定性正面交锋的全流程定义与开发[2][21] 从DeepMind到投身具身智能 - 嘉宾王佳楠的职业路径从牛津大学到DeepMind,再回国加入IDEA研究院进行生成式AI研究,最终于2024年加入星尘智能,投身于大模型与机器人结合的具身智能领域[1][7][18] - 在DeepMind期间,其研究方向是追求通用的强化学习框架,并亲历了AlphaStar等标志性项目的诞生[1][12] - 从DeepMind到创业公司的转变,本质是从“定义好问题”的纯算法研究,转向需要“定义问题本身”的解决真实世界问题的过程[6][14] 对具身智能的认知与信念 - 对嘉宾而言,AGI的终极形态就是智能机器人,这是其投身该赛道的根本信念[8][9] - 机器人是当前AI技术的一个重要终端平台,CV、NLP、大模型等领域的从业者都在此汇聚,以实现开放环境中与人交互的智能机器人目标[7] - 机器人研发涉及复杂的软硬耦合,与纯粹的AI开发逻辑完全不同,开发者需从“解题者”转变为“全流程定义者”[21] 技术架构:快慢系统(大小脑) - “快慢系统”(或称大小脑、System 1/System 2)是具身智能的核心系统观,其核心在于区分决策深度[6][25] - 快系统(小脑)负责无需语言中介、由直觉驱动的基础运动能力,其核心任务是通过海量动作片段数据预训练,构建机器人的“动作基元库”[28][29] - 慢系统(大脑)作为指挥官,通过高层指令精准调用快系统的原子技能,实现从“意图”到“执行”的闭环[29] - 该架构是一种功能定义,既可通过单一模型切换实现,也可通过多模型协作完成,并具备高度可扩展性[25] 关键瓶颈与解决方案探索 - **数据是当前最硬的瓶颈**,高质量的真机数据不可替代[6][33] - 解决数据瓶颈的探索包括:1)**数据增强**:在仿真中对真实采集的数据进行背景、光照等调整以扩充数据量;2)**纯仿真生成**:适用于交互不复杂的任务;3)**互联网数据积累**:用于解决上层语义理解和长时序任务规划等痛点[34][35] - 在模型架构上,常见方案包括使用单一Transformer的VLM框架,或外接世界模型(如DiT)提供预测提示,系统需要开放地接受不同形式的提示[31][32] - 让机器人理解人类非预设的复杂需求,核心在于意图表达的颗粒度,需结合“语言指令+多模态提示”(如勾勒运动轨迹、设定空间约束)[31] 对世界模型与VLA的看法 - 世界模型是一个有潜力的方向,但**不需要等待其完美**,能提供预测与提示价值即可,其本身并非银弹[6][38] - 如果已经能完美仿真一个问题所处的环境,那么该问题其实已经解决,这是一个哲学上的循环问题[38] - VLA是通往通用机器人的**关键一步和重要里程碑**,它为机器人配备了通用能力,但下游应用仍需要特定的设计或改动[6][41] 通用机器人的发展路径与时间表 - 通用机器人“走到人身边”可能只需**2到3年**,但实现完全自主还需要长期演化[6][43] - 更现实的路径是“可用先行、人类接管、逐步升级”,类似自动驾驶的发展节奏[6][43] - 若目标是在定义好的大量任务上达到高正确率,主要是一个数据和模型训练问题,若有足够快的数据采集和行业共创,**3到5年**可能积累覆盖日常各种场景的完整数据[44][45] 公司实践与发展现状 - 星尘智能团队具备多元化的行业长期积累,并通过紧密的多团队协作与创业精神实现了产品的快速发展[19] - 公司在数据方面进行了大量优化,并采用仿真进行数据增强,同时与MIT等高校合作探索多模态数据应用[33][47] - 公司目前处于“打磨”和推向科研、高校合作伙伴的阶段,门槛已有所降低,但商业化落地(让客户能自主验证和二次开发)是下一步关键挑战,整体进度估计在**50%左右**[50][51] 未来关键方向与行业建议 - 未来关键探索方向包括:1)**人机交互**:定义机器人理解意图、沟通及发出求助信号的交互方式;2)**多模态数据**:收集和应用触觉、力觉等更多模态数据以提升模型能力[47] - 具身智能是一条漫长但值得坚持的道路,需要开发者具备信念感和耐心[55] - 行业需要**共创共赢**的心态,集合个人、公司、社区的力量共同积累与反馈,以推进边界[6][55]
2025年几家自动驾驶公司的采访总结
自动驾驶之心· 2026-01-22 17:07
核心观点 - 自动驾驶行业在核心算法层面已形成共识,即采用端到端(End-to-End)作为基础架构,并引入世界模型(World Model)作为关键基础设施 [6][7][10] - 行业在顶层认知上出现路线分歧,主要围绕是否在端到端模型中引入语言模型(即VLA与WA/反VLA之争),这本质上是计算效率与推理能力(快思考 vs 慢思考)的不同权衡 [7][11] - 未来三年是现有深度学习范式的“极致优化期”,核心在于通过海量数据驱动能力自然生长,而非理论重构 [7] - 行业竞争已超越单纯算法模型之争,研发基建、数据仿真、算力芯片、工程化能力及用户体验等非技术因素成为决定成败的关键变量 [13] 核心技术路线 端到端 (End-to-End) - 是自动驾驶的底层基座,替代了传统的模块化方案,直接从传感器输入映射到控制输出 [1][10] - 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),统一了L2和L4的开发范式 [7] - 其局限性主要是“模仿学习”,能力上限受限于训练数据,缺乏逻辑推理 [12] 世界模型 (World Model) - 是核心算法演进中的关键基础设施,扮演“中间加速器”的角色 [7][10] - 主要作用分为两方面: - **对内(训练)**:作为“超级模拟器”,生成大量合成数据以解决长尾问题,并让端到端模型在虚拟环境中通过强化学习反复试错迭代,实现从“数据闭环”到“训练闭环”的演进 [2][8][11][18] - **对外(推理)**:作为“预测机”,帮助车辆理解物理规律和因果关系,直接指导动作生成 [9][11] - 3DGS(3D Gaussian Splatting)是构建高保真仿真环境的重要技术 [3] 视觉-语言-动作模型 (VLA) 与 世界-动作模型 (WA) - **VLA派(理想、英伟达)**:认为需要引入大语言模型赋予车辆逻辑推理(Chain of Thought)和解释能力,以处理复杂、罕见的长尾场景(System 2,慢思考) [9][11][12] - **WA/反VLA派(华为、小鹏)**:认为驾驶主要是直觉反应,引入语言环节会增加延迟和算力负担,主张直接从世界模型理解映射到动作(System 1,快思考) [9][11] - **务实派(小米)**:当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求,追求“智能密度”最大化 [9][11] 主要公司技术选择对比 | 公司 | 核心技术路线选择 | 核心逻辑与观点 | 世界模型/仿真工具的角色 | | :--- | :--- | :--- | :--- | | **理想汽车** | VLA (Vision-Language-Action) | 认知驱动,认为需从“模仿”进化到“自己学会”,单纯数据闭环不够,必须走向训练闭环 [9] | 利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化,是训练闭环的核心 [9] | | **英伟达 (NVIDIA)** | 物理AI + VLA (Alpamayo) | 强调AI的可解释性与推理能力,不仅要会开,还要能解释决策,并强调“Test time Scaling”(让AI多思考一会儿) [9] | 使用Omniverse & Cosmos生成合成数据和进行物理模拟,训练车辆学习物理定律 [9] | | **小米汽车** | 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化,当前方案优先解决“直觉”(System 1)问题,VLA类似“看悬疑片”(System 2),仅用于极复杂场景,不制造技术焦虑 [9][17] | 使用高保真模拟器进行强化学习训练,解决实车难以覆盖的长尾场景 [9] | | **地平线** | 一段式端到端 (One-Stage) | 范式统一,认为FSD V12证明了端到端的可行性,未来三年是“极致优化期”,旨在统一L2与L4的开发范式 [9] | 未详细展开,主要强调通过统一范式和低成本部署打通壁垒 [9] | | **华为 / 小鹏** | WA (World Action) / 反VLA | 去语言化,认为驾驶主要是直觉反应,不需要经过语言环节,以降低延迟和算力负担 [9] | 利用世界模型理解环境演变,直接指导动作生成 [9] | 非核心技术关键因素 研发基建与工程效率 - 基建(以数据为核心的研发效能)决定迭代速度,好的基建能大幅提升研发效率,例如小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率提升 [3][18] - 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练 [18] - 强化工程能力和组织能力被视为公司的“工业母机”,是应对技术范式变化的确定性方法 [18] 仿真与合成数据 - 仿真成为解决长尾问题(Corner Case)的核心,单纯依赖真实路测数据已无法满足需求 [14] - 合成数据价值极高,例如在小米的训练数据中,仿真数据占比约为20%,但节省了数倍的人力成本 [18] - 英伟达通过Cosmos世界模型生成符合物理定律的合成数据来训练自动驾驶模型 [18] - 理想汽车等公司强调从“数据闭环”走向“训练闭环”,让AI在虚拟世界中进行强化学习,自我探索最优策略 [18] 算力规模与芯片适配 - 智驾是算力和硬件的“暴力美学”,计算机工业的本质就是“玩命堆算力” [15][18] - 英伟达发布Rubin平台以应对每年增长5倍的AI推理需求,旨在将推理成本降低至原来的1/10 [18] - 算法上车面临巨大的“部署偏差”,从一颗芯片迁移到另一颗芯片通常需要6-10个月解决算子支持、计算精度对齐等问题,这种高昂的迁移成本构成了芯片厂商的护城河 [18] - 随着AI进行长序思考(System 2),车载芯片的“显存”面临巨大挑战 [18] 商业化成本与泛化能力 - 技术再先进也需考虑成本,智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别车型 [18] - 新一代端到端技术通过数据驱动,在一个复杂城市验证后,能大概率泛化到整个国家,极大地降低了扩张成本 [18] 用户体验与安全冗余 - 技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑 [17] - 安全机制至关重要,即便是激进的端到端方案也需要安全兜底,例如英伟达的方案中包含了一个经典的规则驱动AV栈作为安全护栏,在端到端模型信心不足时回退 [19]