具身智能行业技术路线分歧 - 行业赛道正在分裂,主要存在两大技术流派:“VLA派”与“智驾降维派” [2] - “VLA派”采用视觉-语言-动作端到端方案,用海量数据训练机器人执行具体任务,代表公司如智元、自变量,估值已飙升至数百亿 [2] - “智驾降维派”将自动驾驶的BEV、端到端经验移植到人形机器人,代表团队有至简动力、维他动力等,动辄融资数亿美金 [2] - 两大技术路线均未完全跑通,VLA面临泛化与成本问题,智驾派面临场景迁移挑战,行业共识远未形成 [2] - 2026年业界出现了第三支“大模型派”,该派系选择将具身大脑与多模态大模型结合 [3][4] 牛建伟的背景与创业动机 - 牛建伟是地平线前智能座舱产品线总经理,拥有百度首个深度学习语音系统及国内首个车规级AI芯片+多模态人机交互方案量产经验 [5] - 2015年加入地平线初衷是实现机器人梦想,但当时技术不成熟,后转向智能汽车领域 [12][14] - 在地平线期间,其团队创造了AI芯片在汽车行业最快量产的速度记录,并将行业首个多模态AI解决方案落地到长安UNI-T爆款车型 [14][15] - 创业契机源于团队探索使用大模型作为GUI Agent操作手机APP完成下单,意识到将其放到机器人上的时机已到 [17] - 认为当前入场时机成熟,因为具身智能尚未达到“GPT时刻”,缺乏“范式基座”,而自身拥有超过十年的积累 [19] 对VLA路线的批判 - 核心观点认为VLA是弯路,正在用大模型最不擅长的方式解决运动控制问题 [6][21] - 指出大语言模型的根本局限在于离散token化表示,本质是文本概率生成器而非数值计算器,存在模态错配 [22] - 举例说明大模型在数值计算上存在缺陷,如比较“9.9”和“9.10”会产生数值幻觉,三位数乘法计算无法做到100%准确 [23] - 认为VLA将视觉-语言理解直接映射为连续动作坐标,是“扬短避长”,弱化了大模型擅长的任务规划与工具调用能力 [23] - 指出VLA的三个具体问题:1) 模型太小(通常3B-7B参数),学习100万小时视频数据(对应7.2B张图像帧)会出现欠拟合,充分学习需要100B级别参数,十年内端侧芯片无法支持 [27] 2) 与机器人本体绑定太深,硬件迭代成本高 [27] 3) 缺乏有效的反馈和记忆机制,认知与执行强耦合,无法通过反馈在线学习 [27] - 认为VLA的演示效果(如叠衣服)是针对特定任务采集大量数据的结果,缺乏泛化与智能,如同“小学生叠十年衣服,不会变成大学生” [25][26] - 认为端到端的VLA是单点方案,难以解决具身智能所需的通用任务问题,类比自动驾驶L3问题尚未有效解决 [28] “大模型派”的技术方案 - 提出分层架构解决方案:上层是万亿参数的“空间智能大模型”作为大脑,负责任务规划、推理和记忆;下层是0.1B-1B参数的VA(Vision-to-Action)小模型作为手和脚,负责执行基础操作 [29][30] - 方案核心是充分利用大模型在逻辑推理、任务规划和工具调用方面的优势,并针对物理世界数据进行优化 [30] - 认为物理世界复杂度高,机器人理解三维空间关系和物理规律需要万亿参数级别的大模型,与GPT处理数字世界相当 [33] - 训练方法上,计划在开源大模型(如千问、Llama)基础上,增加三维世界数据重新训练,成本可能从1000亿人民币降至几十亿 [33] - 预训练阶段加入大量弱标注三维数据学习物理规律,后训练用几千小时精标数据激发能力,所需数据量远低于VLA的100万或1000万小时 [33] - VA模型与VLA的区别在于弱化语言部分,实现视觉直接驱动动作,参数规模小(0.XB),推理速度更快、延迟更低 [34] - 在该方案中,大模型负责理解“为什么要做”,VA模型负责执行“怎么做”,大脑可复用于不同形态的机器人本体 [36] 对行业现状与竞争格局的看法 - 认为行业内大规模数据采集计划若算法范式错误,采集越多越浪费,并指出第一视角数据价值可能弱化之前的遥操数据 [38] - 以自动驾驶行业技术迭代导致历史数据价值弱化为例,建议从智能终局出发考虑数据采集与标注 [39] - 指出当前投资圈认可智驾背景团队做VLA是“降维打击”,但认为这是错误的,因为自动驾驶是单点问题,而具身智能是通用问题 [40][41] - 将具身智能竞争者分为三派:1) 本体派(如波士顿动力),只有运动控制,缺乏环境感知 [42] 2) VLA派,只有操作能力,没有大脑 [42] 3) 大模型派(如特斯拉、谷歌及其团队),做大脑,负责任务规划、推理和记忆 [42] - 指出特斯拉和谷歌拥有完整方案:特斯拉有Grok,谷歌有Gemini,都是利用万亿参数大模型作为大脑进行任务拆解与推理,本体上用VLA或类似模型执行 [43] 公司当前进展与产品愿景 - 公司已在机器人上跑通物理Agent架构,可通过对话交互修正机器人任务执行,并积累技能,初步建成了“物理世界的OpenClaw” [45] - 具体能力示例:机器人可理解“把杯子拿起来放到收纳盒里”的指令,并自主拆解任务,调用相机、深度感知及VA模型逐步完成 [47] - 与VLA端到端的核心区别在于引入了物理Agent架构,具备任务实时监督、反馈、记忆与反思能力,形成感知、决策、执行、评估与反思的完整闭环,实现持续学习与成长 [48] - 反馈学习机制类似养“小龙虾”,可通过指令在线学习新规则(如“杯子以后放厨房”)并形成记忆,无需模型重训练 [49] - 最终目标是打造“物理世界的GPT”,即最懂物理世界的“大脑”,而非最会执行特定任务的机器人 [6]
对话地平线前高管牛建伟:万亿参数大模型如何重塑具身智能
雷峰网·2026-04-22 08:38