对话地平线前高管牛建伟：万亿参数大模型如何重塑具身智能

具身智能行业技术路线分歧 - 行业赛道正在分裂，主要存在两大技术流派：“VLA派”与“智驾降维派” [2] - “VLA派”采用视觉-语言-动作端到端方案，用海量数据训练机器人执行具体任务，代表公司如智元、自变量，估值已飙升至数百亿 [2] - “智驾降维派”将自动驾驶的BEV、端到端经验移植到人形机器人，代表团队有至简动力、维他动力等，动辄融资数亿美金 [2] - 两大技术路线均未完全跑通，VLA面临泛化与成本问题，智驾派面临场景迁移挑战，行业共识远未形成 [2] - 2026年业界出现了第三支“大模型派”，该派系选择将具身大脑与多模态大模型结合 [3][4] 牛建伟的背景与创业动机 - 牛建伟是地平线前智能座舱产品线总经理，拥有百度首个深度学习语音系统及国内首个车规级AI芯片+多模态人机交互方案量产经验 [5] - 2015年加入地平线初衷是实现机器人梦想，但当时技术不成熟，后转向智能汽车领域 [12][14] - 在地平线期间，其团队创造了AI芯片在汽车行业最快量产的速度记录，并将行业首个多模态AI解决方案落地到长安UNI-T爆款车型 [14][15] - 创业契机源于团队探索使用大模型作为GUI Agent操作手机APP完成下单，意识到将其放到机器人上的时机已到 [17] - 认为当前入场时机成熟，因为具身智能尚未达到“GPT时刻”，缺乏“范式基座”，而自身拥有超过十年的积累 [19] 对VLA路线的批判 - 核心观点认为VLA是弯路，正在用大模型最不擅长的方式解决运动控制问题 [6][21] - 指出大语言模型的根本局限在于离散token化表示，本质是文本概率生成器而非数值计算器，存在模态错配 [22] - 举例说明大模型在数值计算上存在缺陷，如比较“9.9”和“9.10”会产生数值幻觉，三位数乘法计算无法做到100%准确 [23] - 认为VLA将视觉-语言理解直接映射为连续动作坐标，是“扬短避长”，弱化了大模型擅长的任务规划与工具调用能力 [23] - 指出VLA的三个具体问题：1) 模型太小（通常3B-7B参数），学习100万小时视频数据（对应7.2B张图像帧）会出现欠拟合，充分学习需要100B级别参数，十年内端侧芯片无法支持 [27] 2) 与机器人本体绑定太深，硬件迭代成本高 [27] 3) 缺乏有效的反馈和记忆机制，认知与执行强耦合，无法通过反馈在线学习 [27] - 认为VLA的演示效果（如叠衣服）是针对特定任务采集大量数据的结果，缺乏泛化与智能，如同“小学生叠十年衣服，不会变成大学生” [25][26] - 认为端到端的VLA是单点方案，难以解决具身智能所需的通用任务问题，类比自动驾驶L3问题尚未有效解决 [28] “大模型派”的技术方案 - 提出分层架构解决方案：上层是万亿参数的“空间智能大模型”作为大脑，负责任务规划、推理和记忆；下层是0.1B-1B参数的VA（Vision-to-Action）小模型作为手和脚，负责执行基础操作 [29][30] - 方案核心是充分利用大模型在逻辑推理、任务规划和工具调用方面的优势，并针对物理世界数据进行优化 [30] - 认为物理世界复杂度高，机器人理解三维空间关系和物理规律需要万亿参数级别的大模型，与GPT处理数字世界相当 [33] - 训练方法上，计划在开源大模型（如千问、Llama）基础上，增加三维世界数据重新训练，成本可能从1000亿人民币降至几十亿 [33] - 预训练阶段加入大量弱标注三维数据学习物理规律，后训练用几千小时精标数据激发能力，所需数据量远低于VLA的100万或1000万小时 [33] - VA模型与VLA的区别在于弱化语言部分，实现视觉直接驱动动作，参数规模小（0.XB），推理速度更快、延迟更低 [34] - 在该方案中，大模型负责理解“为什么要做”，VA模型负责执行“怎么做”，大脑可复用于不同形态的机器人本体 [36] 对行业现状与竞争格局的看法 - 认为行业内大规模数据采集计划若算法范式错误，采集越多越浪费，并指出第一视角数据价值可能弱化之前的遥操数据 [38] - 以自动驾驶行业技术迭代导致历史数据价值弱化为例，建议从智能终局出发考虑数据采集与标注 [39] - 指出当前投资圈认可智驾背景团队做VLA是“降维打击”，但认为这是错误的，因为自动驾驶是单点问题，而具身智能是通用问题 [40][41] - 将具身智能竞争者分为三派：1) 本体派（如波士顿动力），只有运动控制，缺乏环境感知 [42] 2) VLA派，只有操作能力，没有大脑 [42] 3) 大模型派（如特斯拉、谷歌及其团队），做大脑，负责任务规划、推理和记忆 [42] - 指出特斯拉和谷歌拥有完整方案：特斯拉有Grok，谷歌有Gemini，都是利用万亿参数大模型作为大脑进行任务拆解与推理，本体上用VLA或类似模型执行 [43] 公司当前进展与产品愿景 - 公司已在机器人上跑通物理Agent架构，可通过对话交互修正机器人任务执行，并积累技能，初步建成了“物理世界的OpenClaw” [45] - 具体能力示例：机器人可理解“把杯子拿起来放到收纳盒里”的指令，并自主拆解任务，调用相机、深度感知及VA模型逐步完成 [47] - 与VLA端到端的核心区别在于引入了物理Agent架构，具备任务实时监督、反馈、记忆与反思能力，形成感知、决策、执行、评估与反思的完整闭环，实现持续学习与成长 [48] - 反馈学习机制类似养“小龙虾”，可通过指令在线学习新规则（如“杯子以后放厨房”）并形成记忆，无需模型重训练 [49] - 最终目标是打造“物理世界的GPT”，即最懂物理世界的“大脑”，而非最会执行特定任务的机器人 [6]