世界模型仿真器

搜索文档
前小米智驾刘方:如果VLA跑通,自动驾驶会变成具身智能子问题|36氪专访
36氪· 2025-05-28 12:18
"VLA是一个像人类司机一样工作的司机大模型。"5月7日晚,理想汽车CEO李想在AI Talk中说道。 这是智能驾驶行业继"端到端"之后,出现的最新技术方向。 VLA(Vision-Language-Action,视觉语言动作)模型,最早由谷歌AI公司Deepmind推出,主要用于机 器人领域,随后逐渐成为具身智能领域的主流技术范式与框架,Open AI、字节跳动等公司都在践行这 个路线。 与ChatGPT、Sora等注重文本、图像与视频的视觉语言模型(VLM)不同,VLA在前者的基础上,新增 了与物理世界交互的"动作"能力。 换句话说,VLA不仅理解周围环境,还能直接输出控制指令,如机器人动作或车辆驾驶决策等。智能 驾驶、具身智能两大热门赛道也因此有了更深刻的交汇。 VLA、强化学习等新技术落地,正在带来新的思路。 例如,VLA(视觉语言动作)模型中的VLM(视觉语言模型),本身就具备了认识世界的能力。"VLM 的性能决定VLA超过一半的性能,VLA大部分工作其实就是在VLM上做增强。"刘方表示。 除了具备看图说话、能感知距离之外,VLA更关键的一步,是最后的动作环节。"好比买家具回来组 装,首先读一下说明 ...