李想: 过去的自动驾驶是看十万小时行车记录仪后直接上路

核心观点 - 公司认为自动驾驶发展缓慢的核心原因在于行业缺乏对三维物理世界的原生理解，并发布了基于原生3D视觉编码器（3D ViT）的下一代自动驾驶基座模型MindVLA-o1，旨在解决此根本问题 [1] - 该技术突破将自动驾驶视为物理AI的起点，其基座模型具备向通用物理世界智能体演化的潜力 [3][4] 技术架构与突破 - 核心问题诊断：行业过去投入数千亿，但进展缓慢，因为现有端到端系统本质是“看2D视频学开车”，如同看十万小时行车记录仪后直接上路，缺失人类在幼年阶段完成的“3D预训练”[1] - 过往技术局限：行业使用的BEV（鸟瞰图）将世界从俯视角拍扁，丢失了高度信息；OCC（占用网络）虽是3D但缺失语义信息 [1] - 核心解决方案：推出原生3D ViT（三维视觉变换器），让模型从编码阶段开始就直接工作在真实三维世界，统一理解空间几何结构和语义信息，而非从2D还原3D [1][2] - 感知能力提升：在统一建模下，3D ViT可以稳定感知并推理到500米以上的空间范围 [2] 系统集成与能力 - 传感器角色重塑：激光雷达不再是感知核心，转变为提供几何标定和近场空间约束的“高精度尺子”，感知上限由模型的表征能力决定，而非传感器物理线数 [2] - 算力支撑：自研的马赫芯片单颗有效算力是上一代的3倍，满足了3D ViT对车端推理的极高算力要求，使该架构得以在车端实现 [2] - 模型高级能力：MindVLA-o1将空间理解、思考推理和驾驶行为统一在一个模型内，具备在隐空间模拟未来几秒场景变化的“多模态思考”能力 [2] 应用前景与战略定位 - 验证与通用性：该基座模型已验证不仅适用于自动驾驶，同一套VLA（视觉语言动作）模型也能控制机器人，正逐渐演化为通用的物理世界智能体 [3] - 长期愿景：公司将自动驾驶定位为物理AI的起点，而非终点 [4]