智驾圈都在等何小鹏

公司核心战略与领导层 - 公司董事长何小鹏在约两年前向刘先明提出核心战略问题，即如何在本代智驾技术上“远远甩开当前的对手”，这源于公司意识到其智驾技术已不再“高人一头” [1][7] - 公司智驾业务在8年间经历了三次负责人更替，这反映了公司认为真正的智驾竞争在于对抗组织惯性，而主导者需要随时代和技术架构变化而改变 [5] - 公司是少数敢于在智驾领域反复进行自我革命的车企，其核心在于具备推倒重来、拆掉过去自建“金字塔”的勇气，并认为完成历史使命的感觉是“自己干掉自己” [6] 智驾技术发展历程与竞争格局 - 公司的智驾发展史是中国新势力智驾突围的缩影，竞争围绕体系、量产、算法三种能力展开，但同时也具备其特殊性 [3] - 在吴新宙主导的“规则时代”，公司搭建了完整的感知、规控和地图团队，并通过智驾数据闭环开发模式成为引领者，其代表作Xpilot 3.0/3.5基于规则的多传感器融合架构，在当时提供了体验最好的高速NOA [9][10][11][13] - 行业在2024年底迈入“后端到端时代”，华为、理想等玩家迅速跟进，使得公司在开城之战中面临被围追堵截的局面，甚至陷入“吃老本”的质疑 [3][16] - 继任者李力耘主导了架构向XNGP+的全面转向，守住了量产，并完成了“前端到端时代”的两个阶段，其底层已是初步的端到端大模型 [14] - 吴新宙与李力耘分别完成了“建城”与“守城”，但围绕规则时代建立的组织惯性与技术金字塔在新时代成了负担 [16] 第二代VLA技术突破 - 刘先明给出的答案是“拆掉语言的VLA”，即对VLA（视觉-语言-动作）架构进行二次变革，其本质是拆掉“传感器信号翻译成语言token”的中间步骤，将推理任务从大语言模型变为一个多模态Transformer大模型 [1][17][18][19] - 具体技术路径上，VLA 1.0需要两次语言转译（视觉->语言->动作），而VLA 2.0拆掉了语言这堵墙，让视觉和语言信息输入后直接推理输出动作，实现“视觉+语言—动作” [20] - 变革的主要原因有二：一是解决传统VLA中两次语言转译带来的物理世界信息损耗；二是解决传统VLA因语言离散性导致输出受限的问题，从而提升模型效率和泛化能力，并能实现自监督训练 [22] - 公司的第二代VLA与特斯拉FSD V14在核心思路上有异曲同工之妙，两者都采用多模态模型，输入融合信息后经推理给出联合决策，并都具备“招手即停”的涌现能力 [22][28] - 公司计划于2025年3月率先向P7、G7、X9 Ultra车型推送第二代VLA，其他车型后续跟进 [50] 技术基础设施与研发体系 - 公司与特斯拉在云端都拥有“类世界模型”，公司称之为“世界模拟器”，其功能从智能生成环境场景，变为能想象和评估决策质量的预测系统，用于验证新模型和合成低频极端场景 [26][27] - 公司内部正在研发可用于训练不同架构的基础模型——“图灵模型”，作为其未来保持技术领先的武器 [52] - 刘先明团队的技术栈特点是“简洁”，强调模型是机器，数据是燃料，并致力于让数据在机器里高效流动，为此他拆除了所有规则，甚至包括车辆过ETC这类传统上规则更高效的场景 [46][48] 硅谷研发中心与人才战略 - 公司在美国硅谷保留的研发中心是其能持续进行技术革新的关键“火种”，而非简单的技术“水龙头”，该中心在技术竞争中起到了延续先进技术的作用 [30][34] - 在众多中国公司缩减或关闭湾区研发中心后，公司是少数仍在硅谷保留可观研发团队的车企，其在湾区的团队规模约为200人 [33][35] - 公司智驾业务连续四代负责人均来源于湾区，持续的人才供给是公司能在智驾竞争中多次翻身的关键因素 [38] 行业趋势与竞争本质 - 智驾行业正迈向L4级别，这需要端到端与大模型的双重发力，意味着企业需要在拆掉旧技术“空地”上“新建大楼” [59] - 能在智驾上取得成就的玩家，如特斯拉、公司等，共同特征是敢于“拆墙”，包括拆掉特定芯片、激光雷达、规则乃至语言模块 [56] - 行业的真理在于企业必须敢于自我革命才能迈过从规则到端到端的门槛，不善于跟随技术范式调整组织的玩家将在下一个范式中落后，而“吃老本”的玩家会被加速淘汰 [58][59]