Vision-Language-Action（VLA） - 财报，业绩电话会，研报，新闻

Vision-Language-Action（VLA）

搜索文档

36氪· 2026-07-29 16:42

文章核心观点 - 比亚迪发布了一篇名为HyWorldVLA的自动驾驶AI论文，标志着公司在AI基础模型研究领域取得了实质性进展，展示了与以往不同的技术自研能力 [1][2] - 该论文在自动驾驶公开基准NAVSIM v1上取得了PDMS 90.59的领先成绩，证明了其研究的前沿性 [2][6] - 论文背后反映比亚迪正在构建一个具有“机器人AI派”基因的、专注于物理AI基础模型研究的团队，其技术路线和组织逻辑与特斯拉等领先者相似 [14][19][20] 比亚迪AI技术突破：HyWorldVLA模型 - **研究方向**：瞄准自动驾驶前沿的Vision-Language-Action（VLA）与World Model（世界模型）结合路线，旨在让AI从“识别道路”走向“理解世界” [1][3] - **核心创新**：提出一种混合世界模型，结合了Pixel-level World Model对细节的理解能力和Latent World Model的高效推理优势，以解决真实细节与高效推理的矛盾 [3][4] - **技术实现**：通过三步流程实现——训练带文本语义指引的视频压缩器、在统一离散token序列上进行自回归预训练、联合微调动作生成模块 [8][9][10][11] - **性能表现**：在NAVSIM v1基准测试中取得PDMS 90.59的SOTA成绩，该指标综合评估安全、效率、舒适性 [2][6] - **优势验证**：消融实验表明，混合模型是关键，去掉像素级监督或隐空间模型都会导致性能下降（PDMS分别降至87.50和89.91）[11] - **鲁棒性提升**：在655个雨雾场景测试中，HyWorldVLA的PDMS达到86.87，显著优于纯像素方法（约60.65），证明了隐空间推理在恶劣天气下的优势 [12] 比亚迪AI研究团队与能力建设 - **团队构成**：论文由比亚迪汽车新技术研究院独立完成，团队核心成员具有哈工大（特别是机器人技术与系统国家重点实验室）和卡内基梅隆大学的背景，形成“机器人AI派”团队 [14][17][18][19] - **研究历史**：HyWorldVLA是比亚迪第一篇多模态基础模型论文，但并非首篇AI论文，2025年已发表EMoE-Planner等论文，表明公司从2024年或更早启动了真正的自研 [15][16][19] - **组织逻辑**：团队建设并非从传统汽车电子延伸，而是按照AI系统能力建设，接近特斯拉“机器人+自动驾驶”一体化的组织逻辑，与公司自研机器人项目形成技术呼应 [19][20] 行业技术趋势与比亚迪定位 - **技术趋势**：行业正探索端到端自动驾驶模型，并加入世界模型，让AI拥有预测未来的“内部模拟器”，特斯拉FSD、Waymo、英伟达等均在此方向探索 [3][13] - **比亚迪的定位**：HyWorldVLA代表比亚迪进入了自动驾驶基础模型的探索方向，与行业领先者处于同一技术趋势，但选择了VLA与混合世界模型结合的差异化路径 [13] - **竞争阶段**：自动驾驶竞争正从“功能堆叠”进入“物理AI能力竞争”阶段，比亚迪已认识到这一点并展示相关研发能力 [20] - **现实意义**：基准测试领先不等于已完成量产，但证明了公司具备多模态、物理AI基础模型的研究能力，是所有老牌车企中率先按AI系统能力建设团队、并向基础大模型推进的玩家 [7][20][21]

Artificial Intelligence

Vision-Language-Action（VLA）

Artificial Intelligence

Vision-Language-Action（VLA）