WorldVLA - 财报，业绩电话会，研报，新闻

WorldVLA

搜索文档

自动驾驶之心· 2025-12-23 17:29

文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势，其终极目标一致，旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立，而是高度互补，未来将通过深度融合塑造“既会思考，又会沟通”的终极驾驶大脑，形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型，其输入为摄像头画面和人类语言指令，输出为直接的驾驶动作或轨迹，实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层：输入端融合多模态感知信息；中间层由视觉编码器、语言处理器与动作解码器构成，进行统一推理与决策生成；输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统，旨在让自动驾驶车辆具备“在脑海中预演未来”的能力，通过内部仿真评估不同决策后果，从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层：输入端为时序多模态传感器数据；核心层负责状态编码、记忆与生成式推演；输出端提供未来场景表征，为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**：目标上，VLA侧重人车交互与可解释的端到端驾驶，世界模型侧重构建预测与仿真系统；输入上，VLA包含显式语言指令，世界模型侧重时序观测；输出上，VLA输出直接动作或轨迹，世界模型输出未来场景状态；技术上，VLA利用大模型推理能力，世界模型依赖状态编码与生成式预测 [15] - **核心联系**：技术起源背景一致，均源于对传统模块化pipeline的反思；终极目标一致，均旨在赋予机器类人的认知与决策能力；都面临解决长尾场景的挑战；技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**：以世界模型作为核心的“预测与仿真”引擎，以VLA作为“交互与决策解释”层，二者协同工作 [22] - **训练数据互补**：利用世界模型生成大量逼真场景数据训练VLA，同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**：VLA做出初步决策，世界模型进行快速“脑内推演”并评估风险，再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**：由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出，是一个能打通3D感知、推理和动作生成的世界模型，其关键创新在于训练扩散模型来生成执行指令后的目标状态，让模型学会“想象未来” [24][25] - **WorldVLA**：由阿里巴巴达摩院、浙江大学等机构于2025年6月提出，是一个将VLA与世界模型统一于单一框架的自回归动作世界模型，实现了动作与图像的联合理解与生成，在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**：由清华大学AIR研究院、上海交通大学等机构于2025年8月提出，是一种基于逆强化学习奖励世界模型的闭环强化学习框架，用于训练端到端自动驾驶VLA策略，在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**：由中国科学院自动化研究所等机构于2025年10月提出，通过引入未来图像预测作为密集自监督任务，解决VLA模型“监督不足”的问题，在NAVSIM基准测试中超越多传感器基线模型，并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**：由麻省理工、夏威夷大学等机构于2025年10月提出，是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架，旨在系统性解决自动驾驶中的极端案例难题，在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**：由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出，其核心创新是引入视觉时空链式思考作为中间推理步骤，让VLA模型能够进行“视觉思考”，有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术，例如华为强调其世界模型能力，小鹏汽车正在开发VLA 2.0，而理想汽车在发布会上也展示了相关理解，预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]

Autonomous Driving

Vision-Language-Action

World Model

Model Fusion

Autonomous Driving

VLA (Vision-Language-Action)

Autonomous Driving

Vision-Language-Action

World Model

Model Fusion

Autonomous Driving

VLA (Vision-Language-Action)

世界模型和VLA正在逐渐走向融合统一

自动驾驶之心· 2025-11-10 11:36

技术趋势：VLA与WM的融合 - 视觉语言模型VLA和世界模型WM正逐渐走向融合统一，而非互相排斥的技术路线[2] - 中科院与引望团队在10月份推出的DriveVLA-W0工作证明VLA与WM结合可行[2] - 小米陈龙老师公开讨论VLA+WM融合，认为语言预测和未来预测是具身智能都需要的能力[3] - 语言模型负责抽象推理，引入互联网海量知识，处理高级逻辑和常识推理[3] - 世界模型负责物理和运动规律，通过预测未来像素或状态，涌现语义理解、深度感知等低级能力[3] - 学术界已探索多种融合方案：VLA-RFT在WM中强化学习微调VLA、WorldVLA三模态统一模型、Unified Vision-Language-Action Model离散化三模态[3] - 未来L4级自动驾驶训练链路将是VLA、强化学习RL和WM三者结合，缺一不可[4] - Tesla在ICCV的分享预示国内厂商将陆续跟进VLA+WA结合的技术路线[6] 自动驾驶之心知识星球资源 - 社区已运营三年，集视频、图文、学习路线、问答、求职交流为一体，目前成员超过4000人[9] - 目标在未来2年内达到近万人规模，打造交流与技术分享的聚集地[9] - 社区汇总近40个技术方向学习路线，包括VLA、端到端自动驾驶、世界模型、BEV感知等[11][14][23] - 提供近60个自动驾驶数据集资源，涵盖多模态大模型预训练、VLA微调、强化学习等专用数据集[11][41] - 社区成员来自上海交大、北京大学、CMU、清华大学等高校，以及蔚小理、华为、大疆、百度等近300家机构与企业[22] - 社区内部梳理了自动驾驶领域国内外知名高校实验室和公司资源，供学术深造和职业发展参考[33][35] - 提供与多家自动驾驶公司建立的岗位内推机制，帮助成员简历直达心仪企业[17] 技术学习体系与课程 - 社区原创直播课程覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划等核心模块[17] - 具体课程包括：自动驾驶数据工程系列涉及自动标注与4D标注、2D/3D目标跟踪系列、自动驾驶仿真系列、端到端及大模型技术专题等[17] - 针对小白用户提供全栈方向学习课程，涵盖数学基础、计算机视觉、深度学习、编程等入门资料[16] - 技术专题深度覆盖：3D目标检测环视与多模态方法、BEV感知量产方案、Occupancy网络、扩散模型与自动驾驶结合等[23][57][55][47] - 实战内容重点包括：模型压缩与部署优化、CUDA加速、TensorRT及毫米波雷达融合等工程化主题[16][74][76] - 定期举办行业大佬直播分享，目前已累计超过一百场专业技术直播，内容可回看[94]

通用具身智能 (AGI)