世界模型和VLA融合
搜索文档
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-10-31 08:06
技术发展趋势 - 视觉语言模型和世界模型正逐渐走向融合统一,VLA+WM结合是通往更强通用具身智能的答案[3][4] - 学术界对VLA和WM融合已进行多项探索,典型工作包括VLA-RFT、WorldVLA、Unified Vision-Language-Action Model和DriveVLA-W0[4] - 未来L4训练链路需要视觉语言模型、强化学习和世界模型三者结合,缺一不可[5] 行业技术路线 - 业内关于视觉语言模型和世界模型的争论更多是宣传口径不同,大的技术路线上多有参考[7] - 特斯拉在ICCV上的分享对国内行业具有参考意义,未来VLA+WA结合形式尚未定论,值得持续探索[7] - 行业技术发展呈现多元化趋势,涵盖端到端自动驾驶、多模态大模型、世界模型等多个前沿方向[12] 自动驾驶技术社区 - 自动驾驶之心知识星球已发展成为超过4000人的综合类自驾社区,集视频、图文、学习路线、问答、求职交流为一体[10] - 社区联合学术界和工业界大佬共同打造,目标未来2年内做到近万人规模[10] - 社区成员来自国内外知名高校和头部公司,包括上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等企业[23] 技术资源覆盖 - 社区梳理近40+技术路线,涵盖感知、规划控制、仿真、端到端等多个方向[12][24] - 资源包括近40+开源项目、近60+自动驾驶数据集及行业主流仿真平台[24] - 技术内容覆盖BEV感知、3D目标检测、多传感器融合、Occupancy网络等核心领域[24][58][59][61][65] 行业交流平台 - 社区不定期邀请一线学术界和工业界大佬畅聊技术趋势,已举办超过100场专业技术直播[95] - 建立与多家自动驾驶公司的内推机制,提供岗位内推服务[19] - 平台提供学术界和工业界研究热点梳理,包括端到端自动驾驶、3DGS与NeRF、世界模型等前沿领域[44][46][49]