VLA(视觉语言行动模型)
搜索文档
中国智能驾驶产业的算力巨变
36氪· 2025-12-30 18:36
行业核心观点 - 2025年中国智能驾驶行业迎来前所未有的算力变局,算力成为行业发展的核心要素,无论是在车端还是云端,对算力的需求都越来越高[1][2] - 行业在软件算法路线上出现纷争,以理想、小鹏、元戎启行为代表的玩家选择VLA方案,而华为、蔚来等则更加强调世界模型,但尚无一家在用户体验层面形成碾压性优势[1][7] - 高阶智能驾驶的商业落地呈现K字型分化,导致车端算力落地走向碎片化,同时有玩家正从L2向L4体系的Robotaxi布局,云端算力的作用日益凸显[2] - 自动驾驶技术正处在从量变到质变的前夜,向L4迈进需要车端和云端算力的持续大幅加码,云端算力的角色可能更加重要[26] 技术范式演变与算力需求 - 特斯拉在2023年通过FSD Beta V12直播展示了其端到端自动驾驶系统,并在此框架下持续推进软件更新,如FSD V12.5参数数量是V12.4的五倍,V14参数量更是高达10倍[3][4][5][6] - 中国智能驾驶玩家在2024年集体迈出拥抱端到端的步伐,但进入2025年后,在意识到端到端方案的局限后,开始探索VLA、世界模型等新的算法演进路径[7] - 智能驾驶的技术演进,尤其是在进入端到端体系后,对数据处理和模型训练提出更高要求,在云端掀起了一场算力军备竞赛[20] - 自动驾驶的终极形态被设想为将规则输入大型多模态模型并实时处理传感器数据,这依赖于AI技术的持续发展和算力的双重加持[28] 车端算力格局与流派分化 - 2025年,高阶智能驾驶的车端算力选择主要分为三大流派:车企自研、英伟达系、华为系及其他[12] - **车企自研派**:以蔚来、小鹏、理想为代表。蔚来自研的神玑NX9031芯片,一颗算力水平相当于四颗Orin-X[13]。小鹏自研的图灵AI芯片算力为750 TOPS,并以三颗组合或单颗形式上车[13]。理想已宣布自研M100芯片,预计明年上车,其宣称在运行大模型和视觉模型时性能分别为市场最强芯片的2倍和3倍[13] - **英伟达系**:英伟达最新一代Thor芯片提供数倍于Orin-X的算力,是市场热门选择。2025年在理想、领克900、小米YU7、极氪、智己等多款车型上落地,极氪9X车型还提供双Thor芯片方案[13][14]。英伟达Orin-X平台仍在部分车型上使用,如蔚来乐道品牌车型[15] - **华为系及其他**:华为不倾向于公开其智驾平台算力,更注重软件算法迭代和云端训练,但部分车型如尊界S800采用了算力更高的MDC 810计算平台[15]。地平线在2025年推动其J6芯片系列通过HSD方案上车,已在奇瑞、长安部分车型落地[15] 云端算力的关键作用与竞争 - 云端算力是智能驾驶算法进化的关键基石,也是未来算法迭代的核心支撑,其重要性在行业向L4演进过程中愈发凸显[19][20] - 特斯拉在FSD演进中的优势,部分得益于其更充足的云端算力,为数据闭环、训练和仿真验证提供了巨大优势[20] - 行业在2023-2025年持续进行云端算力军备竞赛。即使在2024年财务状况不佳时,也有新势力车企老板拍板增加云端算力,并在2025年实现了算法的跨越式迭代[20] - 2025年,云端算力依旧不够用,且受限于公司每年的算力预算。解决长尾问题的数据训练、仿真模拟等只能在云端完成,行业共识认为首先要解决的算力瓶颈可能在云端[21][23] - 英伟达推出了开源的Cosmos世界基础模型、3DGRUT等工具来助力自动驾驶在云端的开发[23]
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
机器之心· 2025-10-31 12:11
AI范式转变与行业趋势 - AI发展进入下半场,从依赖人类生成数据转向体验式学习的范式转变[1] - 要实现超越人类智能,AI必须超越模仿人类,依赖可随智能体改进而扩展的新数据源[1] - 在自动驾驶领域,AI范式转变趋势已显现,理想汽车在ICCV 2025提出全球首个将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构[2][5] 理想汽车辅助驾驶技术演进 - 辅助驾驶技术从规则算法发展到以VLA为核心的可交互自动驾驶方案[7] - 去年率先提出双系统方案,使用E2E和VLM结合构建辅助驾驶系统,成为AI时代主流路线[7] - 端到端辅助驾驶上线后,MPI水平在近12个月内提升明显[9] - 当训练数据扩展到1000万Clips后,基本端到端方式面临边际效应,技术提升出现瓶颈[11] 世界模型与训练闭环架构 - 构建从数据闭环到训练闭环的系统化思路,核心在于训练目标的达成而非单纯收集数据[5][12] - 系统包含具备先验知识的VLA车端模型和云端世界模型训练环境,通过强化学习体系实现迭代训练[14] - 世界模型系统需要场景重建、多传感器渲染、多模态生成、交通智能体、3D资产库等关键技术支撑[15] - 理想探索重建+生成路线,新一代AI系统具备重建稳定性和生成泛化能力[15] 合成数据与仿真技术突破 - 可通过提示词直接生成全部视频和点云,应用于新法规准入条件和新地区环境等少见场景[22] - 合成数据能力使训练数据配比更合理,辅助驾驶系统在实际道路的稳定性和泛化能力大幅改善[24] - 提出层次结构统一高斯图元,增强模型容量,能够建模大规模场景并重建任意动态元素[17][21] - 开发可编辑视频模拟框架RoboPearls,能够从演示视频构建照片般逼真、视图一致的模拟[32] 研究成果与学术贡献 - 自2021年起,自动驾驶团队有32篇论文中稿学术会议,研究方向从感知BEV E2E扩展到VLM/VLA/世界模型等前沿领域[28] - ICCV 2025大会上有五篇论文入选,覆盖3D数据集、端到端自动驾驶框架、3D重建、视频模拟等方面[28] - 提出业界首个大规模3D真实汽车数据集3DRealCar,通过对2500辆汽车精细3D扫描获得高保真图像和点云[28] - 开发端到端自动驾驶框架World4Drive,利用视觉基础模型构建潜在世界模型生成和评估多模态规划轨迹[30] 技术挑战与未来方向 - 强化学习引擎是辅助驾驶领域最具挑战的应用场景,要求泛化性、时效性和大规模并发[35] - 强化学习引擎五大关键因素:世界模型、3D资产、仿真智能体、奖励模型和性能优化[35][38] - 交互式智能体是比单车L4更困难的挑战,可通过调整强化学习reward约束多智能体行为[38] - 理想正在开展的交互智能体工作MAD即将发表[39] 公司AI战略与行业影响 - 研发资金近一半投入人工智能领域,已建立四支AI团队分别负责辅助驾驶、理想同学、智能工业和智能商业[43] - 两大战略级AI产品辅助驾驶和理想同学自2024年以来快速迭代,取得重大技术突破[43] - 成为行业首个推送VLA司机大模型的汽车企业,基于MindGPT的理想同学已上线手机App[43] - 开源部分辅助驾驶代码和数据库,被超过3200名开发者收藏或调用,VLA范式逐渐成为行业共识[43]
理想汽车推送OTA 8.0版本,李想称公司辅助驾驶开始“全面领先”,VLA优于世界模型?
每日经济新闻· 2025-09-12 18:06
理想汽车OTA8.0系统升级 - 理想汽车推送OTA8.0版本车机系统 辅助驾驶、智能座舱和智能电动迎来升级 [1][3] - 自研VLA司机大模型向理想MEGA和理想L系列AD Max车型全量推送 [3] - VLA是第三代辅助驾驶技术 具备"看得懂道路状况 听得懂人类指挥 记得住车主习惯"特性 [3] VLA技术特性与功能 - VLA司机大模型具备环境理解和推理能力 在复杂路口选路更精准 [6] - 拥有车速记忆功能 可记住用户特定道路车速偏好并通过对话设定 [6] - VLA泊车实现自主寻路、漫游找车位、导航终点靠边停车等功能 [6] - 9月10日开始向AD Max车型推送 但初期为缺少某功能的"残血版" [4][6] VLA技术优势与行业地位 - VLA可被视为端到端的"智能增强版" 引入思维链实现可解释性决策 [7][8] - 解决传统模型长尾场景挑战 泛化能力更强 下限超过端到端上限 [7][8][11] - 多模态大模型驱动 语言模型作为"中台"转译感知内容为执行决策 [8] - 理想汽车、元戎启行、小鹏汽车等多家车企竞相布局VLA领域 [7] 行业技术路线对比 - 华为采用WA世界行为模型 直接通过Vision信息输入控车 [12] - 世界模型通过感知数据构建物理世界内部模拟 实现预测和推理 [12] - VLA与世界模型并不矛盾 VLA强化学习阶段需在世界模型闭环学习 [13] - 技术路线选择取决于企业目标 智驾行业预计2028年收敛至稳定状态 [13]