Workflow
VLA模型
icon
搜索文档
VLA模型崛起 汽车行业迎智驾与智造双破局
中国证券报· 2025-08-02 05:02
智能辅助驾驶技术演进 - 人工智能技术从卷积神经网络(CNN)发展到视觉语言动作模型(VLA),显著提升感知性能 [1] - 特斯拉FSD BetaV12转向端到端架构颠覆传统模块化体系,VLA模型进一步推动变革 [2] - VLA模型融合视觉、语言理解与行动决策,具备更强场景推理与泛化能力,被视为端到端2.0版本 [2][3] VLA技术应用与市场影响 - VLA模型最初应用于机器人行业,2023年7月谷歌DeepMind推出首个控制机器人的VLA模型 [2] - 高盛预测到2030年VLA方案将占据L4级市场60%份额,重构传统Tier1价值链地位 [4] - 特斯拉FSD V12干预频次较V11下降76%,理想汽车宣布i8将成为首款搭载VLA模型的车型 [4] 车企与供应商布局 - 华为智驾3.0融合GOD网络与VLA实现无图厘米级定位,百度Apollo VLA交通场景理解准确率达98.7% [5] - 博世与微软合作开发车用Copilot系统,大陆集团斥资4亿欧元收购Recogni强化边缘计算能力 [5] - 行业采取"双轨战略"应对技术过渡期,既维护现有市场又布局新技术 [5] 行业格局与标准演变 - VLA技术可能催生分层市场,Robotaxi领域混合运营架构或长期共存 [6] - 量产车市场VLA模型有望成为高阶智驾新标配,推动行业认知范式迁移 [6] - 软件定义汽车进入2.0时代,技术竞赛将重塑产业格局 [6] AI在汽车制造的应用 - 传统流水线模式面临换产耗时长、质量波动大等问题,难以适应定制化需求 [6][7] - "AI for Process"和"Twin-Drive双驱动模型"帮助车企实现流程优化与智能制造 [7] - 大型主机厂采用自顶向下方法确保AI场景全覆盖,IPD流程解码助力智能体协同工作 [7][8]
李想对Thor-U芯片500 TOPS算力的回应
理想TOP2· 2025-07-27 23:27
芯片算力与精度关系 - 芯片算力与推理模型精度直接相关,精度越高TOPS越低,精度越低TOPS越高 [2] - 低精度推理模型可提升模型吞吐率,降低推理延迟,使反应速度更快 [2] - 理想汽车VLA模型采用INT8与FP8混合精度推理,Thor-U芯片在此格式下提供700 TOPS算力 [2][3] - 特斯拉FSD同样采用INT8格式 [5] 英伟达Thor芯片算力表现 - 英伟达Thor-U芯片在FP8精度下算力为700 TOPS,Thor-X为1000 TOPS [3][5] - 在FP16精度下,Thor-U算力降至350 TOPS,Thor-X降至500 TOPS [5] - 在FP4精度下,Thor-U算力可达1400 TOPS,Thor-X可达2000 TOPS [4][5] 理想汽车技术优化方向 - 理想汽车计划将VLA模型精度逐步优化至FP4,以释放Thor-U芯片1400 TOPS的潜在算力 [2][5] - 低精度推理模型对工程能力要求极高,并非所有企业均可实现 [2] - 公司当前通过混合精度(INT8/FP8)平衡算力与推理效率 [2][3] 行业技术对比 - 英伟达Thor芯片实际交付算力与宣传存在差异,例如Thor量产版本实际可释放算力约为500 TOPS(FP16精度) [1][5] - 不同厂商对芯片算力的应用策略不同,理想选择混合精度优化,特斯拉则采用单一INT8格式 [2][5]
长城汽车计划再投资元戎启行 金额8亿—10亿元
经济观察报· 2025-07-23 21:50
长城汽车投资元戎启行 - 长城汽车相关主体公司计划向元戎启行投资8亿—10亿元人民币,相当大一笔资金将用于购买算力卡 [1] - 元戎启行成立于2019年2月,专注于高阶智能驾驶技术研发与商业化应用,其智驾方案量产上车已超2万台 [1] - 2024年11月元戎启行获得由长城汽车独家领投的C1轮1亿美元融资 [1] - 元戎启行第六大股东保定讯奇科技的上一层控制主体间接持股长城汽车22.11%的股份 [1] 元戎启行VLA模型技术进展 - 元戎启行VLA模型将在2025年三季度量产,支持激光雷达与纯视觉方案,具备"思维链"推理能力 [2] - 长城魏牌将在三季度推出一款对标理想L9的旗舰SUV,搭载元戎启行VLA模型,基于英伟达Thor-U芯片开发 [2] - VLA模型核心优势在于可解释性,能向用户展现系统推理过程 [2] - 理想汽车和小鹏汽车已分别推出或计划推送VLA相关技术 [2] 英伟达Thor芯片的影响 - 元戎启行VLA模型基于英伟达Thor芯片,算力达2000 TFLOPS(Orin的8倍),但量产多次延迟可能影响上车时间 [3] - 行业人士预测Thor芯片SOP时间可能延迟至2026年 [3] 长城汽车智能驾驶战略调整 - 长城汽车因毫末智行发展遇困(城市NOA多次跳票、核心团队离职)更重视与元戎启行合作 [3] - 长城汽车通过资本纽带将元戎启行深度纳入智能驾驶技术体系,实现技术自主可控 [3] - 2024年初元戎启行推出国内首个不依赖高精地图的"端到端"智驾方案DeepRoute IO [4] - 魏牌蓝山、高山车型的智驾版本采用元戎启行算法,蓝山车型热销带动元戎启行热度 [4] - 长城汽车同时引入卓驭科技(原大疆车载)为平价车型开发智驾方案,应用于哈弗、欧拉等车型 [4]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
关于Thor/VLA 一些信息线索
理想TOP2· 2025-07-22 21:22
理想汽车芯片供应问题 - 理想汽车原定2025年3月推出的增程L系列改款车型因英伟达Thor芯片交付延期推迟至5月[1] - 英伟达Thor芯片最初承诺2024年底量产但多次延期交付且存在工程和设计问题[1] - Thor芯片实际算力从宣传的700TOPS缩水至不足500TOPS导致理想汽车部署30亿参数VLA模型难度增加[1] - 早期Thor芯片未通过车规认证且存在大量Bug导致模型运行效率低下[2][3] 车企与英伟达合作矛盾 - 英伟达拒绝理想汽车提出的驻场支持和问题解决排期要求且关键时期对接负责人缺席[2][3] - 英伟达要求理想汽车公开模型数据被行业人士称为"霸王条款"[3] - 合约缺乏延期惩罚和Deadline条款被车企工程师评价为"流氓协议"[3] 车企自研芯片进展 - 理想汽车加快自研芯片上车进度计划提前至2026年一季度交付[2] - 蔚小理首颗自研芯片研发成本在3-4亿美元之间且持续追加投入[2] - 理想汽车已启动第二颗芯片研发以应对AI技术快速迭代需求[2] - 自研芯片可更快解决NPU带宽不足和算法时延等部署问题[2] 技术部署现状 - 理想汽车在Thor芯片上行业首发了"满血版"智驾全功能[3] - 30亿参数VLA模型部署仍在推进且早期测试已展开[3] - AI技术在汽车应用速度超预期但芯片设计存在适配滞后问题[2]
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 13:18
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化架构但存在黑箱问题和泛化能力限制,如NVIDIA DAVE-2和Wayve的模仿学习方案 [2] - VLA范式通过语言桥梁结合视觉与行为,提升可解释性并注入LLM的世界知识,解决长尾场景处理难题 [2][3] VLA模型核心优势 - 实现自然语言决策解释(如减速原因分析),增强系统透明度 [2] - 利用LLM预训练的常识理解复杂场景(如施工区域需慢行) [3] - 支持自然语言交互(如"找充电站"指令),推动人性化驾驶体验 [3] 科研辅导课程设计 - 12周在线科研+2周论文指导+10周维护期,覆盖经典与前沿论文分析及代码实践 [6] - 提供baseline代码(如DiffusionDrive、OpenDriveVLA等)和公开数据集(nuScenes、Waymo) [15][17] - 采用"2+1"多师制团队,主导师为名校教授,副导师为博士/硕士,配备督学班主任 [14] 学员能力培养目标 - 掌握VLA算法理论与创新思路,完成论文初稿 [12] - 获得选题方法、实验设计及投稿建议,强化PyTorch和Python实战能力 [7][13] - 基础要求包括深度学习基础、自动驾驶算法了解及8张4090显卡硬件配置 [13] 关键学术资源 - 必读论文包括Senna、OpenDriveVLA等5篇顶会论文,聚焦VLA与自动驾驶结合 [18] - 课程产出含结业证书、推荐信及论文初稿,助力留学申请与职业发展 [14]
论具身智能的持久战
具身智能之心· 2025-07-17 22:22
行业变革趋势 - 汽车行业技术变革分为三场:电动化接近尾声、智能化进行中、工厂无人化处于早期概念探索阶段[1] - 某头部车企成立无人工厂战略委员会,由CEO亲自领导,探索具身智能在工厂无人化中的应用[1] - 工厂无人化是大型工业企业的终极目标,可大幅降低人力成本和管理复杂度[1] 技术发展阶段 - 具身智能目前处于"不堪用"阶段,连可演示的demo都难以实现[2] - 技术成熟度划分为堪用、可用、好用三阶段,当前尚未达到最低标准[2] - 头部公司虽获融资但保持审慎,未大规模扩张团队[4][12] 硬件挑战 - 灵巧手存在成本与寿命矛盾:15自由度以上产品价格超万元但寿命仅数周[6] - 电机控制精度随使用时间下降,导致动作偏差[6] - 机器人本体存在散热问题,长时间任务可能导致失控或宕机[7] - 边缘算力不足,难以支持大参数模型部署[8] 软件与算法瓶颈 - 训练数据采集难度大、成本高,难以形成有效迭代闭环[9] - VLA模型在特定任务表现优异但缺乏跨场景泛化能力[10] - 算法在不同硬件平台间迁移困难,数据无法共享[11] 行业竞争格局 - 融资能力被视为核心竞争要素,算法壁垒易被突破[16][21] - 自动驾驶经验显示算法优势仅能维持6-12个月,通过人才流动快速扩散[17][18] - 头部公司通过资金储备实现永续经营,部分企业理财收入可覆盖运营成本[15] 发展策略 - 行业需采取持久战策略,避免重蹈自动驾驶领域盲目烧钱的覆辙[13][22] - 技术突破拐点尚未显现,探索周期充满不确定性[12] - 资本寒冬风险已被部分头部公司通过审慎财务管控规避[15]
某新势力世界模型负责人休假。。。
自动驾驶之心· 2025-07-04 18:27
自动驾驶行业人才流动现象 - 某新势力智驾核心团队不稳定,端到端负责人已离职,世界模型负责人带病休假,仅量产部门负责人仍在岗 [5] - 智驾一号位对新模型量产持乐观态度,认为将取得断代式领先,但端到端和世界模型技术核心人物动荡可能影响研发 [5] - 行业普遍存在人才高频流动现象,阶段性表现突出的公司往往面临更严重的人才流失 [6] 新势力技术路线与人才策略 - 公司倾向于根据技术迭代更换团队,例如从无图城区转向端到端时更换一批人员,再转向VLA时又更换一批 [9] - 人才被视作短期资源,项目完成后价值周期缩短,导致员工缺乏安全感并加速跳槽 [10] - 部分技术大牛选择离职创业,因资本追捧且希望掌握自身发展主导权 [10] 行业案例与影响 - 另一家新势力曾聚集大量顶尖人才,但近年核心人员持续流失,包括智驾一号位,现有领导者多依赖资历晋升,技术表现下滑 [7] - 公司管理层未积极解决人才动荡问题,可能认为技术路线变更需匹配人员调整 [8] 自动驾驶技术社区与资源 - 存在近4000人规模的行业交流社区,覆盖300+企业与科研机构,提供30+技术栈学习路线 [14] - 社区内容涵盖感知、定位、规划控制等领域技术方案,并整合行业动态与招聘信息 [14] - 提供端到端自动驾驶、大模型、VLA等专业课程,涉及多个前沿技术方向 [15]
清华&小米团队发布VLA模型综述
理想TOP2· 2025-07-04 10:54
自动驾驶技术范式演进 - 自动驾驶技术正从感知-控制向认知智能演进,最新模型分为端到端自动驾驶、用于自动驾驶的视觉语言模型(VLMs for AD)和视觉-语言-行动模型(VLA for AD)三大范式[1][3] - 端到端自动驾驶将传感器输入直接映射到驾驶动作,高效但缺乏可解释性[3] - 视觉语言模型引入视觉语言模型理解复杂交通场景,提升可解释性但存在"行动鸿沟"[3] - 视觉-语言-行动模型整合视觉感知、语言理解和动作执行,实现感知、推理和行动闭环[3] VLA自动驾驶模型核心架构 - VLA模型由输入、处理、输出三部分构成,整合环境感知、指令理解与车辆控制[4] - 多模态输入包括视觉与传感器数据(多摄像头环视系统、激光雷达、雷达、IMU、GPS)和语言指令(直接指令、环境查询、任务级指令、对话式推理)[5][6][7][9][10] - 核心处理模块包括视觉编码器(使用DINOv2或CLIP等模型)、语言处理器(使用LLaMA2或GPT系列)和动作解码器(自回归令牌化、扩散模型、分层控制器)[11][12][13][14] - 驾驶输出包括低阶动作(方向盘转角、油门刹车)和轨迹规划(未来路径点)[15] VLA自动驾驶模型发展阶段 - 第一阶段:语言作为解释器,生成自然语言描述但不直接参与控制,存在"语义鸿沟"[19] - 第二阶段:模块化VLA,语言成为主动规划组件但存在多阶段处理延迟和级联错误风险[20][21] - 第三阶段:统一端到端VLA,传感器输入直接映射到驾驶动作但长时程规划和解释能力有限[22] - 第四阶段:推理增强VLA,LLM成为控制环路核心,具备长时程推理、记忆和交互能力[23] 数据集与基准 - 当前数据集生态系统覆盖大规模真实世界数据(nuScenes, BDD-X)、关键场景与安全测试(Impromptu VLA, Bench2Drive)和细粒度推理数据(Reason2Drive, DriveLM)[25] 挑战与未来展望 - 核心挑战包括鲁棒性与可靠性、实时性能、数据瓶颈、多模态对齐、多智能体社会复杂性和泛化与评估[27][28][29][30][31][32] - 未来方向包括基础驾驶大模型、神经-符号安全内核、车队级持续学习、标准化交通语言和跨模态社交智能[33][34][35][36][37]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 20:17
WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离(FVD)降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型(MLLM)但缺乏对动作的深度集成分析,世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token(3位置+3角度+1抓取状态),文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化,混合动作模型数据(交叉熵损失)和世界模型数据(α=0.04平衡损失)进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像,输出K个动作;世界模型输入当前帧和动作,输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作,避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率WorldVLA平均抓取成功率81.8%,优于OpenVLA(76.5%)等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%,长序列任务提升显著(52.4% vs 23%) [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30,LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架,实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性,为机器人连续操作提供新方案 [7][31] - 高分辨率输入(512×512)显著提升性能,验证视觉细节对机器人操作精度的关键影响 [26][27]