Workflow
理想VLA
icon
搜索文档
关于理想VLA新的36个QA
理想TOP2· 2025-08-13 13:10
技术架构与研发方向 - 强化学习在VLA架构中起关键作用 公司已增加大量推理卡资源支持强化训练[1] - VLA采用串联设计整合视觉-语言-动作模块 相比并联的VLM架构具备自主思考能力[3] - Diffusion模型被应用于轨迹生成 借鉴机器人领域经验但非完全跟随特斯拉方案[4] - 3D空间理解+2D全局语义构成VLA感知核心 解决传统VLM缺乏空间感知的痛点[7][29] - 基座模型团队专门设计8×0.4 MoE架构 优化芯片部署效率[28] 产品功能与用户体验 - EID界面仿真视频级渲染需更高算力支持 当前受限于驾舱芯片性能[2] - 语音控车功能支持复杂连续指令 规则引擎方案难以实现组合任务[25][26] - 三点掉头功能需Diffusion模型支持多模态轨迹拟合 配合决策思考能力[6] - 高速场景研发重点在超视距问题 事故后果严重性高于城区场景[22][23] - 人机共驾通过语音交互实现底层能力 优于方向盘信号干预方案[36][37] 技术实现与工程挑战 - 单芯片部署通过int4量化压缩带宽 结合FP8计算精度优化[12][13] - 模型规模扩展遵循Scaling Law 7B参数可通过蒸馏和数据优化提升智力[9][10] - 3D数据标注需全部重刷 标注内容与端到端阶段存在本质差异[32] - 极端工况识别受限于摄像头分辨率 需视觉与激光雷达前融合提升置信度[33][34] - 仿真数据占比约10% 主要用于特殊场景补充而非过拟合测试[23] 行业对比与发展路径 - L2渐进式路线与Robotaxi直接L4方案差异显著 前者强调全场景覆盖能力[10][11] - 特斯拉FSD V13未采用Language模型 漫游能力依赖端到端而非寻路逻辑[26][27] - 大模型公司缺乏3D数据资产 业务需求决定三维场景理解能力发展[30][31] - 关键人物推动技术迭代 但行业大势依赖基础设施与工程师群体[38] 法规与商业化 - 拍照功能受法规限制暂未全量发布 需与监管部门协同推进[15] - 召唤功能面临严格法规约束 能力储备先于政策放开[16][17] - 商业化路径强调用户规模普及 高精地图方案难以满足百万级车辆需求[25]
25年8月8日理想VLA体验分享(包含体验过特斯拉北美FSD的群友)
理想TOP2· 2025-08-12 21:50
体验分三部分: 1.用MEGA在理想总部园区内主驾副驾无人,二三排对坐。 2.理想选好的路线,用i8在园区外公开道路体验1h。 3.自己随便选路线,用i8在园区外体验2h,开到机场与顺义周边的小村子。 今年6月体验过北美特斯拉FSD的群友评价(以下简称群友A):整体认为还是FSD更强一些,坐FSD与人聊天时几乎感觉不出是车在开,坐i8开VLA感 觉还是有几次是车在开。但不能完全排除是北美路况更好的原因。 在加州开FSD的感觉是无限接近自动驾驶,在顺义开VLA还达不到这个评价。 TOP2感受: 关于园区内主驾副驾无人的部分,单纯从体验而言,无疑是蛮OK的,不论是要求开快点开慢点,还是展现的特别强的可以基于语言找文字的能力。 但因为是理想自己园区,所以也无从感受泛化能力如何,只能有待全量推送后的体验。 局限于体验过的这个版本,在没有加塞型博弈场景+很少电动车混流的路况下,至少i8的 理想VLA在安心感/舒适度/效率上都较L系列 VLM有明显加 成。 在公开道路体验部分,理想倒也没有故意选容易的路,整体而言顺义周边非上下班的路况就是挺好的(群友A认为还是比加州路况更复杂),基本就不 涉及类似加塞型博弈场景。 TOP ...
理想VLA的实质 | 强化学习占主导的下一个action token预测
自动驾驶之心· 2025-08-12 07:33
以下文章来源于理想TOP2 ,作者理想TOP2 理想TOP2 . 找对社群,深度交流理想长期基本面 作者 | 理想TOP2 来源 | 理想TOP2 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 以下为正文: Ilya是前OpenAI首席科学家,目前在做超级对齐的工作(如果不认为超级对齐非常重要,本质是不信AGI。) 最近十余年AI界多项最重要的变化由其推动。包括但不限于2012年和Hinton/Alex >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文核心分享四条逻辑链: 本文只做学术分享,如有侵权,联系删文 1. 对predict the next token不同的理解本质是对LLM或AI的潜力与实质有不同的理解。 本文架构: 2. 越认为predict the next token不只是概率分布/统计学的人,越容易认可LLM潜力很大/AI潜力很大/推理过程就是意识雏形甚至就是意识/超级对齐非常重要。 3. 不同时真正的深入思考AI与理想,很容易对理想所做之事含金量低估。 4. 理想的VLA实质是在强化学习占主导的连续predict the n ...
理想VLA实质是强化学习占主导的持续预测下一个action token
理想TOP2· 2025-08-11 17:35
本文核心分享四条逻辑链: 2.越认为predict the next token不只是概率分布/统计学的人,越容易认可LLM潜力很大/AI潜力很大/ 推理过程就是意识雏形甚至就是意识/超级对齐非常重要。 1.对predict the next token不同的理解本质是对LLM或AI的潜力与实质有不同的理解。 3.不同时真正的深入思考AI与理想,很容易对理想所做之事含金量低估。 4.理想的VLA实质是在强化学习占主导的连续predict the next action token,类比OpenAI的O1O3。且 辅助驾驶比chatbot更适合用强化学习。 本文架构: 先介绍为什么Ilya的观点值得重点参考,再分享Ilya对predict the next token的英文原文与中文翻译。最 后类比一下与理想VLA的关联以及为何理想所做之事含金量被低估。 以下为正文: Ilya是前OpenAI首席科学家,目前在做超级对齐的工作(如果不认为超级对齐非常重要,本质是不信 AGI。) 最近十余年AI界多项最重要的变化由其推动。包括但不限于2012年和Hinton/Alex Krizhevsky 推出 AlexNet, ...
理想VLA含金量分析与关键迭代方向预测
理想TOP2· 2025-08-09 14:18
理想VLA的核心价值 - 理想VLA属于DeepSeek MoE级别的创新,虽非MLA级别的首创理念,但首次完整落地至汽车领域并取得显著成果,架构设计与执行高度原创 [2] - 公司在AI软件与硬件结合方面达到行业领先水平,克服了硬件迭代慢、AI软件与传统编程差异大的挑战 [3] - 创始人李想(44岁,高投票权)是VLA推进的核心灵魂人物,其资源调配、关键决策能力(如押注强化学习路线)对技术方向起决定性作用 [4][5] - 强化学习为核心的VLA架构长期将显著优于模仿学习主导的端到端路线,具备针对性解决bad case和持续迭代的优势 [6][9] 理想VLA的技术架构与迭代方向 - 技术内核为强化学习主导,通过仿真环境试错学习最优策略,区别于监督学习的标记数据依赖和端到端的单纯模仿 [9][10] - 当前车端部署4B参数模型(较小规模),未来需提升本地推理能力以支持更大参数量模型,同时确保时延达标 [12] - 关键迭代路径:1)优化仿真数据效率(低成本、高质量、快速生成);2)挖掘现有芯片算力潜力或升级硬件;3)强化学习驱动的能力跃升 [8][12] - 长期若未实现L4,可能转向在线学习等新架构,允许模型权重动态更新,但需解决超级对齐等安全问题 [13] 行业技术对比与创新点 - 端到端方案依赖模仿学习,拟人性提升但缺乏思考能力,bad case改进效率低(类似炼丹);理想VLA通过强化学习实现针对性优化 [9][10] - 仿真数据替代真实数据成为核心训练资源,解决强化学习对交互场景的高需求(如AlphaGo无人类棋谱训练案例) [10][11] - 公司展示的工程能力包括:仿真系统优化(如无保护左转的自我博弈训练)、芯片算力压榨、跨领域技术整合(如扩散模型生成轨迹) [12][2] 创始人角色与资源分配 - 李想直接参与AI学习与决策,确保资源高效投向VLA而非端到端,并推动双Orin平台兼容前沿模型(2022年车型支持2025年技术) [4] - 创始人深度介入避免团队陷入无效争论,保障技术路线执行力(对比技术灵魂人物离职导致资源中断的案例) [5][4]
理想辅助驾驶事故率比人驾安全6-7倍左右
理想TOP2· 2025-08-04 21:12
智能驾驶优化指标 - 公司当前优先优化安全性和舒适度,效率排在最后 [1][2] - 使用MPA(事故里程)衡量安全性,目前辅助驾驶下每350-400万公里发生一次事故,人驾为60万公里一次 [1] - 目标是将MPA提升至人驾的10倍(600万公里一次事故),需依赖VLA模型升级 [1] MPI与舒适度改进 - MPI指标包含安全风险和舒适度问题(如急刹导致的接管) [1] - 公司重点提升行车舒适度,理想i8辅助驾驶版本已显著改善体验 [2] - 效率优化需在安全舒适基础上实现,避免危险纠偏动作 [2] 数据对比与目标 - 辅助驾驶安全性当前为人驾的5-6.7倍(400万公里 vs 60万公里) [1] - 事故里程数据将持续迭代,短期目标为300万公里(MPA),长期目标600万公里 [1]
不用给理想入选ICCV高评价, 牛的是理想的工作, 不是ICCV
理想TOP2· 2025-06-29 23:06
AI学术圈特点 - AI学术圈会议比期刊重要 因AI发展速度过快 期刊审稿周期无法满足需求 [5] - 顶会论文页数限制严格 优秀AI论文通常仅几页 与其他学科差异显著 [5] - 主要顶会投稿/录用数量暴增 例如AAAI 2014-2023录用数从398增至1721 投稿数从1406增至8777 录用率从28.31%降至19.60% [5][7] 顶会论文含金量现状 - 审稿人数量跟不上投稿增量 审稿质量下降 录用论文含金量参差不齐成为行业共识 [8] - 顶会录用者职业竞争加剧 优质岗位供给速度落后于录用者增长 类比其他学科学历贬值趋势 [8] - 中国机构贡献占比达1/3至1/2 商业公司参与度显著高于其他学科 高校资源处于劣势 [8] 理想汽车学术成果分析 - 自动驾驶团队5篇论文入选ICCV 基座模型团队另有3篇录用 公司强调学术成果重要性 [2][3] - 学术宣传本质是面向用户的辅助驾驶技术营销策略之一 [9] - VLA技术原始创新达到DeepSeek MoE级别 突破尺度介于MLA与Transformer之间 [11] 理想技术路径演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 [12] - VLM系统采用快慢双系统架构 快系统借鉴特斯拉 慢系统为完全自主创新 [12] - 技术开发逻辑类比增程车设计理念 通过差异化方案弥补算力/数据资源劣势 [12][13] 行业创新格局 - 中国公司中具备MoE级别原始创新能力的厂商数量远少于能批量产出顶会论文的公司 [1][11] - 商业公司实现顶会多篇论文收录门槛已大幅降低 但核心价值仍取决于实际技术突破 [8][10] - 理想VLA到VLM的技术演进路径已脱离跟随模式 形成自主创新体系 [12][13]
汽车行业周报(20250616-20250622):6月下旬需求有望恢复,小米YU7月底发布-20250622
华创证券· 2025-06-22 16:34
报告行业投资评级 未提及 报告的核心观点 本周汽车板块微跌,投资情绪偏淡 6月下旬周度需求或回暖,行业将进入7 - 8月淡季,后续新品集中上市叠加年底旺销和补贴,销量展望乐观 市场关注明年以旧换新、新能源车购置税变化影响,建议选股淡化beta、强化alpha,选个股特征鲜明标的 [2] 各目录总结 数据跟踪 - 4月乘用车批发销量222万辆,同比+11%,环比-10%;出口43万辆,同比+0.4%,环比+5.0%;零售159万辆,同比+6.0%,环比-14%;库存增加19.7万辆,同比+1.9倍 [4] - 5月新势力车企交付量,比亚迪38万辆,同比+15%,环比+0.6%;零跑4.5万辆,同比+1.5倍,环比+9.8%;理想4.1万辆,同比+17%,环比+20%;小鹏3.4万辆,同比+2.3倍,环比-4.3% [4] - 6月上旬折扣环比上升,折扣率10.6%,较上期+0.4PP,较去年同期+2.9PP;折扣金额23810元,较上期+1104元,较去年同期+7477元 部分主流品牌折扣率变动大,一汽大众奥迪+2.4PP,领克+2.0PP等 [4] - 截至6月20日,碳酸锂2Q25均价6.58万元/吨,同比-38%、环比-13%;最新6.04万元/吨 其他原材料价格也有不同变化 [5] 行业要闻 国内新闻 - 6月16日,小米YU7月底发布,还有小米平板7S Pro等新品 德赛西威与奇瑞合作开发舱驾一体平台,与昊铂签战略合作协议 [25] - 6月17日,江汽与华为签署战略合作协议 美团CEO王兴减持573.7万股理想汽车,套现超6亿港元 [25] - 6月18日,福建印发氢能产业规划,目标2025 - 2030年建成多个项目,氢能产业总产值突破600亿元/年 6月1 - 15日全国乘用车零售70.6万辆,同比+20%,新能源零售40.2万辆,同比+38% 华为徐直军称2025年中国乘用车5G车联网占比30%,2026 - 2030年升至95% [25] - 6月19日,广西暂停2025年部分消费品以旧换新补贴活动 乘联分会崔东树称5月末乘用车库存345万辆,库存压力稍有增大 [25][26] - 6月20日,乘联分会称6月中旬车市折扣率约24.8%,本月狭义乘用车零售约200万辆,同比+13.4%,新能源零售预计110万辆,渗透率55%左右 [26] 海外新闻 - 6月16日,LG新能源与奇瑞签46系列大圆柱电池供货协议,订单8GWh [26] - 6月17日,Faraday Future多位高管签署股票购买计划 [26] - 6月18日,奥迪撤回2033年停售内燃机汽车计划,将牵头开发大众集团中大型车型平台架构与软件系统 [26] 市场表现 - 本周汽车板块涨幅-2.57%,板块排名23/29 上证综指-0.51%、沪深300 -0.45%、创业板指-1.66%、恒生指数-1.52% 汽车各细分板块均下跌,零部件-2.79%、乘用车-2.19%等 [7] - 上涨个股51只,下跌228只 上周涨幅TOP5为大为股份15.1%等,跌幅TOP5为金鹰股份-30.8%等 [28][31] 投资建议 - 整车:推荐理想汽车、江淮汽车,关注北汽蓝谷、上汽集团、小鹏汽车、小米集团 比亚迪、吉利2季度财务表现有望超预期 [5] - 零部件:机器人板块推荐拓普集团等,关注纽泰格 高阶智驾下沉放量推荐地平线机器人,关注比亚迪电子等 推荐星宇股份等,关注新泉股份 [5] - 重卡:看好25年国四以旧换新政策带来的行业景气,推荐潍柴H/A、重汽A,关注重汽H [5]
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 12:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 21:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]