MindVLA
搜索文档
L3自动驾驶量产元年,离L4的梦想又近了一步?
新浪财经· 2025-12-17 14:30
文|极智GeeTech 近日,工信部首次批准L3级自动驾驶商业化运营,通过L3级自动驾驶准入申请的两款车型为长安深蓝SL03与极狐阿尔法S6,标志着我国首次允许车辆在特 定条件下由系统承担驾驶任务。可以预见的是,2026年将真正成为L3级自动驾驶的"量产元年"。 值得注意的是,此次明确了L3级自动驾驶的权责划分:当车辆在限定路段以不超过80公里时速自主行驶时,一旦发生事故,若系统处于激活状态,车企或 将承担主要责任。同时,准入要求L3级自动驾驶车辆的传感设备必须为"前装量产",后改装车辆无法获得试点资格,从源头保障技术稳定性。 行业普遍认为,L3级是从"辅助驾驶"到"完全自动驾驶"的重要过渡,后续的L4级自动驾驶将实现更大突破——在固定区域内,车辆可完全脱离人类干预,真 正实现无人驾驶。 这一小步,背后是全球十年的技术博弈。德国早在2021年就通过《自动驾驶法》,明确L3系统激活期间事故责任由车企承担,并要求车辆配备"黑匣子"记录 运行数据。奔驰Drive Pilot系统随后在德国高速公路上线,成为全球首个商业化的L3产品。相比之下,中国此次准入虽起步稍晚,却一步切入责任核心,未 走"测试"老路,而是直接启动 ...
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 10:05
作者 | 我要吃鸡腿 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1965839552158623077 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 在自动驾驶这个飞速迭代的领域,技术范式的更迭快得令人目不暇接。前年,行业言必称BEV(鸟瞰图视 角);去年,"端到端"(End-to-End)又成了新的技术高地。然而,每一种范式在解决旧问题的同时,似乎都 在催生新的挑战。 传统的"端到端"自动驾驶,即VA(Vision-Action,视觉-行动)模型,就暴露出一个深刻的矛盾:它就像一个 车技高超但沉默寡言的"老司机"。它能凭借海量数据训练出的"直觉",在复杂的路况中做出令人惊叹的丝滑操 作。但当您坐在副驾,心脏漏跳一拍后问它:"刚才为什么突然减速?"——它答不上来。 这就是"黑箱"问题:系统能"做对",但我们不知道它"为何做对"。这种无法解释、无法沟通的特性,带来了巨 大的信任危机。 自动驾驶的三大范式演进。(a) ...
李想:特斯拉V14也用了VLA相同的技术
自动驾驶之心· 2025-10-20 07:32
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的知识积累过程[19] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带徒弟的经验传授[20][21] - 智能体阶段AI开始实际工作,能使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准,类比人类胜任专业岗位[22][23] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手通过上万小时实战成为专家[25][26] - 组织者阶段负责管理大量智能体和创新,防止失控,类比企业管理者的角色[27] 算力需求与技术布局 - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍[29] - 不同阶段需要不同类型算力:智能体阶段主要需要推理算力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理[28][29] - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[31] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[33] 机器人发展路径与训练方法论 - 机器人发展有两条路径:将现有工具改造为机器人(如自动驾驶车辆),或开发人形机器人操作万物[34][35] - 训练的核心目标是提高成功率,参考人类"一万小时"专业训练理念[36][38] - 专业训练聚焦三大能力:信息处理能力(筛选有效信息)、出题解题能力(定义和解决问题)、资源分配能力(优化有限资源使用)[39][40][41] 行业技术观察与应用实践 - 特斯拉FSD V14证明其采用与VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[44] - 公司内部已实现全面AI化,特别是在VLA技术应用后[45] - 行业领先的AI工具应具备简洁干脆的对话风格,避免过多铺垫性内容[46] - AI资讯获取渠道包括关键账号订阅、B站UP主内容跟踪以及内部多领域研究团队每周同步会议[48]
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-19 00:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 17:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-27 07:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]
理想i8,撑得起李想的“纯电梦”吗?
新浪财经· 2025-08-02 09:34
理想i8产品发布 - 理想i8正式开售,共推出3款车型,售价32.18万元-36.98万元,比预售价低3万元左右 [1] - 车型定位家庭6座纯电中大型SUV,与理想L8价格持平,分为Pro/Max/Ultra三个版本 [7] - 车身尺寸长5085mm/宽1960mm/高1740mm,轴距3050mm,舱内有效长度超3.5米 [9] - 标配空悬,离地间隙156mm-176mm,风阻系数0.218Cd,显著低于普通SUV [11] - 搭载自研碳化硅驱动电机,综合功率400kW(544马力),零百加速4.5s [14] - 标配三元锂5C超充电池,Pro版续航670km,Max/Ultra版720km,支持10分钟补能500公里 [14] - 续航达成率92.8%,超过特斯拉Model Y(82.6%)和Model 3(73.4%) [15] 产品技术亮点 - 首次搭载自研自动驾驶架构MindVLA,整合空间/语言/行为智能于同一模型 [16][17] - MindVLA可实现实时驾驶决策优化,支持语音指令调节速度、记忆车主偏好等功能 [18] - 采用禾赛定制ATL激光雷达,体积减小60%,功耗降低55%,性能提升1倍 [25] - 电池包采用随形结构和倒置技术,提升空间利用率和安全防护系数 [27] 市场竞争环境 - 主要竞品包括特斯拉Model Y L、蔚来乐道L90(27.99万元起)、问界M8纯电版(37.8万元起) [29] - 30万元以上纯电市场1-4月销量不足8万辆,仅占新能源车市场10%份额 [29] - 理想i8未采取激进定价策略,主要依靠产品综合实力竞争 [4] 公司战略调整 - 组织架构调整:合并销售与服务群组,成立智能汽车群组 [3] - 产品线重组:按价格区间划分三条产品线,纯电SUV单独列为i系列 [23] - 营销策略转变:CEO增加公开曝光,举办公司史上最大规模发布会 [3][21] - 设计投入巨大:仅外观设计改动费用约20亿元 [25] 产品开发背景 - 吸取MEGA车型教训,重新聚焦用户价值和经营效率 [23] - 定位"能越野的小MEGA",避免重复MPV市场失误 [7] - 保留MEGA部分设计元素,但采用更主流SUV造型 [9] - 延续"冰箱彩电大沙发"产品理念,强化家庭用车舒适性 [9] 未来发展预期 - i8被视为i系列"定调之作",后续i6(预计25万元起)将承担冲量任务 [37] - 公司更关注产品能否满足用户需求,而非短期销量目标 [35] - 纯电产品线对理想实现新增长和突破纯电市场至关重要 [27][37]
竞争趋于白热化 六座纯电SUV争雄赛开打
证券时报网· 2025-07-23 11:29
六座纯电SUV市场竞争格局 - 六座纯电SUV正成为家庭用户首选 市场竞争趋向白热化 [1] - 主流产品包括问界M8纯电版 特斯拉Model Y L 理想i8 各具独特卖点 [1] 智能驾驶技术对比 - 问界M8纯电版搭载华为HUAWEI ADS4系统 配备192线激光雷达 后向高精度固态激光雷达 5个4D毫米波雷达 提升主动安全性和智能驾驶辅助性能 [1] - HUAWEI ADS4支持全场景辅助驾驶和泊车功能 并支持OTA升级 持续优化用户体验 [1] - 特斯拉Model Y L以Autopilot系统闻名 算力和算法优势显著 但在国内存在水土不服问题 [1] - 理想i8配备MindVLA辅助驾驶架构 可能采用英伟达Drive AGX Thor-U芯片处理高级传感器数据 [2] 储物空间设计 - 问界M8纯电版车身尺寸5190/1999/1795mm 轴距3105mm 提供五座和六座布局 第二排配备零重力座椅支持120°调节 [3] - 问界M8纯电版前备箱容积达110L 可容纳露营装备等大件物品 [3] - 特斯拉Model Y L采用极简风格 中控区域设大尺寸储物槽 支持分区收纳 [3] - 理想i8通过底盘优化和电池薄型化设计 提供多种储物空间 后备箱采用多层设计 后排腿部空间近1米 [3] 动力与续航表现 - 问界M8纯电版基于华为巨鲸800V高压电池平台 标配宁德时代100度电池组 CLTC续航最高705km 支持800V高压快充 [3] - 特斯拉Model Y L提供多版本续航选择 充电网络高效 适合城市通勤和长途旅行 [4]
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-07-19 18:19
扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]
环球市场动态:关税冲击尚未完全体现在美国经济数据
中信证券· 2025-05-06 19:17
股票市场 - 周一多个市场假期休市,亚太、欧美、拉美股市个别发展,越南涨幅居前,台股、巴西股市跌幅较大,德股连升9天,道指标指结束9天升势[3] - 港股上周五科技股领涨,恒指升1.74%,恒生科技指数升3.08%,国指升1.92%,大市成交额1337.28亿港元[11] - A股上周三个别发展,沪指跌0.23%,深成指涨0.51%,创指涨0.83%,两市成交1.17万亿元[20] 外汇/商品市场 - 周一亚洲货币兑美元集体大涨,日元领涨G - 10货币,台币升破30元,香港金管局卖出605亿港元捍卫联系汇率[4][28] - OPEC + 增产致国际油价下跌近2%,贸易战风险使国际金价上涨超2%[4] 固定收益市场 - 美国国债收益率连续三天上涨,企业新债发行活动密集,市场降息预期延后至7月[5][32] - 美国2、5、10、30年期国债收益率分别上涨0.8、2.1、3.5、4.6个基点[32] 宏观经济与政策 - “抢进口”使美国一季度净出口拖累GDP增长转负,关税冲击未完全体现,预计美联储5月维持利率不变,年内降息≤2次[6] - 美国4月ISM服务业指数升0.8点至51.6,财长称贸易谈判未来几周或有实质进展[6] 行业板块 - 五一旅游市场供需两旺,推荐餐饮、酒店等板块及相关优质个股[14] - 2025年“五一”民航客流双位数增长,航油压力或缓解,关注相关航司[18]