Workflow
理想TOP2
icon
搜索文档
理想分享自动驾驶强化学习闭环训练框架
理想TOP2· 2025-11-28 00:10
论文核心观点 - 论文AD-R1旨在通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性 解决现有世界模型无法正确预测危险后果的系统性缺陷[2] - 核心创新在于提出公正世界模型和基于未来想象的强化学习框架 以解决模仿学习的分布偏移和缺乏负反馈问题[3][4] 自动驾驶技术范式对比 - 开环系统基于离线数据静态回放 算法决策与环境状态解耦 无法改变历史[1] - 闭环系统在动态仿真中实现车辆操作与环境的实时交互 并改变后续时空轨迹[1] 现有技术缺陷分析 - 模仿学习存在分布偏移问题 难以应对训练数据未覆盖的长尾场景[3] - 缺乏负反馈机制 导致AI无法从数据中学习危险行为的后果[3] - 现有世界模型存在乐观偏差 会对不安全动作产生幻觉 如让障碍物消失或改变路面属性以维持预测连贯性[3] AD-R1框架核心技术 - 训练公正世界模型作为诚实裁判 通过反事实数据合成将安全数据转化为车祸数据 教会模型理解危险行为的真实后果[4] - 采用轨迹感知门控技术 通过掩码强制模型关注指令路径上的特征 防止忽略障碍物[6] - 引入自车保真度损失作为惩罚项 防止模型在预测未来时擅自改变自车轨迹 确保其只预测不行动[6] 强化学习训练流程 - 策略网络首先生成候选轨迹(如10条)[8] - 轨迹输入公正世界模型(梦境引擎)预测未来4D占用网格[7][8] - 基于预测未来计算奖励 使用GRPO算法通过对比轨迹优劣更新策略 无需额外价值网络[8] 三维空间精细化评估 - 利用世界模型输出的3D/4D体素数据 计算比传统BEV方法更细致的奖励函数[8] - 体积碰撞惩罚通过重叠体积量化碰撞严重程度 而不仅是二元判断[8] - 垂向间隙惩罚检测隧道顶部或限高杆碰撞风险(2D BEV无法实现)[8] - 路面稳定性奖励确保车辆行驶在平坦路面 避免骑压马路牙子[8]
理想25Q3电话会议文字版
理想TOP2· 2025-11-26 22:53
核心观点 - 公司面向第二个十年做出三个关键选择:回归创业公司管理模式、将产品定位为具身智能机器人、以及构建完整的具身智能技术系统 [1][2][6][9] - 公司认为在行业高度竞争和技术快速变化的背景下,创业公司管理模式更有利于发展,并计划从2025年四季度开始坚定执行 [4][5][6] - 产品战略上,公司认为电动车和智能终端的定位不够,未来核心竞争力在于提供自动和主动服务的具身智能汽车机器人 [7][8] - 技术路线上,公司将重点发展包含感知、模型、操作系统、算力和本体的具身智能完整系统,预计下一代产品将带来5-10倍的自动驾驶能力提升 [10][11][12][13] 组织管理 - 公司过去三年尝试转向职业经理人管理模式,但发现其更适用于行业稳定、地位领先的企业,而自身所处环境更符合创业公司条件 [2][3][4] - 创业公司管理模式的核心是更多深度对话、聚焦用户价值、持续提升效率以及识别关键问题 [4][5] - 公司决定从2025年四季度起坚定回归创业公司管理模式,以应对新时代和新技术挑战 [6] 产品战略 - 公司认为若产品停留在电动车层面,竞争将陷入参数大战和价格战,额外研发投入可能成为浪费 [6] - 若产品定位为智能终端,创新可能仅是手机功能的重复建设,对用户价值提升有限 [7] - 公司选择将产品定义为具身智能机器人,目标是让汽车具备顶级司机能力,提供自动和主动的服务,如迎接用户、停车、充电等 [8] - 具身智能产品的竞争将是自动和主动能力达到何种程度,这被视作改变用户生活的关键 [8] 技术路径 - 具身智能技术系统包含感知、模型、操作系统、算力和本体五个部分,需要全系统解决关键问题 [10][11] - 感知方面,目标是将3D有效感知距离从100多米提升2-3倍,以解决50%以上的辅助驾驶常见问题 [11] - 模型方面,目标是将运行帧率从10赫兹提升2-3倍,以解决反应迟钝问题,这需要4B(40亿)参数模型 [11][12] - 本体方面,通过线控体系将响应速度从550毫秒提升至350毫秒,预计可降低事故率50%以上 [12] - 全系统技术突破预计可使下一代自动驾驶能力提升5-10倍,M100芯片是为解决这些问题而研发 [12][13] 三电技术储备 - 电驱系统实现从碳化硅功率芯片到电机的全链条自研,聚焦能效和静谧性体验 [16] - 电池技术聚焦5C超充,构建电芯化学体系、BMS、电池Pack的全栈自研能力,采用外购加自研合资的双供应模式 [16] - 电控技术通过软硬件全自研实现动力控制和能量管理,目标是为用户带来充电快、续航长、好开的确定性体验 [16][17] 产品交付与供应 - i6和i8纯电车型覆盖主流和高端家庭市场,在核心区域如上海、北京、江浙沪的订单大幅增加 [17][18] - 为提升产能,i6电池将于11月启用双供应商模式,预计明年年初月产能稳步提升至2万台 [18] 政策应对与未来规划 - 预计2026年国内新能源渗透率达55%-60%,高端市场渗透率超60% [19] - 应对政策变化,2026年全系产品将采用800伏高压平台和5C超充电池,并计划建成约4800座超充站,高速充电桩占比超35% [20] - 2026年L系列大改款将回归精简SKU模式,全系标配5C超充技术,实现核心体验全系拉满 [20][21] 智能化进展 - VLA端到端大模型已于9月全量推送AD Max车型,用户日活和MPI呈上升趋势 [22][23] - OTA 8.1将于12月初推送以提升感知能力,12月底进行架构升级以适配2026年自研芯片M100 [24][25] - 未来将推出行业首创防御型AES功能,探索任意车位泊车及智能找桩功能 [25][26][27] 自研芯片与操作系统 - 自研操作系统使开发周期从行业平均15个月缩短至9个月,成本降低20% [28] - 开源星环OS并与产业链伙伴成立Li OS技术指导委员会以加速创新 [28] - 基于自研芯片M100构建的控制器正在进行大规模测试,预计明年商用部署,其性价比预计为当前高端芯片的3倍 [29]
营业利润-11.77亿自由现金流-89.1亿|理想25Q3财报
理想TOP2· 2025-11-26 17:15
核心财务表现 - 公司2025年第三季度营收为273.6亿元,其中车辆营收为258.7亿元,整体毛利率为16.3%,车辆毛利率为15.3% [1] - 若剔除MEGA召回事件的影响,公司车辆毛利率可恢复至19.8%,整体毛利率可恢复至20.4% [1] - 公司2025年第三季度营业利润为-11.77亿元,毛利润为44.7亿元,营业费用总计56.46亿元 [2] - 公司2025年第三季度自由现金流为-89.1亿元,经营活动现金流为-74.0亿元,资本开支为15.2亿元,期末现金储备为989亿元 [1][2] 季度运营趋势 - 公司2025年第三季度汽车交付量为93,211辆,较第二季度的111,074辆环比下降16.1% [1][2] - 公司2025年第三季度营收273.6亿元,较第二季度的302.5亿元环比下降9.5% [1] - 公司2025年第三季度整体毛利率16.3%和车辆毛利率15.3%,均较第二季度的20.1%和19.4%出现显著下滑 [1] - 公司2025年第三季度自由现金流为-89.1亿元,连续第三个季度为负,且净流出额大幅扩大 [2] 费用与利润结构 - 公司2025年第三季度营业费用为56.46亿元,其中研发费用为29.74亿元,销售、一般及管理费用为27.69亿元 [2] - 公司2025年第三季度毛利润为44.7亿元,营业利润为-11.77亿元,显示营业费用已超过毛利润,导致营业亏损 [2] - 与2025年第二季度相比,第三季度毛利润从60.7亿元下降至44.7亿元,而营业费用从52.40亿元上升至56.46亿元 [2] 资产负债表关键指标 - 公司2025年第三季度应收账款为0.82亿元,占季度营收的0.30% [3] - 公司2025年第三季度应付账款为377.66亿元,占季度营收的138.03% [3] - 公司2025年第三季度存货为82.3亿元,占季度营收的30.1%,较第二季度的117.3亿元和38.8%的占比有所下降 [3] 业绩指引与达成情况 - 公司2025年第三季度实际交付93,211辆,实际营收273.6亿元,均超过其给出的交付指引(90,000-95,000辆)和营收指引(248-262亿元)上限 [5] - 公司历史上共有4次交付或营收未达前一季度财报发布的指引,其中3次提前更新了新的交付指引 [4] - 公司对2025年第四季度给出的交付指引为100,000-110,000辆,营收指引为265-292亿元 [5]
理想在报纸版的人民日报上刊登广告
理想TOP2· 2025-11-25 10:16
文章核心观点 - 理想汽车作为中国新能源汽车产业的标杆企业,其发展历程和战略布局体现了行业高质量增长的核心驱动力,包括技术自研、产业链协同和智能制造 [13] - 公司通过构建“理链”生态,实现了从核心技术突破到供应链韧性提升的全面进阶,并与区域经济深度融合,成为发展新质生产力的典型代表 [16][17] - 在人工智能驱动的产业变革中,公司定位为“全球领先的人工智能终端企业”,以持续大规模投入推动产品智能化和产业数字化转型 [15][19] 公司发展里程碑 - 公司成立于2015年,已成长为中高端新能源汽车品牌在中国市场率先实现年销量50万辆、连续两年营收超千亿元并实现盈利的标杆企业 [13] - 2024年,公司迎来第100万辆整车下线,从首辆车到百万辆仅用时58个月,成为中国首家达成此目标的“新势力”车企 [14] - 公司深度参与常州建设“中国新能源之都”,助力2024年常州新能源汽车产业规模突破8500亿元,向万亿级目标迈进 [14] 技术与研发投入 - 2025年,公司在人工智能领域的投入预计将超过60亿元,并正式推出VLA司机大模型和“理想同学”智能体,标志进入AI驱动发展新阶段 [15] - 公司通过自研实现核心技术突破,例如在常州布局新一代电驱动和增程器,在苏州布局碳化硅功率模组,实现产业链自主可控 [18] - 公司自研的“理想星环OS”实现整车操作系统全面开源,并与16家产业链生态伙伴签署合作备忘录,推动开源生态协同发展 [18] 产品与市场布局 - 公司成功推动增程电动技术规模化应用,并于今年第三季度量产搭载全自研碳化硅电驱的纯电车型理想i8、理想i6,形成覆盖增程、纯电的完整产品矩阵 [15] - 公司深耕家庭智能SUV市场,已建成“九纵九横”高速超充网络,平均每152公里有1座理想超充站,实现“充电10分钟,续航500公里” [15] - 公司产品上市即上量,背后是敏捷高效、韧性十足的供应链体系支撑 [17] 供应链与产业链生态 - 公司构建了以“卓越成长、智能创新、绿色健康”为特征的“理链”供应链体系,年采购额从百亿元到千亿元仅用3年 [16] - “理链”已形成高度近地化的“853”空间布局:80%分布于长三角地区,50%集聚于江苏,30%扎根在常州 [17] - 公司通过“理链”串联近千家合作伙伴,推动供应商从“按图生产”转向“前端共创”,实现集群化发展和价值重构 [16][17] 智能制造与数字化转型 - 公司通过自研Li-MOS智能制造操作系统,以AI算法驱动需求预测与智能排产,实现百万个零件订单自动生成 [19] - “连山数据科学协作平台”打通制造、供应、售后全链路数据,融合工业AI关键技术,催生智能分析与决策能力 [19] - 公司通过供应商深度集成平台实现供应端关键数据互联互通与系统深度耦合,提升产业链智改数转网联水平 [19] 人才发展与产业融合 - 公司通过“理想+”专项人才计划和共建产业学院,与全国上百所高校合作,联合培养高端产业人才超5000名 [17] - 以“产城人”深度融合为引擎,公司与常州携手打造“理想之城”,构筑以主机厂为中心、辐射广泛的“理链”人文生态圈 [17] - 2025年,公司成为江苏省城市足球联赛官方战略合作伙伴,通过“理链杯”运动会深化产业链伙伴联结 [17]
如果存在理想第一代AI眼镜, 先降低预期可能是上策
理想TOP2· 2025-11-24 19:54
李想对AI终端的战略构想 - 人工智能时代终端需具备四个特点:360度物理世界感知能力、认知决策能力、行动能力、自我反思反馈能力[1] - 公司未来开发的任何终端产品都必须符合以上四个能力标准[1] - 关于机器人业务,公司不会直接设定明确节奏,而是根据行业进展进行研究和分析,并决定哪些能力需自行解决[1] - 公司对终端产品的选择与业务规模相关,规模较小时尽可能收敛,规模扩大后则必须进行业务扩张[1] 眼镜作为AGI终端的发展现状与挑战 - 2025年4月,公司认为眼镜具备360度感知能力,但显示效果不佳,无法成为长期使用方式,且存在电池电量、独立计算、通讯等技术问题待解决[1] - 眼镜可能成为人类穿戴式AGI终端的一条可行路径,但也可能出现其他替代路径[1] - Rokid创始人指出眼镜存在“不可能三角”:展现力、穿戴性、续航难以兼顾,满分10分下,Vision Pro展现力9分、续航6-7分、穿戴性几乎0分;Rokid眼镜穿戴性7-8分、续航7-8分、展现力3分[2] - 若三点能同时达到7-8分将迎来技术奇点,但这需要突破电池、材料、半导体、光学、通信等广泛技术领域,且大量算力无法全部集成于眼镜设备上[2] 公司当前业务运营表现 - 公司今年多个部门表现一般,包括销售管理、供应链、i86产能、智驾部门面向高频智驾用户的运营等[2] - 小同桌、卡片大师、理想同学生活助手Agent等产品在理念层面获得好评,但实用层面现阶段表现不佳[2] - 广州车展提及生活助手将进行OTA升级,但未承诺小同桌和卡片大师的更新计划,产品更新速度偏慢[2] - 基于公司整体状态,难以预期其第一代AI眼镜能做得特别惊艳,AI眼镜前进方向明确但需解决大量技术问题[2]
理想提出首个包含自车和他车轨迹的世界模型
理想TOP2· 2025-11-23 19:56
技术模型创新 - 公司首次提出包含自车和他车轨迹的驾驶世界模型,旨在更逼真地模拟自车与驾驶场景的交互,并能通过改变自车-他车轨迹生成多样化的新颖场景[1][8] - 为解决缺乏交互性、特征分布不匹配和空间映射困难三大缺陷,公司提出EOT-WM模型,将轨迹点投影到图像坐标系并在空白视频上绘制轨迹,生成用于学习的轨迹视频,实现统一视觉模态[6] - 采用时空变分自编码器对场景视频和轨迹视频进行编码,获得共享特征空间的场景视频隐变量和轨迹隐变量,确保时空对齐[7] 模型架构与训练 - 预训练阶段在云端训练32B视觉语言基座模型,包含3D视觉、高清2D视觉以及驾驶相关语料,随后蒸馏成3.2B的MoE模型以适应车端算力[1] - 后训练阶段引入action将模型转化为视觉语言行动模型,参数量接近4B,采用短链条思维链并利用扩散模型对未来4-8秒的轨迹和环境进行预测[1] - 强化学习阶段包含人类反馈强化学习和不依赖人类反馈的纯强化学习,基于舒适性、无碰撞、遵守交规三大指标自我进化,目标驾驶水平超越人类[1] 模型控制与评估 - 设计注入轨迹的扩散Transformer,将轨迹隐变量提供的运动引导集成到视频隐变量中,以便更精确地对噪声视频隐变量进行去噪[7][9] - 整个模型可在文本和轨迹控制下基于给定初始帧预测未来帧,并提出基于控制隐变量相似度的指标用于比较预测轨迹隐变量与真值轨迹隐变量[7][9] - 与GEM模型和英伟达Cosmos模型对比,指出GEM模型使用未来物体特征和人体姿态不切实际,Cosmos模型参数量达70亿以上且推理训练成本高昂[5] 研究进展与发布 - 驾驶世界模型论文第一版于2025年3月12日发布,AAAI 2026会议录用版于2025年11月19日发布[2] - 论文第三版于2025年7月31日发布,新增作者并担任项目负责人,同时移除另一位作者,增加对GEM模型和英伟达Cosmos模型的讨论[5] - 论文第四版主要根据AAAI排版要求进行微调和双栏排版,各项量化实验结果与第一版保持一致[5]
如何评价理想为i6欣旺达电池额外赠送2年4万公里质保?
理想TOP2· 2025-11-22 13:57
理想汽车电池供应商策略 - 公司为确保长期供应链安全 明确需要至少两家电池供应商[1] - 存在强大舆论场认为宁德时代电池更优 导致部分消费者愿意花相同价格优先选择宁德[1] - 为解决i6发布的主要矛盾 销售私下向用户承诺2025年款i6均使用宁德电池[1] - 因电池产能不足 公司于2025年11月21日通知锁单车主 自2025年12月起将供应欣旺达电池 并额外赠送2年4万公里质保[1] - 公司面临三个关键变量权衡:用户等待周期、是否开放电池品牌可选、是否为欣旺达电池提供额外质保[1] 电池品牌选择方案评估 - 公司最倾向直接混装方案 但其对应的舆情风险不可控[2] - 开放品牌可选方案在初期能让用户早提车 但稳态下选择宁德电池的比例可能过高[2] - 开放可选并给予欣旺达额外质保可稳定其份额 但若质保相同则对选择宁德的消费者不公 若质保更低则与公司“标准一致”的表述矛盾[2] 消费者认知与公司叙事差异 - 公司官方叙事强调欣旺达与宁德电池无区别 均符合设计标准 是“土豆与马铃薯”的关系[2] - 但相当比例消费者不信任此说法 其认知锚点包括:宁德电池售价更高且市占率/利润水平显著领先 高端车型中宁德占比更高 专业拆解视频普遍认为宁德更优 宁德市场广告投入显著更多[3] - 公司的解释仅停留在“符合设计标准”和“欣旺达也是大厂” 对多数消费者说服力不足[3] 电池性能差异的专业观点 - 专业人士指出 磷酸铁锂电池的差异小于三元锂电池的差异是确定性很高的观点[5] - 对于磷酸铁锂 在消费者最关心的安全和寿命上没有太大差异 二线厂商为弥补品牌和工程能力差距可能更舍得用料做冗余[5] - 对于三元锂 事故概率存在差异 行业龙头更值得信赖[5] 公司沟通策略的局限性 - 公司的公开解释说服力差 叙事链单一 仅强调设计标准一致 缺乏细化数据支撑[6] - 展示欣旺达电池厂画面和工艺流程 只能说明其高标准 但无法从根本上解释为何宁德“更贵且销量更大”[6] - 细化指标的大数据可能是最有说服力的依据 但公司可能基于种种原因不便公开[6] 内部一致性验证 - 公司电池部门员工内部也明确表示两种电池没有区别 且员工自认购买欣旺达版本并无吃亏[4] - 公司公开使用“土豆与马铃薯”的比喻 其背后应有大数据支撑 而非仅凭设计标准一致[5]
理想2025广州车展视频版/图文压缩版
理想TOP2· 2025-11-21 12:22
公司愿景与产品理念 - 公司愿景是活成自己真正喜欢的样子 [1] - 优秀智能驾驶的评判标准包括选对路、速度对、舒适度、安心感、可沟通、高效率 [1] 智能驾驶运营数据 - 两个月内视觉智能驾驶里程达3.12亿公里,里程渗透率提升2.2倍 [3] - 日活跃用户提升3倍,有5000多名用户单日行驶里程达1000公里 [3] - 累计拥有52万AD Max用户 [3] 技术进展与功能更新 - 通过强化学习技术优化智能驾驶表现,新版本即将推送 [6] - 在理想充电站,除下车插枪外其余充电步骤均可实现自动化 [6] - 计划在2026年1月、2月、3月分别有1400、2400、2900座充电站具备全自动充电能力 [6] - 累计避免潜在碰撞事故1132万次,避免极端烈性事故14034次 [9] - 夜间主动避险达208万次 [9] - AES功能新增防御性加速避让和防御性加速前进 [9] - 未来将具备360度全方向AES能力 [9] 产品路线图与功能推送 - 城市NOA功能不久将面向AD Pro焕新版用户推送 [13] - 今年后续将有更多OTA更新内容 [11]
理想主动安全负责人发文《主动安全之死》
理想TOP2· 2025-11-21 00:15
文章核心观点 - 主动安全技术正经历从基于规则的传统方法向模型化或端到端技术的根本性转变,这将带来业务质的飞跃 [15][18] - 激光雷达对于提升主动安全性是必要的,尤其是在人类驾驶占主导的当下,能极大程度弥补人眼和视觉系统的感知局限 [6] - 主动安全业务的长期发展是“向死而生”,随着事故减少和高级别自动驾驶的到来,其形态将发生涅槃重生,而非彻底消亡 [16][18] 主动安全与辅助驾驶的关系 - 辅助驾驶系统根据导航全程控制车辆,将用户送至目的地,在L2阶段需要人类监督 [2] - 主动安全功能通过预警、刹车、转向等方式,在人类或系统驾驶时拦截潜在碰撞风险,其控制权会短暂“抢占”车辆 [2] - 主动安全的目标更纯粹:无论何种驾驶方式或驾驶者,核心是避免碰撞 [3] 激光雷达的必要性 - 对于主动安全,激光雷达可以极高程度提高安全性,短期看是必须的 [6] - 人类是交通事故主因,其驾驶决策并非仅围绕安全,常将车辆置于“冒险”状态 [6] - 人眼感知依赖光照条件,在逆光、炫光、无光或目标纹理与环境难区分时存在局限,激光雷达可有效弥补 [6] - 雨雪天气下激光雷达性能受影响的争议被指出意义不大,因这类天气在全量驾驶里程中占比不足10% [6] 传统主动安全技术的瓶颈 - 当前基于枚举场景和规则代码的开发方式,难以覆盖用户真实事故的纷繁复杂性,例如醉汉突然摔倒、两轮车突然切入等场景 [8][10] - 串联式技术架构在信息传递过程中存在信息损耗和校验时延,增加处理时间 [12][13] - 安全领域毫秒必争,该架构对复杂场景(如人群中冲出的行人、夜间鬼探头等)应对能力存在瓶颈 [11] 模型化/端到端技术的优势 - 模型化或端到端技术可极大缓解传统规则方法的两个核心问题,并对复杂场景的泛化应对立竿见影 [15] - 规则方法被比喻为“在烧饼里捡芝麻”,而模型化则是“一口一口吃芝麻”,处理效率更高 [15] - 对于主动安全所需的极短时序(约10秒)本能安全反应,端到端技术无比适合 [15] 主动安全业务的未来演进 - 业务呈现“向死而生”态势:人类驾驶事故不断减少,以及未来L3/L4级自动驾驶系统的谨慎策略,都可能降低其对传统主动安全的需求 [16] - 传统主动安全将成为过去式,但通过模型化技术的应用,业务将凤凰涅槃,在未来三年内出现超乎想象的进步 [18] - 规则与模型在安全领域相辅相成,行业内部将专注于如何共创未来,持续优化以降低事故概率和烈度 [18]
基于准确的原始材料对比小鹏理想VLA
理想TOP2· 2025-11-20 18:42
小鹏汽车自动驾驶技术架构 - 技术核心为拆掉中间的Language层,采用Vision和Language联合输入的语料,认为中间的L影响数据使用效率和scaling up [1][3][5] - 架构使用Latent CoT作为隐空间进行生成和diffusion,侧重世界模型理解物理世界运行规律以输出动作 [3] - 明确没有纯粹Language语料,VL联合语料具体训练方式未解释 [1][5] - 自动驾驶能力取决于数据规模和使用效率,最难数据为corner case,海外泛化性不错 [3][4] - 目前未做Agent,计划2026年基于该架构在广州进行L4级Robotaxi测试 [4] - 强化学习在现有架构中非核心,仅被提及两次,涉及未来需解决如何使强化学习更通用等问题 [6] - 对技术路线存在模糊点,包括scaling持续程度、安全下限、超级对齐有效性及定制化影响等 [5] 理想汽车VLA训练体系 - 训练分三个阶段:预训练云端32B VL基座模型、后训练引入Action转为接近4B参数量VLA、强化学习阶段优化驾驶行为 [8][10][11][13][14][15] - 预训练VL基座包含3D视觉、清晰度提升3-5倍的高清2D视觉、驾驶相关Language语料及VL联合语料(如导航信息与人类判断同步记录) [10] - 为适配车端算力,将32B云端模型蒸馏为3.2B的MoE模型以保证推理速度 [11] - 后训练采用短链条CoT限制在2-3步以内,并加入Diffusion预测未来4-8秒轨迹和环境 [13] - 强化学习分两部分:RLHF实现与人类驾驶习惯及安全对齐;纯强化学习利用世界模型生成数据,基于舒适性(G值)、无碰撞、遵守交规三大指标自我进化,目标超越人类驾驶水平 [14][15][19] - 司机Agent分层处理指令,通用短指令由端侧VLA直接处理,复杂长指令上传至云端32B VL基座模型处理后交由端侧执行 [16][17] 行业技术路线共识与差异 - 小鹏与理想均将VLA、VLM、世界模型等视为端到端体系架构,本质均为Physical AI,技术方向大同小异 [5] - 关键差异在于理想VL基座明确包含驾驶相关纯Language语料,而小鹏强调没有纯粹L语料 [1][2] - 理想认为交通领域是VLA最早落地场景,因规则清晰、控制自由度低(2-3个)、易于模仿学习及强化学习反馈明确 [18][19] - 理想预计2025年底至2026年初强化学习闭环后实际体验将有显著提升 [2]