理想TOP2
搜索文档
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 22:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]
李想分享i6操控好是如何实现的?
理想TOP2· 2025-11-08 11:44
文章核心观点 - 理想汽车通过理性的量化数据和物理调校,在理想i6这款SUV上实现了与其定位匹配的操控乐趣,核心在于硬件配置、安全冗余、自研控制系统、性能组合及情绪价值模拟五个方面的优化 [1][2][6] - 车辆操控与舒适性由车重、轴距、重心和悬架主结构四大物理属性决定,调校的核心是在跳动和晃动间取舍,i6作为短轴距低重心SUV适合增加跳动以减少晃动,从而提升操控 [1][4][5] - 中国汽车工业的进步使公司能够实现大量底盘和软件自研,让用户以二十多万的价格享受到百万级底盘的体验,形成了用户品味提升与企业价值创造的良性循环 [2][13] 车辆操控的物理基础与调校理念 - 决定车辆操控和舒适性的四大物理属性包括:车重(类比体重)、轴距(类比身高)、重心(SUV高/轿车低)以及悬架主结构(双叉臂运动性强但占空间,麦弗逊反之)[1][4] - 调校的核心在于跳动与晃动的取舍,悬架硬则跳动多、路感清晰、操控好但牺牲舒适性,悬架软则晃动多、吸收冲击、舒适性好但易晕车 [1][4][5] - 短轴距、低重心的车(如轿车/跑车)适合增加跳动以提升响应速度和稳定性,而长轴距、高重心的车(如SUV/MPV)适合增加晃动来保证稳定性,i6作为SUV需增加跳动、减少晃动以增强操控乐趣 [1][5] - 基础的物理调校决定了车辆80%-90%的表现,剩余部分通过附件和软件优化来塑造独特风格 [1][5] 理想i6提升驾驶乐趣的五大方面 - **顶级硬件配置**:采用前双叉臂、后五连杆、全铝悬架、双腔空悬+CDC+液压衬套,以及52000的扭转刚度,属于百万级SUV的硬件水平 [1][7] - **安全冗余设计**:底盘真实极限为100分,但通过调校使驾驶者体感在90%时即感知到极限,从而保留安全边界,降低了事故率 [2][8] - **自研控制系统**:自研整车控制,使ESP、转向、刹车等系统协同工作,即便新手在山路驾驶也能感觉车辆易于掌控,不像传统SUV [2][9] - **性能组合调节**:通过转向、动力、悬架、动能回收的可调节组合,提供“开起来就有”的驾驶乐趣,而非逼近极限的危险乐趣 [2][9] - **模拟超跑情绪价值**:在高性能模式下细腻模拟超级跑车加速时的不平顺感,使用户无需极快速度(如0-200公里/小时7秒)即可体验相似的情绪价值 [2][10] 公司研发优势与行业背景 - 公司CEO因其生理上对晃动和震动极度敏感,其感官与研发测量值高度一致,能有效统一团队对操控表现的认知 [2][12] - 公司已实现大量底盘和软件的自研,从过去依赖国外供应商转变为自主掌控核心技术 [2][13] - 行业竞争加剧(“卷”)提升了产品价值,用户现以二十多万价格即可获得i6这样百万级底盘体验,用户品味的提升与企业价值创造形成良性循环 [2][13]
理想i8i6双车主分享对产品/宣传/舆情的感受
理想TOP2· 2025-11-07 11:39
文章核心观点 - 一位从宝马X5和腾势N7转向理想汽车的车主,对理想L8(i8)的综合体验给予高度评价,认为其产品力远超两年前同价位的腾势N7,满意度很高 [1][3] - 尽管对现有产品(如L系列、MEGA、L6)的某些方面存在批判性看法,并指出AI智驾和舆情管理存在不足,但车主仍因产品力而盲订了L6,并表达了对理想全家桶产品的期望 [4][5][8] - 文章通过真实用户视角,揭示了理想汽车在产品体验上的核心优势以及在外观设计、舆论应对和产品线广度上面临的挑战 [1][4][6][7][8] 用户购车决策与初始体验 - 用户此前驾驶宝马X5,首款电车为38万顶配腾势N7,但因体验未达预期,使用几个月后亏损十几万卖出 [1] - 用户购车主要考虑因素包括安全、好看、预算、功能(智驾/车机/座椅/娱乐/冰箱/便捷) [2] - 到店体验理想L8展车后,被其精美的方向盘、工整的双联屏(重要决策点)、精致的空调出风口、门侧板设计、氛围灯等吸引,同时认可舒适度、冰箱、电视、音响和车机流畅度,从而决定购买 [1] 实际使用中的超预期优点 - **舒适性**:座椅和底盘舒适度超出预期,NVH表现安静 [3] - **智能化**:车机对话流畅便利性高,智驾系统在长途高速中表现出色,显著降低驾驶疲劳 [3] - **补能效率**:体验了5C充电,补能速度快,十分钟即可完成 [3] - 综合体验被认为远超两年前同价位购入的腾势N7 [3] 对现有产品的批判性感受 - **产品设计**:认为L系列存在审美疲劳,MEGA车头设计受欣赏但尾部设计潦草,黑色饰条破坏了前脸和侧面的极简风格 [4] - **外观与选择**:L8(i8)被认为“帅得不明显”,销量普通的原因包括显性魅力普通、发布会效果不佳、外观内饰颜色选择过少(如没有免费的低饱和度颜色,内饰白色不耐脏、棕色怕压抑、橙色小众) [4] - **L6(i6)评价**:虽产品力拉满(20多万价位),但外观不够好看,未达到ET5T等车型的公认美感 [4] AI智驾与舆情管理短板 - **AI车机**:理想同学虽先进,但日常使用中仍有卡壳或答非所问的情况,期望值从别家的80分、理想的95分提升至110分 [5] - **智驾系统**:虽带来巨大惊喜,但偶尔的闯黄红灯和神经表现让体验存在瑕疵,网络舆论中特斯拉和问界在智驾心智上占优势 [5] - **舆情应对**:认为理想官方或高管对负面舆情(如停车梗/车主被扔臭鸡蛋/三元电池/卡车对撞等)解释次数太少,第三方解释效力不足 [6][7] - 针对5C充电的负面内容,用户希望官方能给出明确辟谣或定量使用建议,而非模糊回应 [7] 用户对未来产品的期望与行业对比 - **产品线期望**:用户希望购买理想全家桶,存在往下十几万小车和往上50-100万价位段的需求,并期望更多车型和豪华风格 [8] - **舆情管理重要性**:引用雷军对“水军行为”破坏信息透明度的认知,指出理想汽车在此方面的重视度可能依然不足,需加强为车主发声 [9][10] - 对比指出,小米在维护车主、应对诋毁方面做得比理想更好,而失真的口碑可能对企业改进和用户选择产生巨大误导 [9][10]
时睦华对比问界M8与理想L9
理想TOP2· 2025-11-06 12:48
文章核心观点 - 理想L9在产品品质、人机工程设计、车机系统及家庭实用性方面表现更优,被推荐为更成熟可靠的选择 [1][7] - 问界M8在第二排座椅舒适性及部分炫酷科技功能上具有优势,但整体产品完成度存在不足 [1][2] - 两款车型的辅助驾驶能力处于同一梯队,但风格迥异,华为系统通行效率高但舒适安全感稍弱 [2] 问界M8 Ultra优势分析 - 第二排零重力座椅可实现横向移动以避开轮拱,提供更大的躺倒角度,配合专用扶手和集成安全带,舒适度极高且行驶中可用 [2] - 提供更强的感官刺激科技功能,包括可隔空手势开启的电动门、投影大灯的光毯功能以及AR-HUD [2] - 辅助驾驶系统博弈性强,通行效率更高 [2] 理想L9 Ultra优势分析 - 内饰用料如皮革、镀铬及装配工艺明显更高级,品质感与做工更优 [3] - 人机工程设计是巨大优势,前排座椅对背部和腿部承托到位,长途舒适性强于M8 [4] - 扶手设计位置合理,避免了驾驶员胳膊肘硌在硬质饰条上的问题 [4] - 冰箱容积更大且设计合理,相比之下M8冰箱门难关且按键易误触 [4] - 盲区影像不遮挡导航关键信息 [5] - 车机系统为车载优化,采用大卡片并可多任务监看,语音助手理想同学基于MindGPT大模型,能理解复杂自然语义并控制第三方App [6] - 后排屏幕为高素质4K吸顶屏,优于M8的1080P投影屏,后者白天泛白清晰度差且片源有限 [6] - 油门调校线性跟脚延迟低,驾驶平顺性好开,M8油门在零开度起步时有迟滞动力突兀 [6] - 设计更保守注重家庭安全,如电吸门不易夹到小孩,第三排通透感和舒适度稍好 [6] 产品定位与市场评价 - 理想L9被类比为苹果,注重高品质、无感的细节优化和人机工程 [1] - 问界M8被类比为华为,注重炫酷、有感的科技功能 [1] - 尽管理想L9已上市三年,但其产品力依旧强悍,优势体现在各处用心的细节里 [7]
理想向合作伙伴分享未来三年的战略展望
理想TOP2· 2025-11-05 18:29
公司战略与展望 - 公司在2025年10月30日举行全球合作伙伴大会,主题为“共赢·创新·链接”,并分享了未来三年的战略展望[3][5] - 公司总裁马东辉在大会上发表主题演讲,回顾过去业绩并阐述面向未来的发展路标[9] - 公司管理层在2025年第二季度电话会议上表示将加速技术平台和产品更新迭代速度,目标在2026年使整车产品力和人工智能体系化能力超过2022年L9时代的领先程度[3][4] 技术成果展示 - 大会通过“智链公园”展区集中展示了与合作伙伴协同创新的全链路技术成果,包括AI大模型驱动的柔性制造、连山系统、星环OS、高阶辅助驾驶、新一代动力电池、超充网络及智能底盘[3][20] - 大会设置了无人接驳体验、机器人手作咖啡等互动环节,让参与者沉浸式感受智能出行的未来[24][26] 合作伙伴生态 - 公司传播供应链文化“W.I.N.”,即共赢、创新、链接,旨在共建合作伙伴生态圈[2] - 来自全球的六百余名合作伙伴参会,大会为致敬十年同行伙伴举行了颁奖典礼,颁发了技术贡献奖、卓越质量奖等多个奖项[5][27][32] - 公司强调将继续秉持“共赢·创新·链接”的文化,与全球合作伙伴开启下一个“黄金十年”[32] 政企合作与产业环境 - 常州市人民政府市长周伟在大会上致辞,指出常州作为新能源之都,致力于构建一流营商环境,并将深化产业链协同[6][8] - 理想汽车与常州的故事被描述为政企同心、彼此成就的最佳范本[6]
对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明
理想TOP2· 2025-11-05 18:29
公司战略与技术路线 - 公司认为无法在竞争对手已建立的战场上取胜,必须通过开辟新战场实现超越,例如在技术路线上选择研发下一代“端到端”和VLA模型 [5][13][16][17] - 公司自动驾驶业务发展有明确时间节点:2021年确认核心技术方案,2023年拿到入场券,2025年成为顶级公司,2027年实现L4常态化运营 [43] - 公司战略核心是高效运营数据闭环,其能力发展公式为 I' = A · D(t) · δ(t),其中算法能力A是常量,有效数据量D(t)趋于稳定,数据闭环效率δ(t)是关键变量 [60][61] 技术演进与核心决策 - 2023年底至2024年初,公司决定必须实现智能化超越,选择以“端到端”技术作为对传统规则方案的代际提升,并于去年下半年取得成果 [16] - 2024年春节前后,公司认识到“端到端”模仿学习存在天花板,如跟慢车不绕行、复杂路口理解不足等问题,因此加速转向VLA模型研发 [18] - VLA模型旨在让系统具备类似人类的思考推理能力,其内部代号为“斯芬克斯”,公司目标是使其成为实现L4级自动驾驶的路径 [20][21][30] 组织架构与运营模式 - 公司于9月19日将智驾团队重组为11个二级部门,使组织架构更为扁平,旨在打造面向AI的团队,提升决策效率并取消大规模封闭研发模式 [6][7] - 公司调整研发节奏,取消集中封闭开发,因时代背景从追赶变为领先,需要各部门发挥业务专长,并体现对员工的关怀 [9] - 公司智驾团队骨干已演进至第三代,核心管理者和二级部门负责人均从内部培养,强调对全面业务的了解 [52][53][54] 数据与算力基础设施 - 公司目前拥有10 EFLOPS训练算力加3 EFLOPS推理算力,去年云端算力投入约10亿元人民币量级,达到8 EFLOPS,并表示在算力方面投入不设限 [35][37][38] - 公司数据量从2021年前不足1亿公里,增长至去年有意控制下仍有十几亿公里高质量数据,未来将依靠世界模型生成更多数据用于训练 [40][41] - VLA车端模型参数量为4B,计划将云端模型做到32B,公司通过工程优化能力将模型部署在非大模型定制的芯片上 [39][40] 技术对比与行业竞争 - 公司回应了博世和华为对VLA技术的质疑,认为多模态对齐、数据训练和模型幻觉问题可通过自身技术积累解决,并称反对声音恰恰说明VLA正确 [23][24][25] - 公司认为其世界模型是为VLA模型服务的强化训练环境,与蔚来、华为对世界模型的理解不同,并与Yann LeCun提出的可预测未来状态的理念一致 [31][32][33] - 公司与特斯拉FSD的差距尚未拉开,但预计在VLA加强化闭环实现自我迭代后,将形成代际差别,并可能在中国市场超过特斯拉 [44] 商业化落地与未来挑战 - 公司认为实现L4级自动驾驶的最大挑战并非技术,而是大规模商业化落地,包括用户教育、法律法规和公众接受程度,初期将聚焦国内市场 [45][46][47] - 公司计划到2026年底实现1000公里的平均接管里程,之后该指标可能不再适用,业务模式将因强化训练闭环而发生根本性变革 [42] - 公司已建立面向海外市场的创新业务部,进行产品交付和L4落地预研,但承认海外市场的法规和产品设计与国内存在区别 [47]
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想TOP2· 2025-11-04 21:33
VLA技术发展路线图 - 短期目标是在2025年底至2026年初搭建出训练的强化闭环,目标是让用户体验到车辆“活”了的感觉,实现持续成长 [1] - 中期目标是通过强化闭环在中国市场超越特斯拉,核心优势在于拥有比特斯拉更便利的闭环迭代环境 [1] - 两年周期内,VLA结合强化学习将引发业务大变革,预计2025年开始,经过2025-2026两年迭代,到2027年将形成企业真正的护城河,即整个业务流程的变革能力而非单一的模型、数据或芯片 [1] - 远期目标是利用VLA技术实现L4级别自动驾驶,并预期未来还会有新技术出现 [1] 强化闭环系统的工作机制与价值 - 强化闭环系统能自动识别问题,如用户接管、驾驶顿挫、急刹车等,自动收集问题数据并回传进行强化训练,完成迭代后上线,实现自我优化 [2] - 该能力被视为未来自动驾驶运营商的核心立足点之一,但可能不构成严格的护城河,因为最终可能有多家主体掌握自动驾驶技术 [2] 对VLA技术路径的倾向性看法 - 认为驾驶所需的智能程度相对较低,以目前大语言模型展现的智能水平足以应对自动驾驶,主要需解决时延问题 [3] - 业务流程改革完成后,经过1-2年时间,能更清晰界定车端算力与模型参数量需求,倾向于需求不会太大,给出的锚点是车端1000或2000 TOPS,云端32B参数模型,并认为将320B模型蒸馏成4B很不合适 [3] - 存在一种观点认为,在遇到明显瓶颈期前,算力和参数量整体上是越大越好,这与“the bitter lesson”的核心思想一致,即充分利用算力的通用方法最终会胜出 [3] 技术方法论与行业趋势 - DeepSeek的方法在浅层上通过更好的方法降低了对算力的需求,但深层内核符合“the bitter lesson”,其方法本身是通用的元方法,可通过增加算力提升性能 [4][5] - 自动驾驶领域的前进方向符合“the bitter lesson”,任何试图将人类对世界的理解硬编码到算法中的尝试大概率会被淘汰 [5] - 理想团队认为华为的W Engine与其所说的世界模型概念相似,而其他友商关于世界模型的讨论仍停留在模型本身层面 [9] 公司领导力与战略决策 - 公司CEO在2025年2月底提出加快交付VLA,其判断基于模仿学习本质不具备人类智能 [6] - CEO与校招生保持每月一次沟通,与自动驾驶负责人之间建立了基于信任的默契和并肩作战的基础 [6] - 公司管理强调“关注人不关注事”,团队内部的双向信任是公司能够调整价值观稀释问题的基础 [6] 智驾部门组织架构调整 - 智驾团队的核心护城河被定位为业务体系而非个人,部门现设有11个二级部门,负责人均具备业务背景而非纯管理出身 [7] - 核心管理者倾向内部培养,而Research/算法研究人才可从外部引进 [7] - 具体部门调整包括将原模型算法团队拆分为基础模型部、VLA模型部和模型工程部等,并新增创新业务部 [7] - 取消封闭开发模式,原因包括追赶者收益降低以及体现员工关怀,公司高层可能已形成阶段性共识需提高员工关怀 [7] - 部门负责人自述团队经历了三代骨干更迭,当前为新班子主导 [7] 对竞争对手的评价与定位 - 团队非常关注特斯拉FSD V14的进展,并计划在美国进行实车体验,认为特斯拉Ashok在ICCV 2025上的演讲与理想VLA理念高度一致 [8] - 回应博世不看好VLA的观点,指出博世不自研基座模型且缺乏大模型相关工作经验,数据量不大,并认为可通过强化学习和超级对齐解决模型幻觉问题 [9] - 针对华为的观点,强调在完成端到端过程中发现corner case数据收集的核心在于数据分布和质量,需要系统具备人类思维推理能力,并认为反对VLA的声音恰恰证明了VLA方向的正确性 [9] 公司运营与资源规划 - 公司战略分析法的核心是认知决定战略,战略决定业务,业务决定组织和资源 [12] - 2024年公司云端算力为8 EFLOPS,价值约10亿人民币数量级,当前推理算力与训练算力投入各占一半被认为比较合理 [11] - 公司正在研发42B参数的云端模型,并希望云端模型参数量不要过大 [11] - 对于自研自动驾驶芯片,策略是如果一颗芯片效果不佳,就采用两颗芯片的方案 [11] - 预测到2027年行业可能不再使用MPI作为核心评价指标 [11] - 2023年公司主基调是扩招,但自动驾驶负责人认为团队规模不需过大,比特斯拉团队多一些即可 [11] - 自动驾驶负责人将50%精力投入短期日常管理事务,30%投入中长期战略规划,20%投入技术和业务进展 [11]
李想谈与DeepSeek梁文锋聊完后印象最深的两点
理想TOP2· 2025-11-03 15:33
公司管理哲学与组织架构 - 公司采用差异化管理方式,管理工厂、操作系统、研发汽车、研发智能驾驶均使用不同的组织管理模式[6] - 公司智能驾驶团队与模型团队中,校招生占比极高,达到百分之六七十[1][7] - 公司倾向于让年轻人主导研究工作,认为很多经验对于搞研究反而构成障碍,因此很少招募行业专家[1][7] 智能驾驶研发策略 - 公司真正从事端到端自动驾驶研发的团队规模约为200人,与特斯拉规模相近[6] - 公司端到端自动驾驶团队的规模远小于采用规则算法的竞争对手,后者团队规模可达2000人至6000人[6] - 公司在进行视觉语言模型和多模态训练等相关工作的团队规模约为一百多人,与DeepSeek团队规模类似[6] 技术研发与外部合作 - DeepSeek的开源对公司研发语言模型有巨大帮助,将原计划耗时缩短了九个月,加速了公司研发进程[5] - 作为对开源社区的回报,公司决定将其操作系统开源[5] - 公司从中国教辅体系中获得启发,认为其解题过程是进行强化学习反馈的有效训练体系[8] 领导层核心能力与驱动力 - 公司CEO自认在AI工程领域具备扎实基础,不会被下属误导,因其拥有良好的工程思维[2][16][17] - 公司CEO将其成功归因于对“成长”的专注,成长是其个人驱动力,用户价值和商业价值是成长的结果[14][15] - 公司CEO认为其工程能力体现在善于提出结构性问题上,曾主导设计汽车之家网站架构和增程架构,这些架构至今仍是行业主流[18] 对行业同行的评价与洞察 - 公司CEO评价梁文锋是一个特别自律、善于在全球范围内研究和学习最佳实践与方法论的人[4][5] - 公司CEO认为梁文锋的成功在于其践行“先研究分析再行动”的高成功率最佳实践,并将此模式在组织内放大[12][13] - 在与梁文锋会面时,公司CEO认可其团队实力,但未预料到其能在约一个季度内实现从O1到R1的快速进步[8][9]
詹锟兼任理想美国硅谷研发中心负责人并将直播讨论世界模型与VLA
理想TOP2· 2025-11-03 15:33
文章核心观点 - 讨论聚焦于特斯拉FSD v14的技术细节,特别是其是否集成了视觉语言动作模型(VLA)[1] - 探讨世界模型与VLA在自动驾驶领域的未来发展方向以及两者融合的可能性[3] - 分析数据和算力高需求对学术界参与自动驾驶研究的影响及潜在机会[3] 圆桌讨论主题 - 特斯拉FSD v14中值得国内关注的技术亮点[3] - 世界模型和VLA未来发展方向探讨,包括融合统一的可能性[3] - 数据和算力高需求导致学术界参与度下降,探索学术界在智驾领域的新机会[3] 参会嘉宾背景 - 嘉宾来自理想汽车VLA团队及硅谷研发中心、博世中央研究院VLA/闭环算法团队、长安汽车泊车团队等产业界关键角色[4] - 学术界代表包括上海交通大学人工智能学院博士生导师[6] - 其他参与者包括自动驾驶之心联创、深度流光联合创始人等行业专家[7][9]
理想DrivingScene: 两帧图像实时重建动态驾驶场景
理想TOP2· 2025-11-02 17:08
研究背景与挑战 - 自动驾驶系统的安全性和可靠性高度依赖4D动态场景重建(3D空间+时间维度的实时、高保真环境感知)[1] - 行业面临传感器成本与效率的平衡挑战:传统多模态方案依赖LiDAR、RaDAR等昂贵设备,纯视觉方案虽成本低但需解决稀疏视角和动态物体带来的重建难题[3] - 现有渲染技术存在局限:神经渲染方法(如NeRF、3D高斯溅射3DGS)在静态场景中表现出色但无法满足实时性需求,而动态场景方案(如EmerNeRF、Driv3R)存在离线优化、计算负担重及细节丢失问题[3] - 静态前馈方案(如DrivingForward、pixelSplat)因假设场景无动态,在面对移动目标时会产生严重伪影,难以适配真实驾驶场景[1] 核心创新点 - 提出静到动两阶段训练范式:先学习鲁棒的静态场景先验并冻结静态网络,再训练动态模块,以解决端到端训练的不稳定性并降低动态建模复杂度[4] - 设计混合共享架构的残差流网络:采用共享深度编码器学习通用运动先验,配合轻量化单相机解码器预测动态物体的非刚性运动残差,兼顾跨视角一致性与计算效率[4] - 构建纯视觉在线前馈框架:仅输入两帧连续环视图像即可实时输出3D高斯点云、深度图、场景流等多任务结果,无需离线优化或多模态传感器[4] 主要技术方案 - 整体框架输入两帧连续环视图像,先通过静态模块生成3D高斯表示的静态场景,再通过残差流网络预测动态运动,最终融合生成4D动态场景[7] - 静态场景几何与外观建模以3D高斯溅射(3DGS)为核心,每个高斯基元定义包含3D空间均值(位置)、协方差矩阵(形状)、不透明度及球谐函数系数(外观)[9][11][16] - 通过深度网络(D)和高斯参数网络(P)两个前馈网络直接预测高斯参数,所有相机视角的高斯基元转换到世界坐标系拼接为统一静态场景表示[12][16] - 动态建模基于残差场景流,将总运动场分解为刚性运动(由自车运动引发)和非刚性残差运动(由动态物体运动引发),通过残差流网络预测后者[13][17] - 残差流网络采用粗到细优化策略,包含共享深度编码器、单相机金字塔解码器和输入适配层,以有效处理大位移运动并确保跨视角尺度一致性[18] 实验验证与结果分析 - 实验在nuScenes数据集上进行,图像分辨率352×640,使用NVIDIA RTX5090 GPU,训练采用两阶段策略各6轮[21][25] - 在新视图合成任务上,该方法PSNR达28.76,较Driv3R(26.10)提升2.66dB,SSIM达0.895,显著高于Driv3R(0.808)[26][28] - 在深度预测任务上,几何准确性优于Driv3R:Abs Rel为0.227 vs 0.234,Sq Rel为2.195 vs 2.279,RMSE为7.254 vs 7.298[26][29] - 在效率与模型复杂度上,推理速度达0.21秒/帧,比DrivingForward(0.34秒)快38%,比Driv3R(0.71秒)快70%,模型参数仅0.117GB,为Driv3R(2.512GB)的4.6%[30] - 训练成本约为5天,VRAM占用27.3GB,远低于Driv3R的7.5天和175.5GB[30] - 定性结果显示该方法能生成边缘清晰、时序一致的动态物体重建结果,并能有效分解运动场,准确定位动态物体[31] - 消融实验验证了核心设计的必要性:去除残差流网络后PSNR和SSIM显著下降,替换为端到端训练后渲染质量大幅退化,去除流场扭曲损失后多任务一致性下降[31][32][34]