理想TOP2
搜索文档
特斯拉Ashok ICCV'25讲FSD与QA|952字压缩版/完整图文/完整视频
理想TOP2· 2025-10-23 23:33
技术架构转型 - 特斯拉转向采用单一、大型的端到端神经网络,直接接收像素和其他传感器数据作为输入,并输出下一个控制动作,不再依赖显式的感知模块[1][2][34] - 转向端到端架构的原因包括:将人类驾驶价值观(如平顺性)编入代码极其困难;传统模块化架构的接口定义不佳易导致信息丢失;该架构易于扩展以处理现实世界的长尾问题;并能实现具有确定性延迟的同构计算,这对实时系统至关重要[3][4][5][6][36] - 该技术路径被认为是解决机器人技术的正确方法,其优势在处理复杂场景时尤为明显,例如为避开路面水坑而驶入对向车道,或理解鸡群过马路的意图并耐心等待,这些决策难以用显式代码编写[40][46] 核心挑战与解决方案 - 面临维度灾难挑战,输入上下文极长,例如30秒窗口可达20亿个token[7][10][48] - 解决方案是利用庞大的特斯拉车队数据,通过基于触发器的机制(如用户干预、状态空间大变化)精准挖掘有价值的极端场景数据,而非海量普通数据,从而使模型能泛化到极端场景,实现主动安全[11][51][56] - 在高速公路上演示了系统的主动安全能力,当前方车辆失控撞向护栏时,系统不仅判断一阶碰撞风险,更预判了车辆反弹回车道的二阶效应,提前实施了约4米每平方秒的强力刹车[57][58] 可解释性与调试方法 - 端到端模型可被提示预测多种可解释的辅助输出用于调试和安全保证,包括3D占用和流、物体、交通控制、道路边界、语义以及自然语言表达的决策[12][13][60] - 生成式高斯溅射技术相比传统方法有显著提升,优化时长从约30分钟缩短至220毫秒,无需3D关键点初始化,能更好处理动态物体,且新视角生成质量更高[15][65][66] - 模型支持自然语言交互和“系统2思考”,在需要时可花费更长时间生成推理token,再产生与推理一致的行动,避免了始终推理导致的延迟[16][69] 评估体系创新 - 评估是最大挑战,好的开环性能不保证好的闭环结果,需要平衡且详尽的评估集,而非随机采样的大量普通驾驶数据[9][17][18][71] - 核心解决方案是神经网络闭环模拟器,该模拟器使用易于收集的状态-动作对数据训练,能生成所有8个摄像头的一致视频流(长达数分钟),并可与策略神经网络连接在闭环中模拟世界[19][20][22][77][79] - 该模拟器能重放历史失败案例以评估新策略,并能合成创造新的对抗性事件(如车辆横切)来测试极端案例,渲染性能接近实时,允许人类在模拟器中实时驾驶测试[23][24][81][82] 技术应用与扩展 - 下一代Cyber Cab是为robotaxi设计的专用车辆,旨在实现低于公共交通的交通成本,并由相同的端到端神经网络技术驱动[25][83] - 相同的核心技术,包括视频生成,可无缝转移到其他人形机器人Optimus上,展示了其在工厂内导航并生成一致视频的能力,体现了技术的高度可扩展性[26][84][86] - 公司全身心投入于机器人技术,致力于为世界生产智能、有用、大规模的机器人,并将该技术扩展到不同的车辆平台、地理位置和天气条件[83][84][87]
理想i8提车40天的深度测评
理想TOP2· 2025-10-23 09:33
文章核心观点 - 文章是对理想i8车型为期40天、行驶1470公里的深度用户体验总结,核心观点为该车型在超充效率、辅助驾驶、乘坐舒适度及车机智能化方面表现优异,整体符合或超出用户预期 [2][23] 换车背景与驱动因素 - 换车周期符合行业普遍的6-8年规律,叠加购置税及置换补贴政策退坡预期,加速了换车决策 [3] - 家庭结构变化导致5人出行成为常态,是换购空间更大的6座车的主要驱动因素 [3] - 5C超充技术10分钟补充500公里续航的普及以及充电站网络完善,彻底打消了用户的续航焦虑,促使选择纯电车型 [3] 电耗与充电效率 - 累计行驶1470.3公里,驱动耗电量234.4kwh,驱动电耗为15.9kwh/100km [7] - 城区电耗约为14.9kwh/100km,与官方宣传的14.8kwh/100km接近,川西高海拔地区满载6人电耗为17.6kwh/100km [7] - 计入哨兵模式等电器耗电后,综合电耗约18kwh/100km,实际可用续航(95%-10%电量)约为460公里 [8] - 5C超充站充电效率极高,两次充电分别用时13分35秒充电68.685度(24.77%-95%)、14分34秒充电75.592度(17.7%-95%) [10][12] - 4C超充站充电70.943度至95%用时17分44秒,5C桩比4C桩在充相同电量下快约6分钟 [11][12] 乘坐与储物空间 - 6座布局在6人满载情况下,第三排仍能提供较为舒适的乘坐体验 [13] - 主驾座椅舒适度显著提升,支持连续驾驶11小时而无明显腰酸背痛 [13] - 对于常见5人出行场景,6座车的第二排乘坐舒适性完爆5座车 [15] - 储物空间经对比体验,i8显著大于理想L8,能满足两家6口人长途出行的行李装载需求 [15] 辅助驾驶系统 - 辅助驾驶总里程为565公里,软件版本为8.0.1 [16] - 系统优点包括对前方交通环境判断准确、操作丝滑,特别是在小路绕行和高速超车场景 [19] - 系统缺点包括对侧后方车辆预判不足、偶发急刹、城区变道突兀以及面对障碍物时决策迟疑 [19] - VLA召唤与小理师傅帮停功能在非复杂场景下成功率超过90%,提供了极高的情绪价值 [19] - VLA召唤功能目前仅限车主账号使用,且App启动时信号连接耗时较长是主要使用痛点 [20] 车机及智能座舱 - 桌面大师功能解决了功能入口层级过深的问题,支持生成个性化桌面卡片,获得高度评价 [22] - 语音识别能力强,能准确识别口语化表达及带有口音的普通话 [22] - 无麦K歌和调音大师(支持分享码导入模板)等娱乐功能提升了旅途乐趣和音响体验 [22] 驾驶感受 - 车辆过弯稳定性与燃油轿车相比无显著差异,滤震效果更优,得益于CDC和空悬 [23] - 高速行驶时风噪控制出色,仅有轻微风躁,优于以往燃油车的风躁加发动机噪音 [23]
理想操作系统架构负责人分享星环OS技术优势
理想TOP2· 2025-10-22 15:23
星环OS的技术优势与架构创新 - 自研通信中间件将全车几十个芯片的分布式系统视为一个整体,通过优于开源的中间件实现高效通信和资源协调,填补了开源领域的空白[1][12] - 打破传统各域控来自不同供应商的“黑盒”壁垒,实现端到端整合,在实时性、抖动控制和车身姿态控制上具有技术优势[1][13] - 通过极致的软硬结合,类似于iPhone的A系列芯片与iOS的深度集成,放大系统性能,充分释放硬件算力[1][8][14] - 在AUTOSAR规范外叠加时间链同步、优先调度和内核改造,于120公里时速下能提前7米判断并作出刹车或避让反应,缩短制动距离[1][15] - 通过完整的任务编排和预编排工具,实现智能空悬毫秒级调整,其要求高于智能驾驶,传统AUTOSAR无法做到[2][18] - 新芯片仅需两周即可高质量应用,得益于简化的适配接口和原生的多CPU架构支持,显著快于传统AUTOSAR所需的6个月适配周期[2][16][17] 车企自研操作系统的挑战与产业趋势 - 车企自研操作系统需先自研业务应用层软件,才能提出操作系统核心需求,否则难以确定合理方向[4][10] - 成功自研操作系统需要深厚的人才储备以及组织管理上打破部门墙[4][11] - 操作系统极其复杂,对实时性和安全性要求极高,小问题可致黑屏,天生不适合各家车企各自为战[4][21] - 车企的核心差异化应在业务软件应用和服务,而非操作系统本身,操作系统归一化是商业和产业的共同趋势[4][21][23] - 统一的OS能为车企节省成本,并解决芯片和控制器厂商面对系统碎片化的巨大苦恼[4][22] - 汽车操作系统预计将走向寡头格局,发挥集体力量共建统一的OS基础是合理状态[21][22] 理想汽车开发星环OS的动机与开源战略 - 初始开发动机是保障供应链安全与获得芯片选择自由,避免因海外MCU供应商适配周期长而受制于芯片价格暴涨和供应短缺[3][6] - 通过自研系统,将国产MCU的适配周期从6个月缩短至不到4周,有效保证了供应链安全[6][7] - 开源操作系统需具备技术勇气,系统需有足够的安全性和差异化的领先特色,否则可能被利用来攻击车辆或引发负面舆论[5][18] - 理想汽车开源星环OS是受DeepSeek等国内优秀企业启发,旨在减少产业重复造轮子,战略上获得从李想到CTO的鼓励支持[5][19] - 与包括欧洲车企在内的多家OEM洽谈合作,长城汽车经过内部测试认可星环OS的高质量与实际表现,决定加入开源生态[19][20] - 理想汽车不希望星环OS成为其独占产品,而是旨在使其成为行业的星环OS,通过开源共建做大生态盘子[20]
特斯拉call back李想的线索
理想TOP2· 2025-10-21 11:13
特斯拉FSD V14与VLA技术路线 - 特斯拉FSD V14证明其采用与VLA相同的技术路线 核心特点是具备对空间的完整理解能力以及执行长任务的多任务能力[1] - 特斯拉前自动驾驶软件总监Ashok Elluswamy指出 FSD系统整合摄像头 LBS定位 自车信息和音频输入至大型升级网络 后端结合语言模型 3D占用网络和3D高斯技术 最终输出动作指令 语言信息对齐被视为关键选项[1] 技术验证与行业动态 - 理想汽车此前已强调语言模型与3D高斯技术的应用 Ashok的表述在实质上呼应了其观点 尽管双方可能并无直接交流[2] - 相关论述出现在ICCV 2025的"自动驾驶基础模型蒸馏"研讨会 该会议于2025年10月20日在夏威夷檀香山举行 专注于通过蒸馏技术将视觉语言模型和生成式AI等大型基础模型部署到自动驾驶车辆中[3][6] 研讨会核心内容 - 特斯拉AI软件副总裁Ashok Elluswamy在会上发表主题演讲"为特斯拉机器人构建基础模型" 演讲时段可能为11:10至11:45[5][6][7] - 研讨会涵盖自动驾驶基础模型 知识蒸馏 小型语言模型 视觉语言模型 生成式AI模型 多模态运动预测与规划 领域自适应及可信机器学习等多个前沿技术话题[6]
理想辅助驾驶产品经理在俄罗斯说开车了解城市一定要有辅助驾驶
理想TOP2· 2025-10-20 20:18
理想汽车全球化战略 - 公司出海首站落地中亚 乌兹别克斯坦塔什干零售中心开业 并计划于2025年11月在哈萨克斯坦再开设两家门店 [14] - 公司与乌兹别克斯坦及哈萨克斯坦头部经销商合作 采用授权经销商模式销售L9、L7、L6车型 并提供官方质保与售后服务 [14] - 公司将2025年定为全球化元年 已在德国和美国设立研发中心 计划从2026年起新车将进行全球适配 后续重点拓展市场包括中东、中亚和欧洲 [14] 海外辅助驾驶技术进展 - 公司辅助驾驶产品经理在俄罗斯发布微博 其发布的汽车HUD界面UI与理想汽车界面高度相似 合情推理公司在俄罗斯进行了辅助驾驶测试 [13][17] - 结合产品经理在莫斯科的活动及微博内容 合情推理公司已开始初步测试海外市场的辅助驾驶功能 [17] - 产品经理明确提及通过开车了解城市时一定要有辅助驾驶 暗示了辅助驾驶技术在其海外行程中的实际应用 [4]
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-19 00:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
理想增程车换代电池部分产品定义潜在风险点分析
理想TOP2· 2025-10-18 16:44
文章核心观点 - 增程车对用户纯电使用场景的产品定义至关重要,定义越好越有利于获得长期市场反馈 [2] - 分析最适合理想增程用户纯电使用场景的产品定义细节是复杂的,不适合轻易下判断 [2] - 产品定义核心依靠数据与品味的综合权衡,理想公司拥有更多数据但未必能做出最合适的权衡,这是明确的潜在风险点 [2] - 中国未来1-4年高速4C以上补能资源的具体水平存在不确定性,其进步越快,增程车或许越适合配备更大电池 [2] - 2026年这一代的理想增程车,在电池部分的产品定义上可能存在缺憾,并可能在2027年得到弥补 [2] - 国内与海外版本增程车的产品定义可能不适合完全一样,国内版本可能更需注重低风阻,而理想公司现阶段似乎未计划做此区分 [3] 增程车产品定义与用户需求 - 零跑汽车朱江明认为增程式车型未来不会成为主流,面向的是不差钱的用户,他们愿意多花一万多元购买带发动机的增程器,主要为了春节回家不排队充电和长途出行无忧,平时仍以纯电模式行驶 [4] - 未来的增程式车型需要配备大电池,提升纯电续航至每周充电一到两次的频率,以满足家庭用户的便利性需求,零跑D系列增程电池因此直接配备80度电池 [4] - 理想汽车用户对高速加油的接受度相对更高 [4] - 理想汽车内部数据显示,大约1/3用户高速基本只用油,1/3用户高速一般先纯电优先快没电再切换,另有1/3用户会反复手动调整纯电优先/油电混合/纯油优先模式,即大约2/3用户希望高速多用纯电 [6] - 理想公司CEO李想和产品负责人范皓宇最初认为“高速尽量多用电”是伪需求,他们自己高速开车多用油且无不适感,但在看到数据后接受了这是真实存在的用户价值 [5][6] 数据驱动与产品决策 - 理想公司CEO李想认可数据,数据可以改变其产品决策 [7] - 理想公司作为2020年就规模交付增程车的企业,直到2025年其CEO才比较具体地了解高速用电细节并开发出智能油电功能,反映出其数据驱动水平存在提升空间 [7] - 李想和范皓宇在进行产品定义时,可能更倾向于相信自己的直觉和品味,这存在概率错判的风险 [7] - 唯数据论也有弊端,数据指标从被定义起就带有主观性,选择何种指标及如何分类都注入了设计者的主观判断 [7] - 数据与品味如何结合是一个非常复杂的问题,不适合轻易下判断 [8] 未来产品定义的挑战与考量 - 推测理想2026年款增程车,因续航增加和补能速度加快,将导致高速只用油的用户比例进一步降低 [8] - 理想原先产品定义预期大多数用户高速只用油,但观察发现存在相当比例用户是“被迫”多用油,尤其在带人出行时,等待充电会带来不好受的体验 [8] - 定义2026年增程车续航是一个复杂问题,需参考历史数据并追求一个合适的比例,使得车主在高速场景下使用特定比例的纯电行驶,单纯增大电池容量对理想公司未必是最佳选择 [8] - 理想纯电车的数据不能直接套用于2026款增程车,因风阻明显更低(高速续航更有优势)以及自然续航更长(有效充到理想桩概率更大) [9] - 过去增程车的数据可能因充电不便而压抑了真实纯电需求,在参考这些数据并修正至2026款车型时,底层内核仍涉及高度主观的判断 [9]
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
理想使用AI将汽车异响排查从3天降为3分钟
理想TOP2· 2025-10-17 21:44
行业技术难题 - 异响定位是整个汽车行业面临的技术难题 [2] - 超过200种零部件都可能成为异响源,声音特征千差万别,包括高频啸叫、低频共振等 [3] - 车辆运行时的环境干扰(如轮胎摩擦、风噪、电机运转声)使特定异响信号的分离和识别极为困难 [3] - 大多数异响为间歇性出现,增加了动态诊断的难度 [3] - 传统方法下,一个异响问题可能需要3名技师花费3-5天时间仍可能无法定位源头 [2] 技术解决方案 - 公司算法团队采用AI技术替代依赖技师经验和听觉的传统方法 [3] - 第一步通过傅立叶变换等信号处理技术将声波解析为时频图,形成独特的“波形指纹” [4] - 第二步通过自主研发的阶次分析NVH模型,将电驱专家数十年的诊断经验转化为算法模型 [5] - 模型部署到车端后能够实时分析并不断自我优化 [5] - 第三步利用边缘计算技术,使车载芯片能在1分钟内完成实时故障诊断 [6] - 系统可同时监测多个部件状态,不仅能发现当前故障,还能根据声音预测潜在问题 [6] 应用成效 - 模型部署后通过工况库技术聚合数据,每月帮助识别超过30个隐患故障 [7] - 诊断精确率达到100% [7] - 一年累计为企业节省超过300万元索赔成本 [7] - NVH诊断模型节省了售后技术支持人员解决异响问题99%的时间成本 [7] - 技术帮助企业快速定位问题,提升了客户售后体验 [7]
理想自动驾驶团队GitHuB仓库与论文合集
理想TOP2· 2025-10-17 21:44
自动驾驶技术战略布局 - 公司自动驾驶团队致力于通过前沿技术引领交通运输领域变革,核心使命是提升出行安全性、效率和可持续性 [1] - 技术布局涵盖自动驾驶大语言模型、世界模型、3D几何场景理解以及端到端神经网络模型等多个前沿领域 [1] 大语言模型 (LLM) 应用 - 利用大语言模型解读复杂驾驶场景,旨在实现更智能、响应更迅速的自动驾驶车辆 [2] 自动驾驶模拟与测试 - 世界模型项目专注于模拟真实驾驶环境,用于在各种条件下测试和改进自动驾驶算法 [3] - DrivingSphere框架结合4D世界建模和视频生成技术,构建生成式闭环仿真系统,可生成无限大的城市规模静态背景 [8] - DriveDreamer4D使用视频生成模型作为数据机器,生成车辆执行复杂新轨迹时的视频数据,以补充真实数据不足 [8] 3D场景感知与重建 - 3D几何场景项目专注于创建精细城市环境3D地图,以增强车辆感知系统,实现更优导航和决策 [4] - StreetGaussians方法高效创建逼真、动态的城市街道模型 [7] - 3DRealCar是真实世界3D汽车数据集,包含2500辆经过3D扫描仪的汽车,每辆车平均有200个密集的RGB-D视图 [8] - Hierarchy UGP使用统一高斯基元的四维空间表示方法构建分层树状结构,用于大规模动态城市场景的高保真三维重建 [8] 端到端神经网络模型 - 研发全面的端到端神经网络模型,简化从感知到执行的整个自动驾驶系统处理流程 [5] - STR2运动规划器使用视觉Transformer作为编码器,采用单阶段自监督学习方式训练,旨在提升泛化能力 [8] - GaussianAD使用稀疏而全面的3D高斯函数表示场景信息,解决传统方法在信息完整性和计算效率间的权衡问题 [8] 视频生成与场景合成 - DiVE模型基于Diffusion Transformer架构,生成与鸟瞰图布局精确匹配的时间、多视角一致视频 [8] - GeoDrive利用3D几何信息生成高度逼真、时空一致的驾驶场景视频,实现实时场景编辑 [10] - StreetCrafter是专为街景合成设计的视频扩散模型,利用激光雷达数据实现摄像机位置的精确控制 [8] 视觉语言模型优化 - LightVLA是自适应视觉token pruning框架,同时提升机器人VLA模型任务成功率和运行效率 [10] 数据集与算法创新 - TOP3Cap是用自然语言描述自动驾驶街景的数据集,包含850个户外场景,超过64300个物体,230万条文字描述 [7] - ReconDreamer采用渐进式策略,将世界模型知识融合到场景重建中 [8] - DriveVLM采用端到端与视觉语言模型结合的双系统架构 [7]