理想TOP2
搜索文档
前暗访记者用十个问题指出理想车主乱停车到底是怎么回事
理想TOP2· 2026-03-19 19:36
文章核心观点 - 近期网络上针对理想汽车车主不文明驾驶行为的集中讨论,并非车主群体素质的真实反映,而是有组织的网络黑水军通过制造、拼接素材并利用平台算法进行恶意传播的结果[4][5][18] - 此类网络抹黑活动具有产业化特征,目的是通过制造对立、吸引流量以获取收益,并对企业品牌声誉和正常经营秩序造成恶劣影响[16][18][19] - 从长期来看,公众将凭借生活经验和时间,逐渐识别并信任那些秉持正道、创造社会价值的企业,企业的真正价值在于其长期坚持的初心和符合大多数人利益的行为[25][26][28][29] 网络舆论异常现象分析 - 针对理想车主不文明行为的讨论在特定时间段(如去年7月前后)突然爆发,逻辑上与超过100万车主群体的素质不可能在短期内发生突变的事实相悖[4] - 网络平台(如小红书、抖音、微博)上存在有组织、有偿征集针对理想汽车(代号“LX”)负面素材的行为,例如发布违停图文奖励20元,发布不文明驾驶行为素材奖励40元[6] - 在二手交易平台存在大量“帮拍理想刻板照片”的悬赏帖,价格多为5元,发布地点覆盖浙江、四川、福建、北京等多地,显示其组织化特征[7][8][10][11][13] 黑水军运作模式与影响 - 黑水军手法包括:搜集或恶意剪辑素材、控制成千上万个账号、在同一时期集中发布类似抹黑内容,并利用视频平台基于用户偏好的信息投喂机制获取高额流量收益[19] - 黑水军负责“点火”制造热点,随后营销号为追逐流量跟进炒作,平台算法因内容互动高、完播率高而持续推荐,最终导致负面舆论“燎原”[18] - 此类有组织、有预谋的攻击抹黑企业、挑动车主对立的行为已被公安机关定性为违法犯罪活动,例如山东省烟台市公安局曾在2025年12月侦破相关案件并对涉案人员采取强制措施[16][17][18] 公众认知的心理与事实基础 - “孕妇效应”可以解释为何人们感觉生活中理想车主乱停车现象变多,即当人们开始关注某一特征时,会更容易注意到周围同类现象,但这不代表该现象的实际发生率增加[15] - 部分网络素材来源于普通用户,在全民拍摄和社交媒体的时代,分享欲和流量诱惑会驱使人们发布所见内容,导致舆论焦点过度集中于单一品牌[14][20] - 从交通违章的本质看,保有量较大的汽车品牌车主行为呈正态分布,不存在某个品牌车主“坏”的比例出奇高的情况,以往交警报告也未显示违停违章有显著的品牌差异[21] 企业的应对与长期价值 - 面对有组织的网络攻击,企业的主要应对方式是搜集证据并报警,但公安机关的侦破过程需要时间,例如去年7月的案件到12月破案间隔了5个月[22] - 企业倡导车主以平常心对待,以身作则遵守交规,并可通过传播相关分析文章帮助公众提升信息鉴别能力[23] - 企业的长期价值在于“行天道”,即走符合更大多数人利益、具有更大社会正外部性的路线,这是先进企业文化的方向[28][29] - 公众最终会认识到,理想汽车的发展能为科技行业带来更多诚实、正直的风气,以及能够穿越周期的创新产品,从而形成良性竞争环境[30]
李想: 过去的自动驾驶是看十万小时行车记录仪后直接上路
理想TOP2· 2026-03-18 21:52
核心观点 - 公司认为自动驾驶发展缓慢的核心原因在于行业缺乏对三维物理世界的原生理解,并发布了基于原生3D视觉编码器(3D ViT)的下一代自动驾驶基座模型MindVLA-o1,旨在解决此根本问题 [1] - 该技术突破将自动驾驶视为物理AI的起点,其基座模型具备向通用物理世界智能体演化的潜力 [3][4] 技术架构与突破 - **核心问题诊断**:行业过去投入数千亿,但进展缓慢,因为现有端到端系统本质是“看2D视频学开车”,如同看十万小时行车记录仪后直接上路,缺失人类在幼年阶段完成的“3D预训练”[1] - **过往技术局限**:行业使用的BEV(鸟瞰图)将世界从俯视角拍扁,丢失了高度信息;OCC(占用网络)虽是3D但缺失语义信息 [1] - **核心解决方案**:推出原生3D ViT(三维视觉变换器),让模型从编码阶段开始就直接工作在真实三维世界,统一理解空间几何结构和语义信息,而非从2D还原3D [1][2] - **感知能力提升**:在统一建模下,3D ViT可以稳定感知并推理到500米以上的空间范围 [2] 系统集成与能力 - **传感器角色重塑**:激光雷达不再是感知核心,转变为提供几何标定和近场空间约束的“高精度尺子”,感知上限由模型的表征能力决定,而非传感器物理线数 [2] - **算力支撑**:自研的马赫芯片单颗有效算力是上一代的3倍,满足了3D ViT对车端推理的极高算力要求,使该架构得以在车端实现 [2] - **模型高级能力**:MindVLA-o1将空间理解、思考推理和驾驶行为统一在一个模型内,具备在隐空间模拟未来几秒场景变化的“多模态思考”能力 [2] 应用前景与战略定位 - **验证与通用性**:该基座模型已验证不仅适用于自动驾驶,同一套VLA(视觉语言动作)模型也能控制机器人,正逐渐演化为通用的物理世界智能体 [3] - **长期愿景**:公司将自动驾驶定位为物理AI的起点,而非终点 [4]
李想与詹锟对话自动驾驶下一步怎么走完整图文版/视频版
理想TOP2· 2026-03-18 21:25
自动驾驶技术发展瓶颈与范式转变 - 2024年之前,自动驾驶技术主要依赖规则系统,其迭代进步非常缓慢,每个模块都依赖大量人工经验进行调参和设计,瓶颈在于人工工作量[1] - 2024年之后,行业进入端到端(VA)时代,这是一个真正的AI系统,开启了真正的技术迭代[1] - 然而,最初的端到端自动驾驶系统是直驱的VA系统,类似于昆虫的条件反射,需要海量的数据和模仿学习才能应对各种情况[1] 从端到端到“硅基人”的演进路径 - 技术发展的终极目标是创造“硅基人”,即具备人类所有模态输入和输出能力的机器人[3] - 从简单的VA端到端系统走向全模态的“硅基人”,中间需要增加多种模态,例如语言(形成VLA)、未来图景想象(World Model)、触觉、音频等[5] - 当前物理AI(如自动驾驶)发展缓慢、需要巨大数据量训练的原因,本质在于对预训练(Pre-training)的思考不足[5] 3D视觉预训练是核心突破点 - 人类无需大量训练就能掌握驾驶等技能,是因为数百万年的生物演化将训练压缩在基因里,而AI缺少一个关键的“视觉皮层”预训练[7] - 理想的预训练不是理解2D图像的语义,而是理解3D世界及其语义,这能让AI在少量后训练后就能迭代出物理可用的系统[8] - 当前AI训练方式如同“看着2D视频学开车”,与人类在物理世界中的学习方式不同,新一代物理AI需要真正的3D视觉编码器和解码器[9] 现有3D感知技术的局限与3D ViT的提出 - BEV(鸟瞰图)技术将3D空间拍扁成俯视图,丢失了高度维度的信息[10][12] - OCC(占用网络)技术虽然是3D的,但缺少语义信息,无法判断物体是否可碰撞[12][14] - 公司在新一代架构中设计了真正的3D ViT(视觉Transformer),旨在还原真实的3D物理世界,实现三维空间理解与语言的对齐[14] 3D ViT的实现与算力需求 - 3D ViT通过视频流直接还原出3D空间、位置点、点云语义和像素信息[16] - 在此范式下进行海量大规预训练,抽取到的特征就是真正的3D信息[19] - 相比从2D视频学习,实现3D感知和理解需要大约十倍的计算量[21] - 公司自研的马赫100芯片在标准大矩阵乘法计算任务上,性能比上一代芯片强三倍,有信心承载新的3D ViT架构[22][23] 技术落地时间表与核心挑战 - 预计到2024年年中,模型将具备一定的思维链能力,并将多模态思考能力与3D ViT结合,真正理解3D空间[26][30][32] - 实现这一目标面临三大技术挑战:1) 构建物理世界多模态思考数据;2) 将思考与行动进行一体化推理推演;3) 建立有效的评价体系,以支持“千人千面”的个性化能力[33][36] 对用户的价值与公司战略定位 - 技术的核心价值是让用户获得安心、舒适、拟人化且个性化的自动驾驶体验,如同一位“老司机”或专业司机[37] - 公司已建立起完整的造“人”(机器人)系统和组织模式,拥有自研芯片、操作系统、积累了十年的高质量数据、基座模型(含VLA和语言模型)以及成熟的软硬件本体团队,具备了面向具身智能世界的基础[38][40][41] - 公司坚持垂直系统化能力建设,并百分之百投入[42] - 公司战略不以汽车为中心,会谨慎尝试其他领域,首先交付自动驾驶汽车,同时智能眼镜将作为随身秘书和未来控制机器的数字分身,并相信家庭服务机器人在未来几年内可实现[43][44] - 公司的愿景是通过技术进步,让过去只有富人能享受的高品质生活,未来能普及到全球10亿、20亿人,实现生活质量的实质性提升而费用不增[44][45] AI时代的市场机遇与公司策略 - AI是一个杠杆,个人或公司的专业积累越深厚,AI带来的放大效应越大[46] - 对于理想汽车而言,其所在的汽车行业全球规模达10万亿,公司目前收入仅一千多亿,此外还有机器人、算力、下一代终端等几十万亿规模的市场[50] - 因此,公司的战略重点不是用AI替代人,而是用AI赋能所有人,放大每个人的能力杠杆,目标是让三万多名员工创造一万亿收入,而非目前的一千多亿[50][51] - 关键在于将AI的创造与使用能力,与庞大的市场需求相结合[52]
希望买80万MEGA的MEGA车主心理分享
理想TOP2· 2026-03-18 15:06
产品需求洞察方法论 - 用户显性陈述的需求与真实行为存在差异 例如字节早期产品试验中 许多男用户选择时政科技等兴趣标签 但实际消费内容仍偏好美女 女用户则更爱绯闻八卦 [1] - 顶级产品开发不应直接询问用户需求 而应通过用户行为挖掘其未言明甚至未意识到的深层需求 直接按用户口头需求开发产品可能导致产品失败或无人问津 [1] - 公司内部高度强调此思维方式 即不要听从用户表面的需求 因为真正了解自身需求的用户极为罕见 [1] 高端车型市场需求分析 - 存在明确的高端市场需求 部分现有MEGA车主及理想L系列换购车主希望购买价格约80万元人民币的升级版MEGA车型 且认为不会再回头购买L系列 [2] - 需求价格锚点为80万元而非100万元 用户认为80万元相比现有55.98万元售价能提供更多价值 但100万元难以带来显著的广义实用价值提升 用户不愿仅为面子或情绪价值支付过高溢价 [2] - 用户换购核心驱动力来自产品功能价值 如侧滑门和更大空间带来的体验提升 这是L9等车型无法提供的 [2] 目标用户画像与特征 - 目标用户包括现有MEGA车主、从理想L系列换购的车主以及保时捷等豪华品牌车主 行业多集中于金融和外贸领域 [2] - 用户对现有MEGA存在改进期待 但市场上暂无更好的替代选择 形成了“希望买到更好的车 但买不到”的现状 [3] - 用户购车决策存在感性成分 即使能细化拆解显意识层面的需求 用户最终也承认很多时候取决于“看到时候的感觉” [1] 用户对下一代产品的具体改进期望 - 续航与补能:期望在任意常见天气下实际续航达到550公里 认为当前MEGA在补能维度上相比L9略有降级 偶尔会感到里程不足 [4] - 内饰与感官体验:希望提升内饰的高级感与差异感 并配备更好的音响系统 用户虽自认有时听不出差异 但愿意为专业评估认定的更好音响付费 [4] - 驾驶性能:认为当前操控性相比路虎揽胜等车型仍有差距 希望得到提升 [4] - 创新功能:期待公司能提供用户自己想不到的额外功能或实用价值提升 [4] - 车身尺寸:希望保持现有尺寸 既不要更大(部分停车场已有停放困难) 也不要更小(需保证三排乘坐空间及后备箱容积) [5] 用户价格认知与品牌建设关键 - 用户对高端车型的贬值有理性预期 能接受1年后类似配置车型价值50万元 2年后价值40万元 [5] - 用户希望购买80万元理想汽车的本质原因 是公司未能在当前约60万元落地的车型上 营造出“这是现阶段实用价值无遗憾的顶级产品”的感觉 [5] - 品牌是一种社会共识 如果公司能成功营造出上述产品价值已达顶点的社会共识 将意味着取得巨大的商业成功 [5]
MindVLA-o1发布会提了一个指引理想未来十年做什么的问题
理想TOP2· 2026-03-17 22:51
公司战略愿景与核心问题 - 公司未来十年的核心目标是构建一个可在真实世界中运行的“数字大脑”,即用于控制物理实体的硅基数字大脑,这被视为在创造“硅基生命” [1][3] - 公司认为未来AI将分为纯数字比特世界和具身智能,而公司同时致力于应用于物理实体的硅基数字大脑和物理实体本身 [3] 自动驾驶战略的演变 - 公司第一个十年的主线曾认为自动驾驶是智能车的终局,2025年前的所有工作都是为了获取自动驾驶的“门票”,而做出有市场竞争力的车是获取门票的前提 [4] - 公司创始人早期虽坚信自动驾驶能实现,但不知具体路径,因此初期策略是坚决只做增程式电动车,等待产业链成熟到可实现10分钟补充400公里CLTC续航后再发布纯电车型 [5] - 尽管早期认定自动驾驶是终局,但直到2023年公司才开始投入大资源研发,这源于对发展节奏的把握,认为不同阶段应做不同的事 [6] - 到2026年3月,公司已明确自动驾驶并非终局或胜负手,而是一件未来必须完成的基础事项,之后还有更多发展空间 [8] 自动驾驶技术路径的四个阶段 - **第一阶段**:专注于如何更好地感知和设定人类先验规则,让车辆实现自动驾驶,此时自动驾驶本身就是全部目的 [9] - **第二阶段**:与如何更好地结合模仿学习和语言处理复杂问题做斗争,自动驾驶仍占据大部分目的,但已是构建有智能的硅基大脑的萌芽 [9] - **第三阶段**:与如何基于强化学习让语言更好地融入决策做斗争,核心是让模型更聪明(理解物理世界)并降低时延,这实质上已是在构建有智能的硅基大脑 [9] - **第四阶段**:组织层面已形成共识,目标是构建一个可迁移到其他物理实体的硅基大脑,实现自动驾驶只是必须完成的第一步,随后可快速拓展至如做家务的人形机器人等领域,公司以三年实现的心态推进,但预计实际需时更久 [9] 公司竞争力与未来方向 - 公司前两代车的成功核心在于汽车产品定义,在偏硬件的汽车部分,约有10家友商可深入学习其精华,但在车机系统方面,友商仍未学到核心 [10] - 公司接下来计划通过具身智能的软硬一体综合体验硬实力(类比苹果靠芯片+操作系统拉开差距)结合产品定义来建立竞争优势 [11] - 2026款L9的市场反应存在高度不确定性,但公司确定将坚决进行升维竞争,其成功与否高度依赖于创始人本人的智力水平、决策质量和进化速度,经营数据不佳时会引发更多质疑 [11] 创始人认知与公司转型 - 从2022年9月开始,创始人对AI的理解深度和重视程度逐年大幅提升,在此之前的公司主要聚焦于做好车本身 [7] 行业类比与启示(英伟达案例) - 2007年英伟达发布CUDA时,被华尔街分析师批评为浪费数十亿美元在一个不存在的市场,2008年其股价年内下跌76%,市值跌至约45亿美元 [12] - 2008年众多投资人要求英伟达削减研发投入,特别是看不到收益的CUDA,但创始人坚持每颗芯片都必须支持CUDA [12] - 2009年,因支持CUDA导致芯片核心面积和功耗增加,英伟达GeForce显卡在游戏性能竞争中处于劣势,该财年公司净亏损3000万美元,研发支出达8.55亿美元,财务部门和部分高管建议削减CUDA等非核心项目 [12] - 销售团队反馈除极少数大学实验室外,几乎没有商业客户愿为CUDA付费,认为创始人在追求一个“幻觉市场” [13] - 面对分析师质疑,创始人回应CUDA是计算的未来,不做CUDA公司将沦为普通的商品芯片供应商 [13] - 深度学习转折点AlexNet于2012年9月提交,2013年英伟达数据中心业务营收为3.3亿美元,公司市值90亿美元;到2018年,其数据中心营收首次突破100亿美元,达到19.32亿美元,公司市值达到810亿美元 [13]
詹锟讲理想下一代自动驾驶基础模型MindVLA-o1图文版/压缩版/视频版
理想TOP2· 2026-03-17 16:52
公司自动驾驶技术架构演进 - 2024年是技术路线分水岭,公司率先量产了“端到端加VLM”的双系统自动驾驶架构,其中端到端模型负责快速驾驶决策,VLM负责高层次语义理解和推理 [17][18] - 2025年,公司将端到端模型与VLM深度融合,形成MindVLA系统,将语义理解、语言交互、逻辑推理及驾驶决策统一整合到一个模型框架中,并引入强化学习进行自我优化 [18] - 从“端到端加VLM”到MindVLA的演进,解决了双系统中空间理解、语言理解和行为决策在不同模型中对齐效率低的问题,演化为统一的基础模型架构 [19][22] 下一代统一架构MindVLA-o1的核心设计 - 采用原生多模态的MoE Transformer架构,在设计之初就将视觉、语言、行动三种模态进行联合训练,而非先训练后组合,以实现更高效率和更强泛化能力 [3][31] - 引入原生3D视觉Tokenizer,通过3D ViT encoder直接对真实世界三维结构建模,融合激光雷达的几何信息和视觉的语义信息,提供高质量的3D世界表征 [4][31][34] - 具备多模态推理能力,语言模型承担语义理解、常识知识和交互功能,并引入“系统2”的显式推理能力进行深层决策分析 [5][32] - 集成隐式世界模型,通过Predictive Latent World Model在隐空间中模拟未来环境状态,实现“多模态思考”,以支持更优的驾驶决策 [5][32][38] - 设计了Unified Action Generation模块,在MoE架构中引入专门负责行动的Action Expert,从3D场景特征、导航目标等多模态输入生成高精度驾驶轨迹 [6][43] 针对业界VLA关键挑战的解决方案 - 针对3D空间、语言思考与行为对齐效率低的挑战,通过原生多模态联合训练和3D空间直接建模来提升对齐精度与整体推理效率 [3][24][31] - 针对长尾场景覆盖难题,结合合成数据与强化学习,并在架构设计之初就考虑强化学习范式,通过仿真环境进行大规模训练以提升泛化能力和鲁棒性 [3][25][26] - 针对高计算成本与内存开销的挑战,提出必须进行软硬件协同的架构设计,通过联合优化模型架构、推理系统及硬件能力来实现车端规模化落地 [3][27][28][29] 轨迹生成与系统优化的关键技术 - 轨迹生成采用Parallel Decoding而非自回归方式,所有轨迹点并行生成,大幅提升生成效率,尤其优化了长时距轨迹预测 [7][43] - 引入Discrete Diffusion优化方案,通过N步迭代对轨迹进行精细化处理,类似逐步去噪,保证了生成轨迹的精度 [8][44] - 轨迹生成机制总结为:MoE保证专业性,Parallel保证速度,Diffusion保证精度 [9][44] - 通过软硬件协同的Scaling Law方案,将模型架构探索时间从数月缩短到几天,在端侧计算受限时,发现更宽更浅的模型结构比传统深层模型更有效 [10][53][55][56] 数据、仿真与强化学习闭环系统 - MindData是统一的多模态数据引擎,用于持续采集、清洗、自动标注大规模驾驶和行为数据 [1][58] - MindSim是可控的多模态世界模型,可生成复杂驾驶场景以扩展数据能力,并支持大规模闭环训练 [2][58] - RL Infra通过奖励模型和策略学习,使系统能在仿真和真实环境中持续自我迭代与进化 [2][58] - 强化学习框架中,World Simulator的能力决定上限,公司采用前馈3DGS场景重建方式,能瞬时生成大规模高保真驾驶场景,且泛化能力支持大规模并行训练 [10][47] - 与英伟达合作,借助NVIDIA Cosmos和NuRec构建了统一的3DGS渲染引擎和分布式训练框架,渲染速度提升接近两倍,整体训练成本降低约75% [49][50] 系统全景与未来愿景 - 整套系统由MindData、MindVLA-o1、MindSim和RL Infra四部分组成,构成面向物理世界智能的基础模型全景图 [58][59] - 系统结构类比动物大脑:视觉感知如视觉皮层,推理规划如前额叶,动作生成如运动皮层,强化学习反馈如多巴胺系统,形成完整的行为闭环 [2][60] - 公司认为行业正进入具身AI新阶段,统一的MindVLA基础模型范式不仅可用于自动驾驶,还可用于控制机器人、机械臂等不同形态的物理智能体 [63][68][69] - 公司的目标是构建一个可在真实世界中运行的数字大脑,让通用AI真正进入物理世界,自动驾驶只是这一过程的起点 [2][60][68]
贾鹏GTC2026讲灵巧手的强化学习框架完整图文版/压缩版/视频版
理想TOP2· 2026-03-16 14:34
公司概况与核心方法论 - 至简动力是一家专注于具身智能的初创公司,在半年内完成5轮融资,累计融资额达20亿人民币[1] - 公司核心团队拥有深厚的行业背景,CEO为前理想智能驾驶技术研发负责人贾鹏,董事长为前理想CTO王凯,COO为前理想智驾量产负责人王佳佳[1] - 公司提出了一套解决具身智能落地核心矛盾的方法论,包含四个关键方面:构建更高上限的一体化模型、采用更高效的数据采集方式、使用更高效的强化学习框架、实现端侧推理和训练[3][42][44][120] 行业挑战与公司目标 - 当前具身智能面临的核心难题是模型的**泛化能力差**与**用户要求100%成功率**之间的巨大现实鸿沟[2][36][37][40] - 在工厂等应用场景中,只有达到100%的成功率才能真正形成生产力,但现有模型在物体位置或光照条件改变时都可能失败[37][39] - 具身基础模型规模大、机器人硬件结构复杂,导致系统执行效率不高,难以满足工厂等高节拍场景的需求[38] 基座模型技术路线与设计理念 - 行业基座模型技术路线尚未收敛,存在三大流派:**双系统VLA**、**端到端VLA**和**世界模型**[4][49] - **双系统VLA**:用一个较大的视觉语言模型(VLM)进行理解和任务拆解,再用一个较小的模型快速执行,可处理长程任务,但两个模型协同和联合训练困难[4][5][52] - **端到端VLA**:将指令理解、任务拆解及动作生成合为一体,但基于预训练VLM继续训练时易发生**视觉能力**和**语言CoT能力**的灾难性遗忘,严重影响泛化能力[6][7][53] - **世界模型**:不以VLM为基础,基于视频或高斯生成模型,实现了从以语言为中心到以视觉为中心、从理解为主到生成为主的范式转变,泛化能力强但伴随幻觉问题,且在灵巧操作上性能未超越VLA,算力要求高[8][53] - 至简动力的模型设计理念是 **“Simple Scalable”**,追求结构简单以获得更好的扩展效率[8][53] - 公司认为具身基座模型需要四种核心能力:1) 对多模态信息(语言指令、任务逻辑、3D时空变化、本体状态)进行统一建模和理解[9][10][54];2) 与世界进行闭环交互,实现多模态联合生成[11][55][56];3) 具备高实时性[11][56];4) 具备自我状态评估并调整动作的能力[11][56] 至简动力的“大一统”模型架构 - 公司认为具身基座模型的发展趋势是 **“Unification”(大一统)**,即未来通用模型将是一个大一统模型[12][57] - “大一统”包含四个层面的一体化:**多模态理解一体化**、**多模态生成一体化**、**快慢思考一体化**(模型自适应选择深度思考或快速执行)、**Policy和Critic一体化**(模型能执行动作也能评估和调整策略)[13][58][59][60] - 公司采用 **MoT(Mixture-of-Transformers)** 架构来实现单一Transformer处理多模态,其核心是不同模态通过共享Attention实现信息交互,同时保留独立的子网络[15][16][63][64] - MoT的优势在于能复用单模态基础模型,**成本非常低**,且扩展新模态**非常灵活方便**,这对需要多种模态的具身智能至关重要[17][18][65][66] - MoT天然兼容**自回归**和**扩散**两种生成方式,实践中发现扩散模型在3D动作生成上效果优于自回归模型[19][20][67] 核心模型:LaST-0 的性能与特点 - 至简动力推出的具身基座模型名为 **LaST-0**,它初始化自一个理解生成合一的基座模型,引入了 **Latent CoT**,结合了VLA和世界模型的优点[20][69] - LaST-0在紧凑的潜在空间中同时自回归地预测二维图像、3D点云及本体感知状态,实现**多模态的CoT**,并将隐式CoT扩展到未来关键帧,实现时空预测和生成[21][69][70] - 模型设计发现,每个模态仅需一个token即可,增加token数量对成功率提升不显著;时序预测越长,模型效果越好,且模型能自适应调整不同任务所需的预测时长[21][73][74][75] - 在仿真和真实场景的评估中,LaST-0均实现了SOTA(State-of-the-Art)性能,并且**比显式CoT的方法实现了约14倍的加速**[21][78] - LaST-0具备良好的容错和恢复能力,并能从桌面操作泛化到移动操作、双臂协作及高自由度人形机器人的复杂关节操作[79] - 该模型已成为北美顶尖实验室对比的基线模型[80] VLA模型泛化能力问题的根源与解决方案 - 基于VLM进行后训练会导致**灾难性遗忘**,尤其是视觉能力的遗忘,严重影响泛化能力和精细操作[7][53][81] - 分析发现,随着Transformer层数加深,**视觉特征逐渐减弱甚至消失**,这是VLA模型泛化能力差的根本原因[22][82] - 至简动力通过**MoT架构**,将视觉特征注入到更深层的Transformer层,从而大幅提升模型性能[23][84] 数据采集策略 - 行业获取数据主要有四种方法:**合成数据**、**真机数据采集**、**半真机采集**(如UMI)、**人类第一视角(Ego-centric)视频数据**[24][25][26][27][92][93][94] - 合成数据可快速规模化,但在模拟柔性物体、触觉力觉等方面不足[24][92] - 真机数据效果好,但采集效率低下[25][93] - 半真机采集效率高,但硬件(末端执行器)需与真机一致,限制使用范围[26][94] - 人类第一视角视频数据来源广,但质量不高,缺乏力觉、触觉等精细信息[27][94] - 至简动力选择使用**便携式手套**进行数据采集,该方案能保证数据效果和质量,方便扩展触觉、力觉等模态,是公司认为目前数据规模化的最佳方案[28][94] - 便携式手套采集的数据不仅能满足海量预训练需求,其高质量也能满足**SFT(监督微调)** 的要求,且工厂工人配合意愿高,不影响工作效率还能获得额外收入[28][95][96][99] 强化学习框架:Twin-RL 与 Double-L RL - 为实现单一任务100%的成功率,行业共识是使用强化学习,但当前面临**效率低下**和**容易过拟合**两大问题[102] - 至简动力提出 **Twin-RL虚实结合框架**,通过3DGS(3D Gaussian Splatting)将场景重建为虚拟数字孪生,在虚拟环境中放大模型探索空间并并行训练以提升效率,同时锁定易出错位置来指导真机强化学习,提升Human-in-the-loop效率[30][31][105] - 针对强化学习监督信号稀疏(只有成功/失败)的问题,公司提出 **Double-L强化学习框架**,利用基座模型生成的稠密时空潜在特征,在**Latent Feature生成**和**Action生成**两个层面进行双重强化,提升学习效果和效率[32][107] - 采用该方法,在大多数下游任务中,公司可以在**两分钟内实现100%的成功率**,且该成功率具备泛化性[110] 端侧部署与训练 - 为满足工厂对节拍、延迟的高要求及保密需求(不允许接入网络),系统必须具备**端侧实时推理和训练**能力[44] - 在英伟达的帮助下,公司进行了大量端侧优化,**全球第一个实现大模型在端侧部署并大规模量产**,并**在行业内第一个实现了端侧训练**[45][117] - 使用英伟达FP16、FP8混合精度训练和Video-training框架,训练效率提升,显存需求大幅减少[32][117] - 在产品上,普通工人**无需编程**,仅通过简单的拖动和语音指导,就能教会机器人完成新任务,提升了产品力和性价比[32][117] 总结与愿景 - 至简动力形成的方法论旨在推动具身智能从演示走向真实生产力,核心是:更高上限的一体化模型、更高效的数据采集、更高效的强化学习框架、端侧推理和训练框架[120] - 通过该方法论,公司能在保证模型泛化性的同时,在最短时间内实现单一任务100%的成功率[120] - 未来公司将通过**数据飞轮效应**持续提升基座模型的通用能力,实现各种场景下的泛化,最终实现通用具身智能[120]
基于钱海见闻对理想门店合伙人计划风险视角进行多角度延展推理
理想TOP2· 2026-03-15 22:52
文章核心观点 - 文章对理想汽车门店合伙人计划进行了多角度分析,结合了外部观点与内部批判性思考,核心围绕该计划在权责利分配、信任基础、商业模式本质及潜在风险等方面的讨论 [1][4][18] 对钱海见闻风险视角的总结 - **一个核心框架**:渠道的本质是分配权、责、利 [2] - **三个基础观点**: - 汽车门店是重资产生意 [2] - 中国一二线城市市场已基本市场化,三线及以下城市非市场化程度较高 [2] - 应将门店合伙人计划视为两个公司合伙,而非雇佣关系 [2] - **两个主要推论**: - 在理想的门店合伙人计划中,店长权力与利益过大,但责任过小(不投钱,最坏情况是收入减少或失业),导致权责利不平衡 [3] - 最适合理想的渠道模式是直营+代理,或不同产品线采用不同模式,其根本原因在于三线及以下城市需通过代理模式与地方资源合作以实现权责利平衡 [3] 对钱海见闻视角的批判性分析 - **关于计划性质**:理想公司自身及店长普遍认为门店合伙人计划实质是雇佣关系,旨在激发店长主观能动性,而非两个独立公司的合伙,最直接的证据是理想不开放外部资本入股门店,并承担所有经营支出 [8] - **关于商业模式轻重**: - 钱海见闻认为汽车门店与制造是重资产生意,但分析指出,理想在23年第四季度之前基本实现了持续的负现金周转和正自由现金流,商业模式实际上比想象中轻 [9] - 理想能够先收到用户全款购车款,一段时间后再支付给供应商,因此扩大再生产不压自有资金,且在中国建厂速度快、成本低,支持快速扩大再生产 [9][13][14] - 相比之下,理想在海外因建厂成本高、速度慢且计划采用经销商模式,其海外资产将重得多 [11] - **关于现金流表现**: - 23年第四季度之前,理想仅在22年第三季度(因理想ONE提前停产)和20年第一季度(刚开始卖车)出现自由现金流为负,其余季度均为正,推动现金储备提升 [12] - 24年至25年的八个季度中,有五个季度自由现金流为负,主要原因包括:销量多次不及预期导致营收环比下降,影响了负运营资本模式下的现金流入;以及供应商回款周期缩短与现金支付比例提高,将部分资金压力转移至理想 [15][16] 理想门店合伙人计划的具体情况与潜在风险 - **当前实施基础薄弱**:大面积店长对理想公司信任基础薄弱,存在被算计感,不相信公司真能让相当比例店长年收入破百万 [4] - **收入分配方案变化**:新方案实质导致店长月收入降低15%至50%(店越大降幅越大),而承诺的年收入增长机会为100%至300%或更高,但存在不确定性 [4] - **改革方式单向**:计划的实施更接近公司单向通知,而非基于双向选择 [5] - **明确的风险点**:如果店长被允许自主分配金融、保险、二手车供应商,且信任与共创氛围未牢固建立,高概率会出现相当比例店长主动或被动接受相关返佣,主要源于月收入必然下降带来的生活压力 [6][19] 理想渠道改革的目的与措施 - **改革核心目的**:通过赋予店长更多决策权和提高其潜在年收入,极大激发店长主观能动性,驱动销售团队高质量地向用户传递价值,最终实现销量增长 [18] - **管理改进措施**:某省在2025年开始实施中台打分制,由优秀店长对中台工作进行打分并召开民主生活会进行匿名反馈,旨在解决中台“唯上不唯下”的问题,并已取得让负责人感到压力、促使真实问题暴露的实践效果 [17] 关于市场与渠道模式的观察 - **城市层级市场差异**:根据QuestAuto数据,2025年11月,Model Y、小米SU7、理想L6在20-30万元价位新能源车中,分别有90.0%、94.4%、80.0%的销量来自一二线城市 [16] - **直营模式局限性**:坚持全球全直营的特斯拉,未在中国三线及以下城市取得成功的销量实践 [16] - **渠道模式选择的影响**:放弃直营模式将导致应收账款增长,使资产变重 [16] 成功的关键与可能结果 - **成功的关键前提**: - 理想需要做到季度营收基本持续环比增长,避免巨大环比下降(24年、25年未做到,23年之前基本做到) [19] - 必须解决好与店长之间的信任与共创基础薄弱问题,并做好腐败风控,真正带领大量店长持续赚到钱 [19][20] - **可能的积极结果**:若上述条件满足,理想将收获数百位高度认同企业文化、充满战斗力的店长,提供超越用户需求的服务,实现销量良性增长 [20] - **存在的挑战**:在信任/共创、店长管理能力提升、腐败风控以及持续让店长赚钱这四点第一性上,理想都可能做得不好 [21]
理想销服改革门店合伙人计划机会与关键点分析
理想TOP2· 2026-03-14 15:17
文章核心观点 - 公司推出门店合伙人计划 其核心主观诉求是通过变革激发店长能动性 以传递产品价值并驱动销量增长 [1] - 该计划成功的关键在于两点 一是公司与店长之间能否建立充分的信任与共创 二是店长群体的综合管理能力能否匹配新的经营者角色 [2][7] - 目前计划面临重大挑战 大量店长对公司管理层信任基础薄弱 且自身管理能力存在短板 这构成了改革的主要障碍 [2][6] 门店合伙人计划的具体变革 - 店长收入结构改变:收入大头变为门店年利润的A% 需承担租金 人员 水电等成本 月现金收入较过去降低 体量越大的店降幅越大 [2] - 店长权限改变:较过去自主决策权显著提升 角色从被管理对象转化为被支持对象 [2] - 公司运营模式坚持:坚持国内全直营与全国价格统一 不允许返佣 [2] 当前面临的主要问题:信任缺失 - 大面积店长对公司管理层信任基础薄弱 时常有“被算计”感 不相信公司真有意愿让相当比例店长年收入破百万 [2] - 信任缺失的原因:公司频繁单向更改店长/销售绩效方案 缺乏有效沟通 店长缺乏平等共创的反馈渠道 [3] - 过往管理实践加剧不信任:店长长期作为“被骂被催单”的被管理对象 此状况目前仍然存在 [3] 信任缺失的具体例证 - 订单计算规则变动:i6车型在春节后订单好转 但公司宣布3月绩效不算任务达成 即i6销量不计入门店当月总目标XX台的达成数量中 [4] - 佣金与销量负相关:多次出现某车型卖得好后 其销售提成反而减少的现象 导致店长普遍担心“卖得好 佣金就变少” [4] - 利益预期冲突:店长预期二季度因改款订单会好转 但公司将同步执行合伙人计划 不再发放销售提成 利益存在冲突 [4] - 公司行为可被理解但缺乏沟通:例如公司谋求26年第一季度交付量 因此3月的i6订单因无法在当季交付而不计入考核 若有良好沟通 店长从经营者视角本可理解 [4] 建立信任与共创的潜在路径 - 公司与店长存在充分共赢基础 共赢并非无限满足店长需求或公司单向命令 而是需要双向沟通 [5] - 中台部门可成为促进沟通与共创的关键渠道 但过往实践中 中台唯上不唯下 以“教和管理”店长为主 思维未转变为支持店长 [5] - 潜在解决方案:建立让店长给中台打分且与中台收入挂钩的机制 需避免现有360环评中由中台自行寻找关系好店长打分的弊端 [5] - 制度设计的核心本质是建立高度信任与共创 否则无法收获数百位高度认同企业文化的店长 [5] 当前店长队伍的能力短板 - 店长来源主要有两种:因过往销量好而晋升的内部员工 以及从其他品牌迁移过来的店长 [6] - 尽管经过店长大练兵筛选 仍存在高比例存量店长不具备经营者意识 具体表现为读不懂三张财务报表 综合管理能力欠佳 [6] - 提升大量店长的管理能力是本次改革能否成功的两大关键之一 [7]
理想25Q4电话会议问答文字版/压缩版/音频带字幕版
理想TOP2· 2026-03-13 00:38
销量目标与增长策略 - 2026年销量目标为实现相比2025年20%以上的同比增长 [16] - 增长策略为“3+2”策略:“3”指管理好销售体系、确保L系列(以L9为主)换代成功、纯电车型稳定上量;“2”指智能化投资带来的差异化产品体验以及海外市场的显著进展 [17][18][19][20][21][22] 产品规划与发布节奏 - 搭载自研芯片M100的全新一代理想L9将于2026年第二季度正式发布 [10] - 纯电车型理想i9计划在2026年下半年推出 [1][20] - 2026年所有车型都将搭载宁德时代品牌和理想品牌两种电池 [2][31] 门店渠道与销售体系优化 - 否认网传关闭100家门店的信息,强调是对少量低效门店的正常汰换 [6] - 渠道核心思路是更看重质量而非数量,新增门店将优先选取头部商场和优质汽车城 [7] - 于2026年3月初正式推出门店合伙人机制,坚持直营模式,通过下放经营决策权(获客、经营、团队管理自主权)和利润分享权给店长来激发活力 [8][9] - 目标在2026年第三季度看到明显的销售经营改善和提升 [1][9] 研发投入与组织架构 - 2026年研发费用预计保持在113亿元人民币左右,其中约一半(50%)投向人工智能相关领域 [2][28] - 2026年1月对研发组织进行了重大调整,从传统的硬件/软件/功能划分,转变为按“数字人”和“硅基人”的方式重构 [2][38] - 新架构分为:器官系统(管理芯片、数据集、操作系统等基础技术)、脑系统(整合感知、预训练、后训练等团队,专注做强“大脑”)、软件本体(构建系统级Agent,开发MCP协议等)、硬件本体(整合能源、驱动、控制体系) [2][3][38][39][40] - 组织调整后,智驾模型训练迭代效率从过去约两周一次提升至一天一次 [5][41] 自研技术进展与成本优势 - 自研M100芯片已开始量产,将随新款L9系列一同交付 [31] - M100可运行参数规模约为上一代六倍、计算量十倍的VLA模型,并实现更高帧率和更快推理速度 [2][31] - M100与Halo OS及整车线控系统协同,将传感器输入到车辆执行的端到端延迟缩短至200-300毫秒 [2][34] - 采用M100芯片并结合Halo OS虚拟化,每辆车可节省超过1000元人民币的成本 [2][35] - 公司认为模型、芯片、操作系统协同设计带来的优势,类似于苹果相较于安卓的优势 [2][36] 具体车型表现与订单 - 理想i8自2025年7月上市以来,NPS(净推荐值)较上市初期增长超过20% [2][29] - 2026年3月,i8订单相比1月同期提升了180% [2][29] - 理想i6已度过产能爬坡期,进入稳定交付阶段,后续月交付能力将达到2万台水平 [30] 具身智能战略 - 在具身智能的垂直技术整合上会百分之百投入,认为其在系统级技术上具备共性 [2][37] - 在商业和产品落地方面会小心翼翼进行探索,以创业公司方式启动新领域拓展,包括AI眼镜和机器人项目 [2][37] 供应链与成本管理 - 通过长期协议(LTA)锁定关键原材料和零部件价格,以对冲短期波动 [23] - 强化端到端降成本,包括产品研发、制造、物流全链条,并通过平台化研发提高零部件复用率 [26] - 通过自研自制增程器、电驱动功率模块、域控制器、碳化硅芯片、M100智驾芯片及定制电池包(Pack)来更好地控制成本 [27] - 新车型定价将综合考虑原材料波动、技术投入及用户价值,目标是让新品毛利率回到健康正常水平 [27] 人才梯队建设 - 大量90后、95后已担任业务一号位角色,00后校招生成为技术方案核心骨干,为未来十年构建了人才梯队 [5][44] - 部分核心骨干出去创业并获得资本市场认可,公司内部为年轻技术管理者提供了机会 [5][42][43]