Workflow
VLA模型
icon
搜索文档
智驾平权系列六:AI 智能涌现新阶段,智驾 VLA 与世界模型之争
长江证券· 2026-02-27 08:50
报告投资评级 - 行业投资评级为“看好”,并维持该评级 [11] 报告核心观点 - 通用人工智能大模型迎来跨越式发展,为各类AI应用构建了坚实的技术底座,智能驾驶作为“物理AI”应用,注定向大模型演进 [3][6] - 通用大模型能力涌现,赋能智能驾驶模型基座,模型架构持续进阶,正逐步进入视觉-语言-动作模型和世界模型的物理AI时代,迈向智能涌现新阶段 [3][6][8] - 智能驾驶大模型从传统规则模型走向端到端大模型,并进一步向视觉-语言-动作模型和世界模型演进,国内头部玩家正加速迭代,智驾能力有望迎来飞跃 [8][107] 通用大模型技术演进 - AI大模型以Transformer为基底,依托算力指数级提升与海量多模态数据,实现了从单一语言理解到多模态融合、从专用任务适配到通用能力涌现的关键突破 [7][19] - 大语言模型发展历经多个关键阶段:2017年Transformer架构问世;2018-2020年预训练模型兴起;2021-2022年引入后训练对齐技术;2023-2024年多模态与推理模型发展;2025年进入以DeepSeek-R1为代表的成本高效推理模型时代 [23][26] - 模型训练范式从预训练规模化,发展到引入监督微调和基于人类反馈的强化学习进行后训练对齐,进入了“ChatGPT时刻” [27][30] - 2024年,模型开发开始强调提升推理能力,以OpenAI o1-preview为代表,模型推理能力飞跃,并引入Agent模式,实现了AI应用功能体验的质变,标志着商业化落地的重要拐点 [31][36][37] - DeepSeek-R1模型基于纯强化学习的创新技术路径,利用专家混合架构和优化算法,在表现出竞争力的同时大幅降低了运营成本,满足了国内算力不充裕背景下对超大参数模型训练的需求 [7][42] 智能驾驶大模型发展路径 - 智能驾驶从2023年开始,受特斯拉FSD V12引领,进入“端到端”大模型时代,车端模型参数规模普遍已达数十亿,云端达百亿级别,规模定律持续显现 [45] - 传统端到端模型通过神经网络直接建立视觉输入到驾驶轨迹的映射,属于“黑盒”方式,缺乏对物理世界规律的深入理解,且无需显式语义推理 [8][65] - 当前趋势是引入多模态大模型和强化学习,推动“端到端”模型向视觉-语言-动作模型范式演进,并融合世界模型,使智能驾驶进入物理AI时代 [8][51][67] - 特斯拉的自动驾驶架构演进经历了四个主要阶段:1)感知端到端;2)决策规划模型化;3)两段式端到端;4)一段式端到端,当前行业正迈向视觉-语言-动作模型和世界模型时代 [52][53] 视觉-语言-动作模型分析 - 视觉-语言-动作模型是一种融合视觉、语言和动作三大模态的端到端人工智能模型,它将感知、推理与控制一体化,直接根据视觉输入和语言指令生成可执行动作 [76] - 视觉-语言-动作模型的发展分为四个阶段:Pre-视觉-语言-动作模型阶段、模块化视觉-语言-动作模型阶段、端到端视觉-语言-动作模型阶段、增强型视觉-语言-动作模型阶段 [77][78][83] - 相较于“端到端+视觉语言模型”的中间形态,视觉-语言-动作模型实现了三个模态特征在统一空间中的集体建模与对齐,解决了双系统架构下泛化能力不足、交互稳定性难保证等问题,使智驾更具交互性、类人性和泛化性 [87] - 视觉-语言-动作模型架构主要由多模态编码器、大语言模型推理核心和解码器组成,输入经视觉和文本编码器处理,输出由轨迹解码器和文本解码器完成 [81][82] 世界模型分析 - 世界模型是一种生成式时空神经网络系统,旨在系统内部构建对物理环境的动态模拟与未来状态推演,让自动驾驶车辆具备“在脑海中预演未来”的能力 [91][92] - 世界模型通常覆盖三类任务:未来物理世界生成、行为规划与决策、联合预测与规划 [95] - 世界模型的核心优势在于能够预测和仿真未来、方便量化风险,并可通过仿真生成大量极端案例数据,但其挑战在于缺乏高级语义理解、实时高保真推演计算成本高,且本身不直接产出驾驶策略 [100] 视觉-语言-动作模型与世界模型的对比与融合 - 视觉-语言-动作模型与世界模型的核心目标不同:视觉-语言-动作模型侧重于实现人车交互与可解释的端到端自动驾驶,而世界模型侧重于构建一个内部预测与仿真系统 [100] - 视觉-语言-动作模型可以直接输出动作控制信号,是真正的端到端;而世界模型输出的是未来的场景状态,需要中间转译才能生成动作 [100][102] - 两者并非相互排斥,存在融合趋势,例如将世界模型的能力嵌入视觉-语言-动作模型的训练目标,或设计能够同时涵盖视觉、语言、动作与动态预测的统一融合模型,如World视觉-语言-动作模型 [104][105] 头部玩家技术路线与进展 - 国内头部智驾玩家加速模型迭代,向视觉-语言-动作模型和世界模型推进,模型架构、训练方式、算力、数据及参数量全面升级 [8][107] - 目前以小鹏、理想等为代表的主机厂主要采用视觉-语言-动作模型路线;以华为、蔚来等为代表的主机厂主要采用世界模型路线 [8][107] - **小鹏汽车**:推出第二代视觉-语言-动作模型,去掉语言转译,将架构从V-L-A改为V/L-A,采用近1亿段视频训练数据,基座大模型参数达720亿,预期复杂小路平均接管里程提升13倍 [112] - **理想汽车**:Mind视觉-语言-动作模型架构强化了3D空间信息处理、语言场景理解和集体行动生成能力 [116] - **华为**:提出世界引擎+世界行为模型架构,云端世界引擎训练世界模型,车端世界行动模型将感知数据直接映射为控制动作,跳过语言解析 [120] 投资建议 - 整车方面:智驾实力领先和处于强新车周期的主机厂具备较强确定性,重点推荐小鹏汽车、江淮汽车、赛力斯、比亚迪、吉利汽车、零跑汽车、理想汽车、小米集团、长城汽车、上汽集团、长安汽车等 [9][124] - 零部件方面:智驾升级催动产业链投资新机遇,重点推荐拓普集团、伯特利、星宇股份、均胜电子等,重点关注德赛西威、科博达等 [9][124]
刚融资超7亿元,这家“卖铲子”的公司想成为“华为鸿蒙”
新浪财经· 2026-02-13 08:02
公司定位与战略 - 公司定位为打造机器人领域的安卓生态,成为“卖铲子的人”,致力于提供基础平台和工具,而非仅仅销售机器人本体 [5][24] - 公司核心是“服务”,旨在通过开源平台和技术赋能整个行业,商业化能力是“nice to have”而非“must have” [2][35] - 公司兼具国家创新平台和公司属性,是一家创新型公司,其90%的精力集中在技术创新上 [15][26] 融资与估值 - 公司于2026年2月完成首轮超7亿元人民币的市场化融资,投资方包括北京市人工智能产业投资基金、亦庄国投、百度、东土科技等机构和产业方 [4] - 本轮融资启动于2025年第四季度,周期较短,公司资金此前一直相对充裕,融资过程中未设置任何对赌条款 [7][9] - 估值是基于产业发展成熟度和市场认知协商的结果,没有明确计算公式,公司认为其技术发展和布局远超投资人预期 [8][9] - 引入产业资本主要考虑战略资源,如品牌、技术、供应链和产业应用方面的帮助,而非单纯财务投资 [11] 技术发展与开源 - 公司技术发展迅速:2024年发布首代“具身天工”机器人,2025年3月发布“慧思开物”平台并开源运动控制框架,2026年2月发布大脑和小脑能力显著提升的“具身天工3.0” [4] - 公司积极拥抱新技术,曾果断从传统的Model-based控制算法转向结合强化学习和模仿学习的新架构,颠覆了传统研发模式 [15][16] - 在数据训练方法上,公司摸索出结合仿真数据与真实数据的路径,使用比例为4:1,即仿真数据占80%,真实数据占20% [18] - 公司已开源VLA模型、VLM模型和世界模型等多类具身智能模型,其开源数据集下载量已超过15万次 [4][21] 行业影响与生态建设 - 公司通过开源“具身天工”平台显著降低了行业门槛,推动了行业发展,例如2024年许多机器人还不能动,到2025年世界机器人大会上的大部分机器人都可以运动了 [19] - 开源平台用户包括个人开发者、学生、高校、研究所以及大型公司,后者利用平台在其垂直业务领域进行应用开发 [21] - 公司认为开源与商业化并不冲突,类似于安卓模式,开源能更快繁荣产业,帮助中国具身智能产业占领国际制高点 [23] - 公司建立了中试验证平台,已下线第1000台机器人,具备5000台套的年产能,旨在为行业提供从实验室样机到产业化的服务,填平“最后一公里”的鸿沟 [33][69] 行业现状与展望 - 行业处于早期探索阶段,全球性技术路线(如VLA模型与世界模型)尚未收敛,公司正在各个方向进行探索 [4][29] - 2025年是行业“量产元年”,头部公司已有几千台量产,许多公司实现小批量发货,发展趋势超出预期 [35][73] - 公司认为人形机器人应优先落地于3D场景,即危险、肮脏、枯燥的领域,作为人的辅助,而非替代普通人的工作 [30] - 行业未来将是一个必然的万亿级市场,当前所有技术突破都只是“阶段性产物”,尚不足以构筑真正的护城河 [5][35] - 横向对比,国内人形机器人公司估值约100多亿元人民币,最大公司市值不到千亿,而美国Figure估值达几百亿美元 [13] - 纵向对比,机器人行业未来拥有10万亿美元的庞大市场,当前估值几十亿、上百亿的公司仍有巨大成长空间 [13] - 公司认为行业不存在泡沫,只有“泡沫的公司”,关键在于公司自身的技术和布局 [13] - 预计2026年行业在数据量、应用成熟度和技术迭代速度上都将比2025年有更大进步,形成技术驱动与应用牵引的双轮驱动发展 [36][73]
投资者:产品必须围绕场景落地 三条技术路线并行竞速,各有瓶颈
每日经济新闻· 2026-02-09 23:19
行业现状与市场预期 - 2026年央视“春晚”舞台的焦点之一将仍然是人形机器人,银河通用机器人将成为“春晚”指定的具身大模型机器人[1][3] - 2025年国内人形机器人出货量预计达1.8万台,较2024年激增超650%;2026年国内出货量有望攀升至6.25万台[3] - 行业已过“机器人会跳舞就能卖得好”的野蛮生长阶段,重心已转向场景落地,脱离应用场景的公司将被淘汰[1][4] - 当前只有唱歌跳舞类娱乐机器人能实现稳定营收,整个行业仍处于“研发向工程转化”阶段[13] 核心发展驱动力:场景落地 - 行业共识是机器人必须从“刷屏表演者”向“实干劳动者”转型,走进工厂、工地、物流仓库等场景创造真实价值[2][3] - 投资人更看重企业是否有落地场景,没有成型产品的公司基本不会考虑投资,仅靠少数人拼凑、张口要融资的公司不被看好[1][4] - 技术的先进性本身不能直接导致商业成功,竞争核心在于“落地”,最终必须回归商业本质,形成销售[5] - 用户的具体诉求集中在:降低生产成本、将人类从重复枯燥或高危工作中解放、在文商旅等领域提供情绪价值[13] 技术路线竞争与挑战 - 行业分化出三条主流技术路径竞速:VLA(视觉语言动作)模型路线、世界模型路线、分层决策与软硬件协同路线[2][7][9] - **VLA模型路线**(如Figure AI、智元):追求“通用智能”,依赖海量数据训练,具备强大语义理解能力,但计算开销大,对硬件续航、散热要求高[7] - **世界模型路线**(如特斯拉):构建“数字世界”模拟器,重度依赖高质量仿真数据以降低对真机数据的依赖[9] - **分层决策路线**(如波士顿动力、智元):将复杂任务拆解,模块化架构优势在于故障易隔离,确保控制回路的响应速度[9] - 各技术路线需协同发展,技术选型需综合考量部署环境、网络条件、算力支撑等现实因素[9] 关键技术瓶颈与攻关方向 - 机器人面临续航、稳定性、成本三大残酷考验,必须学会“干活”[2] - 提升机器人适应不同场景的“泛化能力”是核心难题[10] - VLA模型面临数据昂贵、算力消耗大、执行速度慢等挑战[10] - 触觉技术面临三大行业性难题:优质触觉传感器稀缺、缺乏高效利用触觉数据的算法、缺乏大规模触觉数据集[8] - 高频本地推理是保障机器人稳定性的核心,例如10赫兹的推理频率能在0.1秒内处理微小扰动[12] - 提升AI操作系统的“下限”(如连续工作10小时不犯错)远比展示“上限”更具技术难度和行业含金量[11] 商业化路径与场景分析 - 未来3至5年将是具体场景机器人落地的关键期[13] - 机器人的核心价值在于劳动力的补充,可以学习模仿老师傅的经验,在夜间或节假日工作[13] - **工厂场景**:相对简单,操作精密但高度重复,目前已有机器人展示进厂“打螺丝”能力[7][14] - **商超/零售仓场景**:复杂度高,需识别数十万种商品,但操作以“拿、放、摆”为主,若能解决物品泛化问题,可提升运营效率30%~90%[14] - **家庭场景**:是终极挑战,空间物品千差万别,任务复杂,目前从投入产出比看并不经济[14] - 商业场景正成为突破口,例如中国石油已启动基于加油站能源加注场景的人形机器人预研项目[3] 未来发展趋势 - 技术路线将根据场景适配:结构化工厂/物流场景适配“分层决策+软硬件协同”路线;复杂建筑工程场景适配世界模型结合轮足混合架构(能效比纯足式高3至5倍);文旅与家庭服务场景适配VLA架构[16] - 2026年,智能机器人长时间作业的瓶颈将从“能不能走”转向“能干多久”和“够不够稳”[5] - 技术正以“月”为单位快速迭代,硬件差距将迅速收窄,真正的核心壁垒将是机器人在长时间作业中积累的非标环境作业数据及形成的数据闭环能力[18] - 硬件架构将逐渐统一化,软件可能形成“语义解析层-环境建图层-运动执行层”的三层解耦架构[18] - 软硬件深度协同将成为优先方向,单纯进行部件组装的企业或将被淘汰[18] - 国产化成为趋势,2026年国产行星滚柱丝杠、高功率密度伺服电机将逐步实现量产替代[19] - 商业模式逐渐清晰,面向B端客户,与本体厂商、场景方开展联合共创,核心价值在于无需改造现有基础设施,能与人在同一环境中共存作业[17]
为什么不让李想谈AI?
36氪· 2026-01-28 19:56
公司战略转向 - 公司CEO李想在全员会上宣布将全面投入人工智能领域,断言2026年是成为AI头部公司的最后“上车”机会,并承诺最晚2028年实现L4级自动驾驶落地 [1] - 公司研发组织架构将进行剧变,重组为“基座模型团队”、“软件本体团队”和“硬件本体团队”三大支柱,汽车与人形机器人均被归入“硬件本体”范畴 [1] - 公司计划在2024年的研发总投入超过120亿人民币,其中很多将用于人工智能相关技术的研发,涵盖基础模型、推理芯片到云端算力 [2] 技术路径与投入 - 公司正倾力打造VLA模型,旨在实现从感知到决策的“端到端”自动驾驶,统一空间、语言和行为智能 [3] - 公司正试图构建一个封闭、全栈自研的技术体系,包括自研基座大模型MindGPT、规划中的自研芯片M100、操作系统及核心算法 [8] - 公司在AI领域的投入与特斯拉等巨头相比仍有差距,特斯拉2024年研发投入高达45.4亿美元,并计划为AI算力再投入100亿美元 [9] 公司经营与市场现状 - 公司2025年第三季度实现营收274亿元,同比下滑36.2%;新车交付量为93,211辆,同比下降39.0% [6] - 公司当季由盈转亏,净亏损6.24亿元,终结了自2022年第四季度起连续11个季度的盈利纪录 [6] - 公司面临来自华为、小米、小鹏等对手的激烈竞争,且过去被视为“护城河”的精准产品定义和市场节奏在MEGA车型失利后受到质疑 [6] 行业竞争背景 - 根据IDC数据,预计今年全球智能驾驶汽车销量将达到8930万辆,AI已成为定义产品、驱动增长的核心引擎 [3] - 特斯拉、华为、比亚迪等国内外竞争对手均在智能驾驶和智能座舱领域进行激烈竞争,没有强大的AI能力意味着没有未来入场券 [3] 内部管理与员工反应 - 员工对全员会的反应以吐槽和困惑为主,他们更关心眼前的销量、KPI、年终奖以及公司对现实问题的回应,而非遥远的AI愿景 [1][4] - 员工中存在对年终奖打折、承诺的14-16薪未能完全兑现以及高强度工作压力的抱怨 [6] - 组织架构重组为三大团队后,可能增加跨团队沟通成本和技术磨合障碍,并导致从事传统汽车业务的工程师感到战略重心转移 [12] 领导风格与挑战 - CEO李想的风格被认为越来越像马斯克,体现在对AI的狂热、对人形机器人的执着以及个人IP风格上 [2][8] - 公司面临着将宏大AI战略“翻译”为员工可理解、可执行的共同语言和行动纲领的挑战,员工更关心AI技术如何转化为当前产品的具体竞争力 [14] - 与马斯克通过将梦想分解为可执行挑战来激励团队相比,公司在展示远景时缺乏清晰的实现路径和角色定义 [15]
五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论
中金在线· 2026-01-28 10:39
物理AI的发展趋势与核心突破 - AI技术正取得三大突破:从聊天到干活的智能体、开源模型降低门槛、物理智能理解客观自然世界 物理智能展现出AI开始理解蛋白质结构、化学分子、流体力学等自然科学规律 这被认为是AI的下一波浪潮[1] 物理AI的核心技术范式:VLA与世界模型协同 - 为加速AI理解、重建和生成物理世界,需依赖世界模型这一利用AI训练AI的新工具[2] - 行业共识认为,单纯依赖真实机器人数据采集不够 正在见证VLA模型或VA模型与世界模型双模型协同的新范式崛起[2] - VLA或VA模型担当负责感知、推理和行动的大脑 世界模型充当负责推演和想象的场景模拟器[2] VLA与世界模型协同的价值与路径 - VLA+世界模型是解决物理AI中具身智能数据饥渴和物理安全性矛盾的最优解 真实机器人数据采集较贵、较慢、有危险[3] - 世界模型能生成无穷无尽的仿真数据 可低成本生成各种情景甚至反事实场景 为VLA提供细节丰富的训练场[3] - 斯坦福大学李飞飞教授提出空间智能是连接数字与物理世界的桥梁 世界模型应生成具备3D几何一致性、物理互动性的可操作世界 VLA在此训练才能真正理解物理规律[3] - 协同进化工程化落地分为四个阶段:冷启动、接口对齐、在仿真场景中训练、虚实迁移与校准[4][5] 解决生成式模型物理常识缺失的关键技术 - 需警惕生成式模型在长时间序列预测中的一致性幻觉 如物体突然变大或穿透[6] - 解决对策:引入3D几何、材质等约束 结合3DGS等技术 确保生成的物体在三维空间中守恒[6] - 公司日常训练中将3DGS技术与3D几何图形引擎融合 形成3DGS混合仿真引擎 使虚拟环境物理特性与真实环境保持一致[6] - 为判断任务成功 需训练配套的奖励模型作为裁判 查看生成场景并给出分数反馈[6] - 为解决世界模型推演速度瓶颈 可采用潜一致性模型等加速技术 将预测从像素级转移到特征级 速度可大幅提升[6] 数据共享与互补的最佳实践 - 世界模型训练需要输入真实数据与合成数据[7] - 共享视觉底座:VLA和世界模型的视觉编码器可共享权重或联合训练 以节省显存并保证对世界特征的同频理解[7] - 反事实数据生成:利用世界模型生成假设性失败案例数据 让VLA学习从未经历过的失败 提升鲁棒性[7] - 数据配比:建议发展初期按照真实数据与合成数据1:9的比例混合使用 真实数据用于校准物理规律 合成数据用于拓展多样性[7] 物理AI的演进方向与未来应用 - 世界模型未来需直接生成4D的交互式环境 VLA将在完全三维的动态可交互环境中训练[8] - 在公司的"数字孪生工厂"中 利用物理AI可在虚拟产线调试机械臂、应对异常 再同步到实体工厂执行[8] - 构建动态"虚拟训练场" 使人形机器人在部署前学会应对数千种突发状况[8] - 实现快慢系统默契配合:VLA处理毫秒级实时反应 世界模型处理长程规划 当VLA遇难题可呼叫世界模型推演方案[8] - 最终VLA和世界模型可能合并为一个大一统模型 输入观测时既能预测下一个动作也能预测下一帧状态[9] - 未来应用包括:机器人管家、模拟火星环境中自主作业的工程车、在药物研发中推演蛋白质折叠与分子互作的"虚拟实验室"[10]
智能驾驶,没有中场战事只有无限战争
36氪· 2026-01-27 12:40
行业格局演变 - 2025年中国城市NOA市场经历深刻洗牌,形成以华为、元戎启行、Momenta为代表的“华元魔”三足鼎立格局,三者合计占据2025年1至10月国内第三方城区NOA市场99%的份额[2][7][8] - 市场集中度极高,2025年1-10月城区NOA搭载量(第三方市场)前三名分别为Momenta(54%)、元戎启行(23%)和华为HI(22%)[2] - 部分玩家如毫末智行、大卓智能等退场,行业淘汰赛已结束,新一场围绕“百万量产”的竞争已拉开序幕[2][6] 市场渗透与规模预测 - 2025年城区NOA渗透率预计突破10%的关键门槛,行业测算2026年渗透率有望直接上探至22%[6] - 市场规模正朝百万台量级冲刺,据测算2026年中国具备高阶智驾能力的车型年出货量有望达到500万台量级[6][14] 头部公司市场表现与策略 - **元戎启行**:作为“黑马”异军突起,其2025年10月单月城区NOA搭载量位居行业第一,从增长倍数看,其2025年10月装机量是1-10月月平均装机量的2.7倍,远超华为HI(1.6倍)和Momenta(1.0倍)[2][8] - 元戎启行采取与主流品牌走量车型深度合作的“爆款”策略,截至2025年末,其方案已搭载于超过15款量产车型,一年来累计交付规模超过20万台[8][9] - **华为HI**:凭借全栈自研、软硬一体生态及规模化落地节奏,是稳固的头部玩家,主要服务于阿维塔、岚图等中高端车型[8][9] - **Momenta**:依靠丰富的量产经验及国际影响力,与比亚迪、广汽、丰田、奔驰、宝马、奥迪、通用等众多车企达成合作,覆盖品牌范围最广[8][9] 技术路线与核心竞争力 - 决定性的竞争要素在于技术前瞻性与数据闭环效率,过度押注规则驱动技术路线的玩家因无法适应复杂场景而被淘汰[13] - “华元魔”三家率先引领技术路线,元戎启行是第三方供应商中最早量产VLA(视觉语言动作)技术路线的玩家[13] - 数据闭环的效率已成为比算法模型本身更核心的竞争力,百万辆级的量产规模意味着能建立庞大的数据回流网络,支撑长期研发与算法迭代[14] 融资与行业趋势 - 2025年自动驾驶赛道融资近600亿元,相较于2023年“寒冬期”大幅回暖,是2023年的近三倍,资金大多向头部与商业化明确的项目集中[14] - 行业未来将“强者恒强”,最终留在牌桌上的玩家需兼具技术纵深和工程能力,跨越规模与数据闭环门槛[15]
突发!理想基座模型一号位换帅、自驾产品负责人调整,詹锟接手基座模型
自动驾驶之心· 2026-01-15 10:55
理想汽车组织架构与战略调整 - 理想汽车进行人事与组织架构调整 资源进一步向具身智能集中 以VLA模型为统一底座推进研发整合 并通过组织调整打通智能驾驶与智能空间的模型协同 [2] - 自动驾驶高级算法专家詹锟将接手基座模型业务 向CTO汇报 不再向自动驾驶研发高级副总裁郎咸朋汇报 其负责的VLA部门划归入系统与计算群组 [2][9] - 原负责LLM方向的陈伟将于近期离职 交接正在进行 或将加入创业行列 [2][5] - 自动驾驶产品负责人由帅一帆负责 其此前负责空间机器人部门 此次变动是机器人和自动驾驶的联合调整 在更大的具身范式下统筹发展 [4][5] 关键人物与内部技术路线 - 詹锟于2016年从北航毕业 曾在百度Apollo负责预测算法 2021年加入理想后参与了三代核心技术栈的研发落地 是内部一路升任的高管 从无图/轻图NOA到端到端再到VLA 于2025年8月接手VLA核心业务 [4] - 理想汽车2025年公开论文主要有三条技术路线:世界模型用于生成和重建 做闭环仿真和云端数据生成;VLA/VLM主要针对Action优化 包括扩散模型轨迹优化、强化学习反思机制、长时程自驾Agent等;具身智能则关注在资源受限平台上部署LightVLA [8][12] - 詹锟在ICCV上分享了对自动驾驶发展的思考:从数据闭环到训练闭环 应是一个集基座模型、云端、车端为一体的新一代闭环体系 [8] 技术进展与行业趋势 - 理想内部近几个月针对VLA做了较大升级改动 对8.2版本信心很高 有试乘网友表示2026年春节理想自驾可以过个好年 [6] - 软硬一体已确定是2026年行业的一大趋势 [10] - 地平线HSD的成功是近期组织架构调整的部分原因 小鹏VLA2.0已在自研芯片上部署成功 Momenta的自研芯片也已实现交付上车 [8] - 理想汽车在2025年12月布局北美研发中心 [4]
何小鹏:未来最好的AI公司,都会自研芯片
36氪· 2026-01-12 15:10
公司战略与定位 - 小鹏汽车正从一家汽车公司向AI公司转型,其新车型最重要的技术更新是芯片和AI能力,而非硬件配置[4] - 公司认为未来十年汽车价值构成将发生根本变化,硬件价值占比将从超过90%缩减到50%,软件价值占比将从10%暴增到50%[4] - 公司坚定投入AI,认为AI的价值将远高于传统的性能升级,并强调“范式变化”与“强智能涌现”[8] - 公司认为未来全球最好的AI公司都会选择自己定制芯片,这决定了AI产品的性能上限[4][17] 产品与技术发布 - 2026年1月8日,小鹏发布了小鹏P7+、小鹏G7增程版、2026款小鹏G6、2026款小鹏G9四款新车[4] - 所有新车均搭载小鹏自研的图灵AI芯片,Ultra SE和Ultra版本车型搭载第二代VLA模型,能实现初阶L4辅助驾驶能力[4] - 图灵芯片配置:MAX版搭载一颗(750TOPS有效算力),Ultra SE版搭载两颗用于智能驾驶,Ultra顶配版搭载三颗(两颗用于智驾,一颗用于座舱大模型)[7] - 公司正在研发物理世界的基座模型,从底层基模、训练、算力、量化到部署均为全自研逻辑[12] 自动驾驶与AI技术路径 - 公司预判2026年中、美会直接从L2迈到L4,认为L3是难以真正实现和工程化落地的阶段[19] - 在AI范式下,全自动驾驶会更快到来,进入L4的时间可能会加速,甚至L5也已可以看到[18] - VLA 2.0模型将于2026年进入欧洲市场,并已开始路测[11] - 公司目标是将自动驾驶能力在2026年下半年带到全球市场[10] - 公司Robotaxi策略与特斯拉不完全一致,认为可能仍需要方向盘和刹车,并计划在中国启动后即进入全球市场,开放SDK[21][22] 市场与销售预期 - 公司2025年销量超过40万台,同比增长明显[10] - 2026年是公司的产品大年,将推出多款增程产品及4款全新SUV全球车[8][13] - 公司期待在未来3-10年里,海外市场的销量、合作和赋能能够与中国市场达到1:1甚至更高的比例[10] - 公司采用不同于批售模式的销售策略,2025年底没有库存,因此承受的压力相对较小[24] 全球化与渠道布局 - 2025年公司已进入60个国家和地区,2026年将继续进入更多国家和地区,并深耕本地研发和本地制造[10] - 公司在中国以外的工厂已有三个,2026年还会增加[9] - 针对中国渠道,公司将从原来的一二三线城市开始下沉,从东部、南部、中部更多地向西北、北部扩展[9] 行业观点与竞争格局 - 汽车行业正经历从硬件集成到软件与AI深度耦合的范式转变,软件能力在未来五年将与硬件规模优势深度结合[14][15] - 新能源汽车革命正在演化为AI革命的衍生,软件或AI的价值比例在不断提高[16] - 当全自动驾驶真正到来后,汽车将如同从功能手机到智能手机的差别,核心是需要有10%的主要用户认同此方向以影响剩余90%的待购用户[16] - 技术变革往往在线性发展放缓后突然“厚积薄发”,形成全新拐点[20] - 公司认为车企做L4、Robotaxi与纯软件公司的竞争是不同范式的竞争,目标是实现每年10倍的性能提升[22]
智驾行业杀入“曼哈顿时刻”
新浪财经· 2026-01-10 09:29
文章核心观点 2025年至2026年初,中国智能驾驶行业竞争格局高度透明,核心围绕“智驾平权”展开,即车企与智驾供应商联手将高阶智能驾驶功能下探至10万元级别主流市场,试图打破体验、成本与价格的“不可能三角”[1][5][8]。同时,行业技术路线从百花齐放走向收敛,端到端、VLA(视觉-语言-动作)与世界模型三大路线呈现融合趋势,研发进入追求极致优化的“苦日子”阶段[3][16][24]。展望2026年,行业在政策推动下正式进入L3级自动驾驶落地“元年”,并向L4及更广阔的具身智能机器人、商用车等生态领域扩展,竞争已进入淘汰赛阶段[4][29][30][33]。 市场与产品:价格下探与“降维作战” - **10万元级市场成为主战场**:自比亚迪将高阶智驾下放至6.98万元的海鸥车型后,奇瑞、宝骏、吉利、长安、零跑、埃安等车企相继推出10万元级别且搭载高阶智驾功能的车型,如奇瑞小蚂蚁(6.59万元)、宝骏云海、吉利银河A7等[1][6] - **智驾供应商全面跟进**:卓驭、地平线、华为乾崑、Momenta、黑芝麻智能、轻舟智航等智驾方案供应商均将10万级市场作为布局重点,例如地平线计划在售价最低7万元的车型实现城区辅助驾驶,华为乾崑计划将ADS 4能力下探至15万元以下市场[1][8] - **规模驱动与成本下降是核心动力**:13万元以下车型消费者规模占整个市场的50%以上,规模优势可推动盈利[9]。同时,智驾核心软硬件成本快速下降,例如地平线征程6系列芯片(算力560 TOPS)成本控制在2000元左右,Momenta自研芯片计划将城区方案压至5000元级别;激光雷达价格在2024年底普遍进入1000-1500元区间,较年初降幅超60%[11] 技术与研发:路线收敛与算法迭代 - **技术路线从争论走向融合**:2025年行业主要围绕端到端、VLA和世界模型三条技术路线竞争,但特斯拉在去年ICCV大会上展示了融合三种路线的方案,行业目标转向让自动驾驶功能更加好用,技术路线呈现收敛趋势[3][21][24] - **VLA架构成为“端到端2.0”代表**:为解决传统端到端架构“黑箱”和效率问题,理想、小鹏、元戎启行等公司推出了VLA架构,该架构将感知、决策、动作输出集成到一个完整的神经网络中,实现了高效和可解释性[16] - **世界模型阵营同步发展**:以华为乾崑为代表,其ADS 4系统采用了自研的WEWA架构,包含云端世界引擎和车端世界行为模型,形成了与VLA不同的技术路线[20] - **研发进入“苦日子”的优化阶段**:行业共识认为,未来三到五年AI基础理论难有全新突破,竞争焦点是在现有系统上做极致优化,研发进入挑战巨大的阶段[3][24] 政策与法规:L3级自动驾驶落地“元年” - **中国首批L3级准入许可颁发**:2025年12月,工业和信息化部首次给予北汽极狐阿尔法S6和长安深蓝SL03两款产品L3级有条件自动驾驶车型附条件准入许可,将在北京、重庆指定区域开展上路试点,标志着L3落地“元年”开启[4][25] - **试点条件严格但责任认定清晰**:试点道路限于高速和城市快速路,开启功能后最高时速被限定在50km/h或80km/h,且不允许变道。关键进步在于法规明确,在L3试点过程中发生事故,责任方将是车企[28] - **多家车企及供应商加速布局**:除获批企业外,小鹏、理想、比亚迪、广汽、华为乾崑、吉利等也已获得或在多地开展L3级道路测试,行业L3乃至L4的落地竞速赛正式打响[28][29] 生态扩展:向更高阶自动驾驶与广义移动领域进军 - **目标从L3延伸至L4**:以小鹏汽车为代表,部分车企计划从L2直接跨越到L4,推动全自动驾驶落地;卓驭、地平线、黑芝麻智能等智驾企业也纷纷提出推进L3/L4落地的目标[4][29] - **业务边界扩展至具身智能与商用车**:多家领先的智驾供应商基于其算法与数据经验,将业务扩展至机器人、无人物流车等更广义的移动物理领域。例如,卓驭启动重卡高速NOA项目并与头部商用车企合作;黑芝麻智能发布机器人计算平台;地平线的“地瓜机器人”产品已超100款[30][32][33] - **行业进入生态对抗与淘汰赛**:智驾行业已进入类似“曼哈顿计划”的淘汰赛阶段,比拼的是谁能不受干扰、集中资源更快地实现物理AI(包括高阶自动驾驶和机器人)的落地,时间成为最关键的竞争要素[3][33]
从小切口透视大行业 ——2025年汽车供应链变革“风暴眼”
中国汽车报网· 2026-01-06 10:18
文章核心观点 汽车产业的核心竞争力正从传统机械性能转向智能化、安全性与生态融合能力 细微零部件成为驱动产业变革的关键 文章通过梳理2025年八大零部件领域热词 呈现了这一深刻变化 [3] 大模型 - AI大模型持续升温 VLA模型、VLM与世界模型正深度协同 重塑智能汽车的感知、决策与交互体系 [3] - VLA模型成为通往高阶智能辅助驾驶的关键技术路径 是科技巨头和车企竞争焦点 理想汽车发布MindVLA架构计划2026年应用 元戎启行DeepRoute IO 2.0已量产上车 小鹏汽车VLA2.0计划明年一季度发布 奇瑞、吉利也披露引入计划 [4] - 世界模型直接从高维视觉信号理解三维空间几何与物理关系 预测环境变化 华为坚持走WA路线 其架构为WEWA 不追随VLA潮流 [4] - 大模型上车竞赛日趋激烈 但算力、数据等底层支撑体系的成熟度是深层挑战与分水岭 [4] 车网互动 - 车网互动成为2025年产业链炙手可热的概念 电动汽车可成为新型电力系统中的分布式储能单元和可调节负荷节点 [4] - 政策是关键推手 多部门密集出台支持政策 首批车网互动规模化应用试点名单涉及城市和项目共计39个 [5] - 《电动汽车充电设施服务能力"三年倍增"行动方案(2025-2027年)》提出 到2027年底 新增双向充放电设施超5000个 反向放电量超2000万千瓦时 [5] - 产业链核心企业积极行动 广汽集团在昊铂GT、HT、HL车型实现V2G功能 并计划对埃安车型全面推广 同时开发7kW~120kW的V2G桩 特来电推出"光-储-充-放-检"五位一体微电网解决方案 [6] 不起火、不爆炸 - 2025年3月 强制性国家标准《电动汽车用动力蓄电池安全要求》正式发布 将于2026年7月1日实施 标志着动力电池安全标准进入"史上最严"阶段 [6] - 新标准将热扩散测试要求从"起火前5分钟报警"升级为"不起火、不爆炸" 并新增底部撞击、快充循环后安全测试 [6] - 标准倒逼动力电池及上下游企业进行技术升级 加速行业技术迭代和优胜劣汰 [7] - 头部企业迅速跟进 比亚迪刀片电池和闪充刀片电池提前通过新国标全项检测 [7] 车门把手 - 车门把手已从传统功能件升级为融合智能感应、生物识别的核心交互零部件 但电动隐藏式车门把手存在碰撞后无法弹开、低温冰冻失效等安全隐患 [8] - 中保研碰撞测试显示 配备电子门把手的车型在侧面碰撞后 车门弹出成功率仅为67% 远低于机械门把手的98% [8] - 工信部对《汽车车门把手安全技术要求》强制性国家标准公开征求意见 要求即便电动隐藏式车门把手也必须保留可靠的机械应急开启方式 [8][9] 固态电池 - 2025年 固态电池在技术层面有关键突破 产业链加速成熟 奇瑞、东风等整车企业 国轩高科、欣旺达、亿纬锂能等动力电池企业纷纷发布新品或宣布建设计划 [10] - 固态电池在比能量、安全性、温度适应性等方面较传统液态电池具有革命性优势 [10] - 业内人士呼吁理性看待产业化进程 技术瓶颈、成本及市场接受度等问题尚未解决 [11] - 相关主管部门正酝酿出台新文件 拟将半固态电池统一更名为"固液电池" 以厘清技术边界 [11] 人车家 - "人车家"正在构建以人为中心的超级智能生态体系 打破汽车、家居、个人设备间的壁垒 [12] - 跨界合作成为主流趋势 海尔三翼鸟发布Uhome Car车家互联生态开放平台 与长安共同打造"人车家"全场景融合生态 [12] - 美的集团发布"全屋智能"战略 构建"人·车·家生态" 与鸿蒙智行、蔚来、广汽等汽车品牌的车家互联协议已打通 将联合生态伙伴共建开放平台 共享1.18亿设备数据与AI能力 [13] - "人车家"生态让汽车从出行工具升级为移动智能终端 形成"硬件+软件+服务"的全新商业模式 [13] 人形机器人 - 2025年被视为人形机器人的"量产元年" 特斯拉、小鹏等车企及零部件企业纷纷布局 汽车工业与机器人技术边界快速消融 [13] - 全球首条实现人形具身智能机器人规模化落地的新能源动力电池PACK生产线在宁德时代中州基地投入运行 机器人"小墨"由宁德时代生态企业研发 [14] - 人形机器人在感知、决策、运动控制等核心技术上与自动驾驶高度重合 汽车零部件企业凭借在精密制造、材料科学等方面的优势积极参与研发 [15] - 机器人赋能汽车行业面临对精度、稳定性的极致要求以及适应柔性制造等挑战 [14] 零重力座椅 - 零重力座椅凭借对乘坐体验的革命性提升 成为2025年备受瞩目的配置焦点 是中高端车型的标配零部件 [16] - 座椅设计灵感源于航天科技 能有效分散脊椎压力 减少肌肉疲劳 部分产品还融合通风加热、气袋按摩、智能体压调节等技术 [16] - 未来 零重力座椅将加速下探至售价10万元左右的车型 成为汽车舒适配置的新标配 [16] - 该座椅特殊的倾斜姿态尚缺乏统一的国家强制性标准 存在监管空白 且需确保在行驶或碰撞时能与安全系统协同保障乘员安全 [16]