Workflow
VLA
icon
搜索文档
对话李飞飞“00后”门徒陈源培:放弃华为“天才少年”百万年薪,创业对标马斯克破解机器人世界级难题
搜狐财经· 2026-01-05 11:33
公司概况与创始人背景 - 灵初智能是一家专注于具身智能领域,特别是灵巧手核心技术的初创公司,由00后创业者陈源培联合创立 [6] - 公司团队被誉为“科学家密度最高”的具身智能创企,并拥有“学术大牛+产业老兵”的跨代团队优势 [6] - 公司于2024年成立即获得高瓴创投、蓝驰创投领投的天使轮融资,并跻身英伟达初创加速计划,与智元机器人达成深度合作 [6] 技术路线与核心优势 - 公司坚定押注真实数据,认为无论是合成数据还是仿真数据,都会在数据迁移到机器人时出现“具身差距”问题,无法真正适配真实场景的复杂需求 [4][19] - 公司通过自研的Psi-SynEngine方案,将真实数据采集成本降至马斯克团队的1/10,破解了行业数据瓶颈 [4][6][20] - 公司计划在2026年构建百万小时级别的全球最大灵巧手操作数据集,并以此训练具身智能基础模型,旨在打造该领域的“ChatGPT” [6][21] - 在技术架构上,公司认为视觉语言动作模型现阶段效果最好,但未必是终局,未来三五年有足够数据后才能验证出更强架构 [3][21] 产品定位与行业认知 - 公司选择聚焦灵巧手,认为手部是通用机器人的“终极接口” [16] - 评判灵巧手的首要标准是“落地好用”,高精度和视触觉融合是下一代竞争关键,但存在增加自由度损失稳定性、增加精度损失动态响应的技术悖论 [18] - 灵巧手的核心挑战在于与未知物体的交互,需要整合视觉、触觉、力觉信息进行判断、决策和实时调整,而非简单的预设动作复现 [17] 行业发展与竞争格局 - 行业存在“过热”迹象,新兴行业初期共识分散,后期趋同扎堆,出现泡沫是发展必然 [22] - 未来3年,行业格局将是“赢家通吃”,软硬件技术路线会收敛,率先拥有大规模数据并占据生态位的玩家将更具优势 [23] - 机器人ToC家庭场景的规模化落地预计至少还需要10年时间 [24] 中美产业对比 - 中美在具身智能领域的发展差异源于国情:美国主攻模型突破,中国强在制造与应用 [25] - 中美模型差距没那么大,国内能追上,但中国的供应链和应用场景优势,美国短期难以赶超 [5][25] - 机器人赛道比拼的是场景与软硬件的耦合,中国在这方面优势非常大 [25]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-31 08:31
行业整体动态 - 自动驾驶行业在整体下沉的关键节点竞争激烈 卷技术 卷成本 卷效率 [1] - 行业人才流动显著 上半年及当前有大量自动驾驶领域人才转行至具身智能 无人机等行业 L4/具身/无人机行业正在大批量招人 [1] - 自动驾驶作为相对成熟的AI领域 其算法人才非常受欢迎 头部企业如大疆 宇树 智元 哈啰等提供的薪资很到位 [1] - 自动驾驶从业者因具备使用大集群 解决各种复杂场景问题以及上下游协同能力强等经验 在其他相关行业备受青睐 [2] 公司业务发展 - 公司业务在年内进行了拓展 扩充了许多B端客户 并开始尝试从线上走向线下 [1] - 公司在C端的内容策略正从普适性内容逐渐转向专业化和精细化 [1] 技术发展趋势 - 自动驾驶头部技术收敛到几个大方向 包括一段式端到端 VLA 世界模型 强化学习 [3] - 行业中游厂商仍在攻坚OCC 无图技术 多传感器融合感知等领域 [3] - 相关技术公司计划在明年开放大量职位 [3] 行业社区与信息 - 自动驾驶之心付费社区的成员在年内正式突破4000人 [3] - 该社区提供技术路线发展 各类圆桌讨论 研报 职位信息等内容 [3]
万字长文,VLA的架构和模型还有什么痛点?
具身智能之心· 2025-12-30 09:11
文章核心观点 本次圆桌讨论聚焦于具身智能领域的视觉-语言-动作模型,与会专家普遍认为当前VLA的总体架构已趋于标准化和模块化,但模型的泛化能力与落地应用之间仍存在显著差距。未来发展的关键驱动力将来自数据、3D表征学习、强化学习与模仿学习的结合,以及感知与控制模块的逐步统一。 VLA的架构与模型现状 - 当前VLA的总体架构已相对收敛,形成了一种标准范式,即以视觉语言模型为基座,嫁接一个动作输出模块 [14][16] - 尽管架构趋同,但核心差异并非架构本身,而在于数据驱动 [14] - 当前从业者的工作多是在此标准框架下进行“小修小补”,例如引入触觉、记忆等新模块 [15] - 从实际表现看,VLA已能学习叠衣服等长程复杂任务,比去年进步明显,但其泛化性能尚不足以支撑落地 [16] VLA当前痛点与挑战 - 模型将VLM的2D图像与文本特征强行映射到3D动作空间,导致泛化性损失 [17] - VLA的硬件和数据可能成为限制,使精细化操作难以实现 [13] - 当前开源的VLA架构同质化严重,但尚不能确定这就是最佳架构,未来可能有更好的架构出现 [18] - VLM基座模型对3D物理世界的理解非常不充分,缺乏精准的空间grounding能力 [49] VLA未来可能的发展方向 - **3D表征学习**:让特征从2D更好地迁移到3D,利用3D预训练模型提升泛化性和性能 [17][43] - **训练范式创新**:结合强化学习与模仿学习 [43][45]。模仿学习效率高,可完成80%到90%的任务,而强化学习能处理失败数据并激发更高智能 [46] - **与世界模型结合**:使模型具备预判和脑补未来的能力,而不仅是基于当前时刻预测动作序列 [50] - **模块化与系统整合**:VLA作为提供先验知识的基座,需要与世界模型、RL等多种技术点在系统中协同安排,共同解决问题 [48][50] 感知与控制的统一路线 - 从长远目标看,感知与控制最终会趋向统一,形成一个“大一统”的端到端模型 [22][27][35] - 但在实现路径上,由于有大量迫切的现实问题需要解决,目前仍需分模块研发,例如导航场景仍需高精度的专用感知模型 [23][27] - 通过先进行模块化的端到端探索,积累各子领域的经验,才能最终迈向统一 [24][27] - 即使在实现大一统模型后,为建立安全互信和提供策略兜底,保留部分模块化输出(如OCC)仍有必要 [36] 自动驾驶经验对具身智能的借鉴 - 自动驾驶被视为具身智能的一个特殊场景,其完整的技术发展脉络(从模块化到端到端)对具身领域有重要参考价值 [34] - 自动驾驶领域将感知与控制结合后,解决了拟人化和处理复杂长尾案例的难题,这同样适用于具身智能 [34] - 具身智能可以直接对标自动驾驶的最新技术,但因其要求完全自动化,对规则和可解释性的需求可能比自动驾驶更严格 [38] 强化学习在新时代的角色 - 大模型的出现为强化学习提供了强大的起点,使其能够利用大规模算力,进入新的发展阶段 [31] - 强化学习作为一种工具,其算法并未收敛,需要针对不同任务(如数字空间推理与物理空间学习)开发不同的高效方法 [30] - 在具身智能产品化或追求AGI的路径上,不能只专注于强化学习,而需要更全面的知识面,整合模仿学习、VLA基座等多种范式 [46]
为什么π系列对行业产生了这么大的影响?
具身智能之心· 2025-12-29 08:04
π系列VLA模型的技术演进与行业影响 - π系列被视为视觉语言动作(VLA)领域的里程碑,其通过持续技术突破引领生成式AI时代的机器人学习范式,重塑了行业应用逻辑 [2] - 2024年10月发布的π0首创Flow Matching连续动作轨迹预测,突破传统离散动作精度瓶颈,为精密制造、自动驾驶等场景提供毫米级操作基础 [3] - 2025年4月发布的π0.5通过异构任务协同训练与层次化推理,在陌生环境复杂任务泛化成功率高达94%,利用人类视频训练使数据成本降低90%,大幅提升了跨本体适应性并降低了机器人规模化部署门槛 [3] - 2025年11月发布的π0.6通过RECAP强化学习赋能零样本泛化与高效微调,在真实世界中的效率与精度超越人类,实现了工业级高任务完成率与数十分钟快速换型,推动了柔性生产落地 [3] - 其模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用,成为2025年以来业界众多VLA模型的核心参考 [3] - 不少公司基于π系列搭建自己的真机演示,或基于其思路进行改进优化,该系列的新工作发布总能引起行业反响 [3] 行业学习与应用的挑战 - 尽管π系列先进,但存在模型不易调试、难以达到预期效果的问题,导致许多从业者将大量时间“浪费”在踩坑上 [4] - 对于初学者而言,想要基于π系列完成从数据、VLA模型训练优化到部署的一整套任务非常困难,有的甚至踩坑半年仍无法真正入门或取得较好效果 [5] - 行业中存在对缺乏真机、缺乏项目指导的普遍需求 [7] 具身智能之心的VLA实战课程解决方案 - 为解决上述挑战,具身智能之心平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》 [8] - 该课程手把手带领学员复现π0系列等方法,旨在解决缺乏真机和项目指导的问题 [7][8] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解等 [13] - 课程被描述为目前该平台最大、最完全的一门课程,采用软硬结合的方式助力有效学习 [14] - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂) [16] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,聚焦产学研协同落地,并在顶级期刊发表学术论文10余篇 [19] 课程目标人群与收获 - 课程面向正在具身领域求职需要实战项目的同学、VLA领域需要进阶的同学、从事具身智能研究的各学历层次学生、希望从传统领域转行进入具身的同学,以及对领域感兴趣的其他人员 [24] - 课程要求学员具备一定的Python和PyTorch基础,推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡或可自租云服务器资源 [24] - 学员学后预期能掌握真机调试与数据采集、各类VLA算法在真机上的部署,并对VLA模型量化及具身产业落地有清晰认识 [24] - 完成课程后,学员简历上将有足够多的项目支撑,学完可达到具备1-2年以上经验的算法工程师水平 [24] 课程安排与信息 - 课程于2025年12月30日正式开课,后续章节将持续至2026年2月25日 [27] - 课程购买后不支持退款,有效期为2年,并提供微信VIP群内答疑服务 [25]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-28 11:30
行业整体动态与竞争格局 - 自动驾驶行业在整体市场下沉的关键节点竞争激烈 各公司卷技术 卷成本 卷效率 [1] - 行业公司业务模式呈现多元化发展 例如从线上服务拓展至线下 从服务C端用户转向同时拓展B端客户 [1] - 面向消费者的服务内容正从普适性内容向专业化 精细化方向演进 [1] 人才市场与流动趋势 - 自动驾驶算法人才在就业市场非常受欢迎 大量人才从自动驾驶领域流向具身智能 无人机等新兴行业 [1] - 多家头部企业为自动驾驶算法人才提供具有竞争力的薪资 例如大疆 宇树 智元 哈啰等公司 [1] - 自动驾驶领域从业者因具备使用大规模计算集群 解决各种极端案例以及强大的上下游协同能力而备受其他行业青睐 [2] - 预计明年自动驾驶行业中游厂商将释放大量职位 [3] 核心技术发展方向 - 行业头部技术收敛于几个明确方向 包括一段式端到端模型 视觉语言动作模型 世界模型以及强化学习 [3] - 行业中游厂商当前技术攻坚重点集中在占用网络 无图化技术以及多传感器融合感知等领域 [3] 行业生态与信息平台 - 自动驾驶之心付费社区成员数量已正式突破4000人 该平台提供技术路线发展 行业圆桌讨论 研究报告及职位信息等内容 [3]
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]
冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心· 2025-12-26 17:18
文章核心观点 - 文章对当前视觉语言动作模型的研究现状进行了批判性分析,认为许多研究在任务设置、环境复杂性和方法透明度上存在显著不足,但同时也肯定了其潜在价值并提出了改进方向[1][8] - 文章认为纯粹的端到端训练方法难以实现真正的通用人工智能,而更倾向于采用结构清晰、训练量小的显式思维链方法[5][8] - 文章指出,在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过感知误差不断修正行为的方式[4] VLA模型的当前局限与批评 - 任务设置过于简单,主要集中在“抓-放”类操作,缺乏复杂任务挑战[6] - 实验环境高度简化,多为纯色背景、仅放置1-2个物体、无遮挡且大部分是2D平面任务[6] - 模型训练本质上是数据量巨大的“升级版行为克隆”,系统呈现黑盒特性,难以解释模型的实际能力[6] - 部分研究存在实验内容与态度问题,被评价为“劣币驱逐良币”[8] VLA模型的潜在优势与改进思路 - VLA模型并非完全黑盒,例如NVIDIA的CoT-VLA工作展示了可拆分为三层的思维链,其思考模式与人类相似[1] - 真正的挑战在于让模型学会泛化,关键在于设计好子目标嵌入以保证其在遮挡、复杂背景及3D空间中的表现[2][3] - 有效的子目标嵌入应具备语义性、上下文相关性、能指明目标大致区域,并通过融合MLP保证可微性[7] - 在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过视觉观测感知误差并修正动作以逼近目标的行为方式,无需每一步都遵循完美路线[4] 实现通用AGI的路径探讨 - 纯粹的端到端训练难以产生真正的通用人工智能,AGI需要的是少量样本学习及依靠推理逻辑处理新任务的能力,而非依赖海量数据的“死记硬背”[5] - 倾向于采用显式的VLA思维链方法:由大模型负责拆解任务,动作头根据子目标进行训练与执行,该方法训练量小、结构清晰,便于资源有限的研究者实施[8] - 只要任务拆解得足够细致和准确,无论后续采用基于模型还是基于学习的策略,效果都会不错[8] VLA模型的典型工作流程 - 大语言模型将语言指令拆解为子任务[6] - 视觉语言模型根据当前图像和子任务生成子目标嵌入[6] - 策略模型根据子目标嵌入和当前感知输出动作[6]
小米陈光:我们不想制造技术焦虑了
21世纪经济报道· 2025-12-25 16:24
行业技术路线争鸣 - 2025年智能驾驶行业出现“名词过载”现象,分化出VLA、VA、WA等多个技术派别,争鸣不断 [2] - 理想汽车与供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [2] - 华为与小鹏是VLA的反对派,选择WA路线,尝试去掉Language环节 [2] - 小米汽车认为VA、WA、VLA本质目标一致,都是追求在有限算力下使模型的智能密度最大 [3][8] 小米汽车技术路径与进展 - 小米汽车坚定选择并深耕端到端技术路线,同时内部对VLA、WA、VA等所有主流路线均有预研团队 [3][4] - 小米端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [3] - 但小米追赶迅速,在2025年2月向用户全量推送300万Clips的端到端,7月推送1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版,实现了“一年追三代” [3][6] - Xiaomi HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性和推断复杂场景因果的能力,标志着进入认知驱动阶段 [3][9] - 小米智能驾驶团队规模已超过1800人,自2021年3月官宣造车后快速组建,第一年即组建500人团队,速度远超同期友商 [5][6][12] - 公司计划在2025年内完成Xiaomi HAD增强版的量产任务 [6] 技术理念:认知驱动与用户体验 - 行业共识是从单纯的数据驱动走向认知驱动阶段,以解决数据驱动无法覆盖所有长尾场景、难以平衡数据分布的问题 [9] - 简单的端到端模仿学习属于数据驱动,而引入强化学习、世界模型或VLA则属于认知驱动,其特点是让模型知道行为原因并进行自主探索与推理 [9] - 小米认为技术是否先进不代表体验一定更好,最终判断标准是能否被用户感知、信任和长期使用 [5][10] - 用户体验是最终落脚点,用户体验不好,用户会归咎于公司而非技术 [5][10] - 在有限硬件条件下训练出智能密度最大的模型是各家的努力方向,不应过分内卷算力 [14][15] 研发策略与基建能力 - 小米研发策略并非“一刀切”,新技术的引入需要循序渐进,并注重寻找最适合自身的技术方案 [5][9] - 强大的以数据为核心的研发基建是小米快速追赶的关键,其优势在于高效的研发架构、数据闭环和自动化流程 [17][18][19][20] - 基建能力强的体现包括:快速从已有数据中挖掘并标注问题、模型训练速度快、评测自动化程度高 [20] - 小米作为科技企业,其云端基建能力可在不同业务间相互借鉴和快速复用,这是其天然优势 [6][21][22] - 截至2025年第三季度,小米年度研发总投入已达235亿元,其中四分之一资金用于AI研发 [6] 仿真技术的应用与价值 - 在世界模型中应用强化学习面临两大难题:世界模型的保真度、并行探索的算力分配效率 [4][33] - 小米在应用强化学习和世界模型构建仿真环境方面比一般友商更为坚决 [32] - 高质量的仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力 [34][35] - 仿真数据主要用于解决实车难以遇到或危险的长尾场景,其生成质量很高 [35][36][42] - 在测试体系中,仿真测试里程要求至少是实车测试里程的100倍 [37][40] - 在模型训练数据中,仿真数据占比约为20%,真实数据占80% [41] - 这20%的仿真数据价值很高,能解决实车难以采集的场景,预计可减少数倍的人力成本 [41][42]
专访地平线副总裁吕鹏:做不好端到端就做不好VLA
21世纪经济报道· 2025-12-23 08:45
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,这一广阔的蓝海市场正吸引着地平线、Momenta等智驾厂商加速布局 [1][13] - 地平线于今年4月正式推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5和深蓝L06上市实现量产,两款车型上市短短两周后,HSD激活量便突破12000辆 [1][13] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:拓展生态合作模式,新增算法服务模式“HSD Together”,并与日本电装、大众合资公司CARIZON、HCT达成合作;引入更多生态合作伙伴,如元戎启行、卓驭等 [1][13] - 缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企正纷纷向地平线聚拢,公司目标是让城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3—5年内达成千万级量产规模 [2][14] 技术路线与研发投入 - 地平线敢于制定千万级量产目标的底气源于其在智驾端到端方案上的长期坚守与深耕,公司自2024年底便集中力量主攻端到端技术,90%的研发人力均投入到该方案的研发与量产落地工作中 [2][14] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需要建立在非常完整的端到端底座之上,没有扎实的端到端基座,高阶智驾就是空中楼阁 [2][9][10][14][21][22] - 地平线是目前行业内少数坚定选择端到端路线的厂商,其最早的端到端架构uni AD曾获得CVPR最佳论文,核心底气来自过去丰富的技术积累 [2][14][15] 技术方案详解 - 地平线HSD的端到端版本最核心的技术亮点是“光子进,轨迹出”,公司是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业 [4][16] - 所谓两段式端到端,并非一个模型,而是感知模型加规控模型,信息传递存在丢失;而一段式端到端可实现高维特征的无损传递,信息量更高,驾驶体验更接近人类直觉 [6][17] - 两段式端到端存在的原因是一段式方案若不够完善,输出轨迹会有缺陷导致无法控车,开发者会退而求其次增加后处理规则进行修正,但这些规则会限制模型上限并带来驾驶动作的割裂感 [7][18] - 分辨一段式与两段式端到端,对于从业者主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤进行,消费者最直观的体验是是否愿意在城市中安心使用该系统 [8][19] 竞争观点与未来展望 - 对于智驾技术路线之争,地平线认为WA或VLA都是基于端到端,语言(language)等模态应作为辅助项,而非开发核心,模型构建应模拟人类开车状态,即95%以上时间依赖直觉模型,仅在极度复杂场景下加入理解与推理 [9][21] - 未来更智能的端到端方案中,仿真闭环是关键核心技术,因为稀疏场景需要通过仿真生成数据验证,随着端到端成熟,遇到问题的场景会越来越稀疏 [10][22] - 公司认为未来最理想的智驾方案是在端到端直觉模型解决95%甚至99%场景的基础上,为剩余需要认知推理的场景叠加思维链理解能力,但一切前提是端到端直觉模型必须足够好 [10][22] - 作为智驾供应商,接下来的竞争核心应聚焦产品体验、安全性和市场认可度,而非追逐新名词和新概念,技术上公司会做好预研和储备 [11][22] - 地平线强调,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为端到端是VLA得以实现的基础 [12][24]
地平线吕鹏:端到端是基石,做不好端到端就做不好VLA
21世纪经济报道· 2025-12-22 21:23
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,市场空间广阔[1] - 地平线于2024年4月推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5上市实现量产,同期搭载的深蓝L06也发售,两款车型上市两周后HSD激活量突破12000辆[1] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:新增算法服务模式"HSD Together",并与日本电装、大众的合资公司CARIZON、HCT达成合作;引入元戎启行、卓驭等更多生态合作伙伴[2] - 公司目标是将城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3-5年内达成千万级量产规模[2] 技术路线与研发投入 - 地平线坚信端到端技术是基石,自2024年底便集中90%的研发人力投入到端到端方案的研发与量产落地工作中[2] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需建立在完整的端到端底座之上,若端到端做得不够坚固,则难以引入新模态解决问题[3] - 端到端被类比为人的直觉模型,若直觉模型不完善,仅靠思考推理难以解决复杂场景,甚至可能带来新问题[3] - 公司技术逻辑的核心在于软硬结合,通过更好的硬件支撑大算力,并借助软硬协同优化释放更多性能,最终在消费者体验端带来收益[4] 端到端技术详解 - 地平线是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业[4] - 一段式端到端可简单描述为“光子进,轨迹出”,其模型内部进行高维特征的无损传递,信息量更高[4][5] - 两段式端到端并非一个模型,而是感知模型加规控模型的组合,信息传递存在丢失,因为规控模型是依靠感知白名单的检测结果进行训练的[5] - 一段式端到端若做得不完善,输出轨迹会有缺陷导致无法控车,行业退而求其次增加后处理规则进行修正,但这些规则会限制模型上限,导致横纵向操作有割裂感[5] - 对于从业者,分辨一段式与两段式主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤执行[6] - 在一段式端到端中,无法精确设定规定车速,模型只能接收期望车速并朝其逼近,但不一定完全达到[6] 行业竞争与未来展望 - 行业内存在不同技术路线,如理想、元戎启行选择VLA,华为和小鹏选择WA或VA模型,但地平线认为它们都基于端到端[7] - 公司认为模型不应以语言为核心进行开发,而应将其作为辅助项,结合端到端基座,这符合人类开车时95%以上时间依赖直觉、仅在极复杂场景加入思考推理的状态[7] - 随着端到端技术成熟,遇到问题的场景会越来越稀疏,仿真闭环对于生成稀疏场景的模拟和验证变得关键[8] - 未来理想的智驾方案是在直觉模型(解决95%甚至99%场景)足够强的基础上,为剩余需要认知推理的场景增加思维链理解能力[9] - 公司认为竞争核心应回归产品体验、安全性及市场认可度,技术上会做好预研和储备[9] - 公司明确表示,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为后者是前者的基础[10]