端到端架构
搜索文档
轻舟智航联合创始人、董事长兼CEO于骞:2026年开启无人驾驶黄金10年,10万元级车将普及城市NOA
搜狐财经· 2026-01-29 20:57
行业趋势与拐点 - 2026年被视作无人驾驶黄金10年的开启之年,技术演进正驱动行业跨越拐点 [1] - 端到端架构成为行业共识,VLA模型和世界模型的引入将使自动驾驶系统通过海量数据学习,最终实现超10倍于人类司机的安全水平 [1] - 2026年,10万元级国民车将普遍搭载城市NOA功能,而两年前该体验连许多L4级自动驾驶车辆都未必能达到 [1] - 市场正进入关键拐点,10万元级车型的城市NOA将在2026年迎来大规模上车,市场主力始终是15万元及以下车型,其销量占比预计超一半 [4] - 2025年前三季度,中国具备L2级辅助驾驶的乘用车新车销量同比增长21.2%,渗透率达64% [4] - 2025年1~11月,中国搭载城市NOA功能的乘用车累计销量达312.9万辆,占乘用车上险量的15.1% [4] - 在起售价30万元以下的主流乘用车中,搭载城市NOA功能的车型销量占比超68.9% [4] 技术路径与竞争格局 - 辅助驾驶行业技术底座经历了多次范式迁移,从“激光雷达+高精地图”到“BEV+Transformer”摆脱高精地图,再到“端到端”将辅助驾驶带入AI时代 [7] - 行业在辅助驾驶发展方向上出现了VLA与世界模型的“分歧”,但演进方向已形成明确共识 [7] - 真正的差异化不在于技术概念本身,而在于谁能将其转化为用户可感知的实际价值 [7] - 全行业正快速迈向“端到端”架构,但具体实现效果,尤其在资源效率与体验优化方面将拉开巨大差距 [7] - 用户不会为“VLA”等技术名词买单,在技术路径趋同的背景下,将技术高效转化为稳定、优质的用户体验才是建立真正“护城河”的关键 [7] - 基于工程实践,纯视觉方案已能实现非常好的城市NOA与高速NOA体验,激光雷达更像一个“安全插件”,能在更高级、更复杂的安全场景中提供额外保障 [8] - 智能汽车行业的竞争维度是多元的,包含产业链上下游的竞争与协作,预判2026年行业格局将更趋近于“一超多强” [8] 市场应用与商业化 - 对于智能驾驶新周期的趋势预测包括:城市NOA接管率将至“月”级别,自动驾驶专属保费低于人类驾驶保费50%以上 [1] - 智驾已成为新车标配,呈现两大趋势:车企积极布局L2级以上更高级自动驾驶技术;“智驾平权”加速推进,搭载L2级辅助驾驶功能的车型售价已降至10万元区间 [4] - 百万辆级的搭载量是智能化NOA市场的关键分水岭,目前行业内能够跨过这一门槛的供应商极少 [6] - 成功的产品必须深度理解并贴合当地用户的真实场景与需求,中国的道路环境复杂,且在合规与数据安全等方面有明确要求 [8] 公司(轻舟智航)进展与战略 - 公司联合创始人于骞表示,从2026年开始,公司的业务增长将显著提速 [5] - 截至2026年1月,公司辅助驾驶系统累计搭载量已突破100万台 [5] - 公司的百万台搭载量全部支持NOA功能,已经构成了“强大的数据闭环能力”,这是海量的数据触点,更是实现对真实物理环境广泛覆盖,从而持续驱动系统进化的关键基础 [6] - 公司基于地平线单征程6M芯片的城市NOA方案已实现量产上车,首发搭载于配备AD Pro的理想L系列智能焕新版车型 [5] - 公司方案的优势在于广泛的适配性,全面覆盖新能源汽车(包括纯电、插混、增程),也同样适用于传统燃油车 [4] - 这一兼容性策略为其全球化布局提供了优势,在海外市场,新能源汽车渗透率爬升速度不及中国,但油车基盘庞大,公司能在油车上实现智驾体验对拓展海外市场至关重要 [4][5] - 面对特斯拉FSD或最快于2026年2月入华的消息,公司持开放态度,认为这不仅是竞争,更是在共同做大市场“蛋糕”,并首先向特斯拉致敬,称其在智能化领域做到了行业标杆水平 [3][8]
AI Day直播 | 如何解决特斯拉提出的端到端三大挑战?
自动驾驶之心· 2025-12-29 09:07
特斯拉端到端自动驾驶架构的核心挑战 - 特斯拉在ICCV2025分享中提出了自动驾驶面临的三大核心挑战:维度灾难、可解释性和安全保证、闭环评测 [3][6] - 行业围绕这三大难题探讨了多种可能的解决方法 [3] 相关学术研究进展 - 研究提出了UniLION模型,旨在构建统一的自动驾驶模型,采用线性组RNN [3] - 研究提出了DrivePI模型,这是一个空间感知的4D MLLM,用于统一的自动驾驶理解、感知、预测和规划 [3] - 研究提出了GenieDrive模型,致力于构建具有4D占据引导视频生成能力的物理感知驾驶世界模型 [3] 技术分享与行业探讨内容 - 分享将详解特斯拉端到端技术路线的变迁以及FSD V14的具体内容 [6][13] - 分享将针对端到端架构的三大挑战,详细解析UniLION、DrivePI、GenieDrive等解决方案 [6][13] - 分享将探讨能够理解并与物理世界互动的通用人工智能的形态 [6][13] - 行业内部存在学术与量产的分歧,以及技术路线的持续较量 [14] - 行业正在深入探讨谁在定义自动驾驶下一代方案,例如VLA与WA的对比 [14] 行业活动与知识获取 - 通过直播和知识星球“自动驾驶之心”可获取更深入的自动驾驶技术内容,包括学习路线、技术细节、QA及未公开内容 [1][2][14] - 行业举办“硬核夜话”活动,与一线量产专家深入探讨自驾数据闭环工程 [15]
端到端下半场,如何做好高保真虚拟数据集的构建与感知?
自动驾驶之心· 2025-12-26 11:32
文章核心观点 - 自动驾驶行业正从传统模块化架构向“端到端”架构演进,而高质量、大规模的数据是决定模型上限的关键[2] - 现实路测数据在成本、安全、长尾场景覆盖等方面存在局限,高保真虚拟仿真数据成为解决数据瓶颈、支撑高阶模型训练不可或缺的一环[2][5] - 康谋科技通过其高保真仿真平台aiSim、自动化工具链aiSim2nuScenes以及开源的SimData虚拟数据集,提供了一套从数据生成到算法验证的完整解决方案,旨在以低成本、高效率的方式生成海量高质量数据,加速自动驾驶算法研发[3][5][11][29] SimData数据集概述 - 数据集规模庞大,包含15张高精度地图、45个独立场景、215,472个关键帧样本数据以及超过64,000个目标实例标注[6][7] - 场景覆盖多样,重点建模了高速公路、城市峡谷和立体停车场三大核心ODD,并针对施工区、高速匝道汇入、无保护路口等真实路测难以捕捉的场景进行了重点建模[7] - 通过人为干预优化了类别均衡性,在保证基础类别密度的同时,增加了拖车、路障、交通锥、面包车等稀缺类别的样本比例,以提升模型对异形障碍物的检出能力[7] - 数据集已正式开源,提供完整版和mini版供获取[11] 自动化工具链:aiSim2nuScenes - 该工具链是一套端到端的合成数据生产与闭环评测体系,实现了从高保真数据合成、标准化格式迁移到自动化闭环测评的全流程无缝串联[11][12] - 工具链实现了对行业标准nuScenes-devkit的原生级支持,提供脚本批处理与图形化界面双模式,能自动将aiSim原始数据转换为nuScenes标准格式,降低工程迁移成本[13] - 在数据生成阶段,通过确定性的仿真时钟保证了多模态传感器(6路环视相机、1个LiDAR、5个Radar)数据的微秒级严格时空同步,满足BEV算法的严苛要求[13] - 工具链自动化程度高,能自动完成视觉数据格式转换与抽帧、点云数据格式清洗,并自动生成所有必要的元数据文件,实现了“生成即真值”,消除了人工标注误差[15] 算法实证:性能跨越与鲁棒性验证 - 在纯虚拟数据集上训练的BEVFormer-tiny模型在30个Epoch内迅速收敛,最终mAP达到0.446,NDS达到0.428,证明aiSim生成的数据具备良构性,能被深度神经网络有效拟合[18][19] - 虚实一致性分析表明,SimData训练的模型与nuScenes官方预训练模型在检测精度上呈现显著正相关,且注意力热力图高度重合,证明了虚拟数据的高保真度与特征同源性[20][22] - 迁移学习实验证明,“真实数据预训练 + 虚拟数据微调”的策略在绝大多数类别上实现了性能的全面超越,尤其在行人、拖车、路障等长尾类别上检测精度显著提升[23][26] - 实验结论表明,高质量的虚拟数据并非真实数据的简单替代,而是其完美互补,“真实先验 + 仿真多样性”的组合能有效抑制过拟合,显著提升模型的泛化能力与鲁棒性[23][26] 高保真仿真技术的核心价值 - aiSim仿真器基于自研渲染引擎,采用融合式渲染架构,在复杂光照及雨、雾、雪等极端环境下仍可保持像素级物理一致性,为感知模型提供高置信度输入[27][29] - aiSim实现了从像素级到信号级的确定性建模,对相机、激光雷达、毫米波雷达的成像噪声、光束发散、多径效应等物理机理进行建模,使生成数据在统计特性上高度接近真实传感器输出[27] - 高保真仿真技术能大幅降低数据采集与标注的边际成本,规避极端工况测试的道德与安全风险,并通过“虚实结合”的训练策略,显著提升感知模型在复杂现实世界中的表现[29] - 随着端到端大模型与世界模型的兴起,对高质量合成数据的需求将呈指数级增长,高保真虚拟世界正成为连接算法与物理现实的桥梁,加速自动驾驶从有限场景迈向全域通达[29]
特斯拉已不是智驾行业“标准答案”
36氪· 2025-10-31 08:25
技术架构演进 - 特斯拉在计算机视觉顶会ICCV上分享了其端到端智能辅助驾驶架构的最新进展[1] - 端到端架构旨在减少从感知输入到控制输出的信息损失,输入端信息维度相当于20亿token,而输出端仅约2个token,面临极高维到极低维映射的挑战[5] - 为解决端到端模型的"黑箱"问题和训练数据瓶颈,特斯拉在输出决策前引入了OCC占用网络、3D高斯特征等视觉信息以及思维链自然语言信息[3][7][8] - 公司建立了名为"神经世界模拟器"的闭环仿真系统,用于训练算法、验证正确性及生成难例数据[3][11][12] 行业竞争格局 - 特斯拉的技术路线已与理想、小鹏、华为、地平线等中国公司趋同,均涉及VLA模型和世界模型的探索[3][15] - 国内主流玩家如理想、小鹏、华为乾崑等已布局云端世界模型,部分还在车端部署世界模型,形成端到端、VLA和世界模型三种技术路线[15] - 特斯拉此次技术分享的热度相比之前的AI Day显著降低,反映出行业对其关注度下降[18] - 小鹏汽车CEO何小鹏表示,国内有实力的AI玩家已不再关注马斯克的动向[4] 自动驾驶业务现状 - 特斯拉最新财报显示,其全自动驾驶软件FSD的订阅比例仅约12%[4][23] - 公司已将FSD在美国的买断价从12000美元降至8000美元,并推出99美元月度订阅服务,但未能有效提振需求[24] - 市场调研显示,有35%的美国消费者因对FSD技术不成熟、责任界定模糊等的担忧,反而更不愿意购买特斯拉[24] - 美国国家公路交通安全管理局正对约288万辆配备FSD的特斯拉汽车展开调查,涉及58起交通安全违规及事故报告[24] 领导层表态与外部质疑 - 马斯克在财报会上表示,特斯拉有望在2025年底前在8至10个新州展开Robotaxi运营,并覆盖美国50%人口[19] - 特斯拉前人工智能主管安德烈·卡帕西指出,自动驾驶迭代是无限接近100%的过程,特斯拉的进步已不明显[20] - 特斯拉自动驾驶项目首任负责人斯特林·安德森质疑其安全记录,并对比通用汽车Super Cruise系统已实现11亿公里无接管行驶且无技术导致事故[22] - 特斯拉目前在奥斯汀和旧金山运营的Robotaxi仍配备安全员,马斯克计划在2025年底前逐步取消奥斯汀的大部分安全员[22]
地平线吕鹏:穿越智驾淘汰赛,“反内卷”要靠真外卷
中国汽车报网· 2025-10-26 22:44
公司战略定位 - 公司定位为行业先锋,使命是赋能智能汽车和机器人,让人类生活更安全、更美好 [3] - 公司不仅是单一定位,而是国内少数实现规模化量产的智驾科技企业 [3] - 公司坚持“外卷”战略,聚焦于提升用户体验、品质和开拓边界,而非参与低价竞争 [7] 技术路径与路线图 - 公司采用与特斯拉相似的“渐进式”技术路线,从L2逐步迈向L4、L5级自动驾驶 [5] - “端到端”架构被视为实现类人驾驶体验的关键,公司通过软硬协同设计实现全链路AI安全与效能闭环 [5] - 公司提出“反共识”观点,认为真正的L3应建立在L4能力基础之上,预测到2028年系统性能将以每年10倍的速度提升,有望在特定场景实现接近“十万公里无接管”的L3体验 [5] 产品安全与认证 - 公司已构建覆盖硬件与软件的“全域安全开发体系”,并通过ISO 26262、ISO 21448、ISO 8800等多项国际权威认证 [3] - 公司成为国内安全体系最为完整的智驾科技公司之一 [3] 市场拓展与商业化 - 公司通过软硬结合技术路径实现更高性能、更优成本与更快迭代,目前已赋能超过25款车型出海,覆盖欧洲、中东、南美、澳洲等市场 [7] - 公司与多家国际Tier-1及外资车企达成合作 [7] - 公司出货的千万级芯片被视为“实打实的市场需求”,智能驾驶已是一个“不需要再证明”的确定性市场 [9] 行业竞争格局展望 - 行业已进入“淘汰赛”尾声,未来三到五年将收敛至两到三家头部企业 [9] - 行业决胜关键在于是否具备持续走向L4、L5的技术储备、数据闭环与商业生态,而非“价格战” [9] - 智能驾驶的终极目标是成为汽车中的“自动挡”,真正回归产品力 [7] 新兴领域布局 - 公司将车视为机器人场景,目前将90%以上精力聚焦于汽车这一“第一个要打穿的机器人场景” [9] - 公司基于智驾领域积累的芯片与系统能力,为机器人产业提供轻量而高效的计算平台 [9]
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 10:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]
投注“端到端”:AI驶向物理世界,阿里云加速“闭环”
第一财经资讯· 2025-09-27 20:43
行业技术范式变革 - 智能辅助驾驶技术架构正从“多模块多阶段串联”向“端到端一体化”变革,带来范式革命 [1][2] - “端到端”架构推动视觉、语言和行动能力深度融合的VLA架构模型发展,实现通过数据训练自主应对复杂场景 [2] - 产业界认为“端到端”范式革命的拐点已到来,但同时也面临新的技术难关 [1] 行业面临的核心挑战 - “端到端”技术对数据量与算力需求呈指数级增长,主流智驾企业单次模型训练数据量需达10P-30P,远超传统的TP到几个PB [3] - 具身智能需要机器理解物理世界并执行复杂动作,涉及视觉、语言及摩擦、形变等物理规律,复杂性远超其他领域 [3] - 具身智能落地面临数据分散、算力需求特殊、通信要求苛刻等研发困境,需要算力、大数据、人工智能平台三位一体的云上AI基础设施 [3] 云厂商的战略布局与解决方案 - 阿里云观察到客户算力需求已处于万卡规模以上,对模型规模、多模态数据处理及合规要求提高 [4] - 阿里云大数据AI平台建立模型、AI基础设施、数据基础设施、端到端工具四大要素的技术支撑,投入Agentic AI落地的基础设施搭建 [4] - 阿里云智能辅助驾驶解决方案通过统一元数据管理实现对百PB级数据高效管控,并支持Lance格式训练加速与数据压缩 [4][5] 技术解决方案的成效 - 某车企采用阿里云解决方案后,实现百万级任务管理及开发调度,支持上万任务并发,产能达30w clips/天,效率较升级前提升2-3倍 [5] - 阿里云平台满足机器人数据预处理、分布式训练、数据大规模远程回传等需求,提升研发及模型迭代效率 [5] - 目前80%以上中国车企及多家头部机器人企业的数据处理与模型训推链路运行在阿里云大数据AI平台上 [5] 产业生态合作与竞争格局 - 阿里云与英伟达在Physical AI软件工具栈合作,集成Isaac Sim、Cosmos等工具,形成覆盖数据预处理、仿真测试的全链路平台支撑 [6] - 阿里云Data+AI在全模态兼容、弹性可扩展、安全合规等方面处于市场前列,正从技术供应商转变为产业变革引领者 [6] - 未来全球可能仅存5到6个超级云计算平台,阿里云正以饱和式投入推进AI基础设施建设,参与“超级AI云”竞赛 [8]
汽车行业专题报告:辅助驾驶的AI进化论:站在能力代际跃升的历史转折点
国海证券· 2025-07-22 19:26
报告行业投资评级 - 维持辅助驾驶行业“推荐”评级 [1][8][110] 报告的核心观点 - 辅助驾驶行业现状是平均水平提升、技术路线收敛,车企难差异化,向高级别跃迁时细分安全功能待提升,人机交互边界模糊带来商业化落地焦虑和安全隐患 [5] - 建立辅助驾驶能力研究框架,从企业组织战略、技术能力、消费者感知三个维度梳理全栈自研主机厂辅助驾驶能力及潜力 [6][7][111] - 大算力芯片上车元年,世界模型持续优化,辅助驾驶行业能力迎来迭代拐点,头部厂商解决方案逐步完善,车企展开战略合作推动智能化渗透率普及,供应链格局显现,国内供应商向软硬件一体化发展 [8][110][111] 根据相关目录分别进行总结 前言:辅助驾驶技术进展及研究框架构建 - 全栈自研主机厂发展进程:介绍特斯拉、小鹏、华为、理想、蔚来、小米等车企辅助驾驶研发进展、硬件配置、车型发布等情况 [11][15][28] - 第三方解决方案玩家格局:车企与头部智驾厂商合作可节省成本、抢占市场,Momenta、元戎启行、地平线等厂商端到端方案推进有节奏且合作覆盖广泛 [45][46] - 构建辅助驾驶技术研究框架:从企业经营、技术能力、用户感知三个维度衡量辅助驾驶能力,分析各车企研发投入、战略重心、传感器方案、算力、模型等情况 [48][49][50] 维度一:企业组织和战略 - 辅助驾驶战略布局:研发方向从早期模块化分工向端到端融合、全域架构与跨域协同发展,车企动态调整团队架构与研发重心 [53][54][55] - 辅助驾驶研发投入:2022 - 2024年技术驱动型企业研发费用普遍高于15%,规模效应型企业随销量增长费率降低,小米集团2021 - 2023年研发费用率逐步攀升 [60] 维度二:技术能力三要素 - 传感器、算力、模型 - 传感器:技术降本与规模量产推动多感知方案并行,形成“数据输入 - 算法进化 - 硬件适配”正向循环,国产厂商在传感器供应链格局中份额稳步提升 [64][66][67] - 算力军备赛:云端智算中心肩负模型训练等任务,头部车企建立EFLOPS级超算中心,车端驾驶域控芯片向大算力化跃迁,国产芯片2025年集中量产 [75][78][85] - 车云模型:技术路径收敛,架构由决策规划模型化向模块化端到端发展,引入多模态数据信息,世界模型运用数据驱动提升类人化决策能力 [7][111] 维度三:消费者感知 - 辅助驾驶功能表现能力 - 驾驶辅助功能:“车位到车位”功能融合行车与泊车功能,实现全场景连续驾驶目标,各车企相关功能不断迭代升级 [97][98][105] - 安全辅助功能:AEB性能边界优化,车辆避撞方式与车速有关,蔚来等车企安全辅助功能不断提升 [99][103][105] - 消费者感知力:辅助驾驶产品标签化,成为新车卖点,各车企驾驶及安全辅助功能落地进程有差异 [105] 投资建议 - 建议关注车企研发及功能落地进展,如特斯拉、小鹏、鸿蒙智行合作车企、理想汽车、蔚来汽车、小米集团;以及头部第三方解决方案供应商,如Momenta、元戎启行 [8][111] - 建议关注供应链国内供应商,如速腾聚创、禾赛科技、舜宇光学科技、联创电子、德赛西威、华阳集团、均胜电子、知行科技、地平线机器人、黑芝麻智能等 [8][111]
AI端侧深度之智能驾驶(上):技术范式迭代打开性能上限,竞争、监管、应用加速高阶智驾落地
中银国际· 2025-07-18 14:40
报告行业投资评级 - 行业评级为强于大市 [1] - 水晶光电评级为买入 [1] - 隆利科技评级为买入 [1] - 瑞芯微评级为增持 [1] 报告的核心观点 - 智能驾驶有望成为物理 AI 率先落地的场景,带动产业链企业投资机遇 [1] - 技术范式迭代为高阶智驾奠定基础,变更行业竞争壁垒 [3][5] - 车企竞争、监管政策、商业应用推动高级智驾发展,L3 级乘用车落地在即、L4 级商用车初现曙光 [3][5] - 中国汽车零部件和布局汽车业务的消费电子企业为代表的供应链,将深度受益高阶智驾渗透率提升趋势 [5][168] 根据相关目录分别进行总结 智能驾驶是物理 AI 率先实现的场景,发展节奏迎加速 - 智能驾驶可提供“解放精力、减少事故”价值,城区 NOA 有望加速渗透 [13][20] - 因成熟度、需求量、政策支持力度等因素,智驾有望成为物理 AI 率先落地的场景 [27] - 高阶智驾落地面临挑战,责任认定成为主要难点 [33] 技术篇:技术范式演进为高阶智驾奠定基础,行业壁垒急剧切换 - 架构升级,端到端架构具备数据驱动/全局优化优势,替代模块化架构成为主流 [36][37] - 范式演进,从规则驱动走向数据驱动/知识驱动,数据/算力/模型成为车企竞争壁垒 [60] - 未来展望,世界模型 + 纯强化学习或成 L4 级智驾的方案,竞争壁垒或变成世界模型精度 [82] - 案例,从理想 MINDVLA 模型架构、训推过程看智驾技术落地的最近进展 [97] 商业篇:竞争、监管、应用同时加速,L3 落地在即、L4 初现曙光 - 商业竞争,智驾成为车企品牌的核心差异化,平权和升规同时加速渗透 [126] - 政策监管,全球智驾政策从试点转向推广应用,国内首次放开 L3 级乘用车上路 [137] - 应用落地,L3 级智驾商业模式逐渐成熟,L4 级 ROBOX 落地节奏加快 [154] - 投资建议,建议关注地平线机器人 -W、黑芝麻智能、瑞芯微等企业 [168]
Transformer 在具身智能“水土不服”,大模型强≠机器人强
36氪· 2025-06-18 19:55
具身智能行业发展现状 - 2025年被业界称为"具身智能元年",宇树机器人等产品频繁登上热搜并走向全球[1] - 技术大佬纷纷投身机器人创业,大批创业项目集中涌现,行业进入爆发期[1] - 英伟达CEO黄仁勋宣称"通用机器人时代已经到来",但知名投资人朱啸虎却批量退出人形机器人公司,显示行业存在泡沫争议[1] 技术发展路径与挑战 - 从多模态大模型到具身智能是自然的技术演化,需要海量数据积累和底层基础设施支持[3] - 当前大模型面临高能耗问题,作为机器人"智能大脑"可能导致开机一分钟耗尽电量[4] - 模型在多任务场景下泛化能力弱,遇到新任务时快速适应能力差,导致需要专用机器人完成不同家务[5] - Transformer架构已近十年无革命性变化,依赖庞大参数导致巨大训练成本和能耗[5] - 大模型与机器人多模态感知体系不匹配,结合深度较浅,落地面临技术难题[6] 技术实现路线 - 行业存在模块化分层思维和端到端架构两种技术路线,尚未形成统一标准[7] - 硬件不成熟导致数据采集困难,形成"硬件不稳定-落地困难-数据不足-模型优化受限"的恶性循环[8] - 从Pipeline向端到端演进是AI各领域的共同趋势,包括信息检索、聊天系统、自动驾驶等[14] - 智源研究所发布RoboOS和RoboBrain框架,兼容主流机器人设备,实现一站式服务[11] 行业痛点与未来展望 - 当前具身智能水平仅能完成预设任务,无法真正理解人类意图并自主执行[18] - 人脑、AI大脑与机器人三者之间存在显著Gap,缺乏有效协同机制[16] - 语音交互存在延迟问题,探索人脑意图信号直连AI的可能性[19] - 大模型在空间感知和物理世界理解方面存在重大缺陷[21] - 未来5-10年是软硬件交替迭代关键期,算法升级将推动硬件进步,反之亦然[31] - 多任务混合训练趋势初现,机器人可能从专用型向通用型转变[32]