VLA
搜索文档
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 17:18
自动驾驶领域学术研究趋势与方向 - 行业观察到计算机、车辆、自动化和机械等专业背景的学生对自动驾驶研究方向存在普遍困惑,特别是在入门和选择前沿方向上[2] - 行业将自动驾驶研究方向分为前沿方向与相对不拥挤的赛道,前沿方向包括视觉语言动作模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型,相对不拥挤的赛道包括开集目标检测、占用网络以及少样本/零样本学习[2] - 针对不同专业背景的学生,行业给出了差异化的学习路径建议,对于自动化和计算机背景的学生,建议专注于深度学习相关的前沿方向,如视觉语言动作模型、端到端和世界模型,这些方向被认为从入门到工作乃至读博都有很大发展空间,对于机械和车辆背景的学生,建议从传统规划与控制或3D高斯泼溅等对算力要求较低、入手更简单的方向开始[2] - 行业强调方法论提升的重要性,建议研究者通过多阅读论文和交流来逐步形成自己的思考与想法,并指出新人研究者通常需要经历多次试错才能产生好的想法[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域的众多前沿与关键技术方向,包括但不限于端到端自动驾驶、视觉语言动作模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达感知、单目感知以及车道线/在线高精地图构建等[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 此外,公司还提供博士申请指导服务[7] - 公司宣称其辅导服务的中稿率很高,并且已有辅导完成的论文被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表范围 - 公司的论文辅导服务旨在帮助客户在广泛的学术出版物上发表成果,目标范围包括自动驾驶领域的顶级会议和期刊,涵盖中国计算机学会推荐的A、B、C类会议/期刊,科学引文索引的一区至四区期刊,中国科学院分区的一区至四区期刊,以及工程索引和中文核心期刊,同时也涵盖毕业设计论文、博士申请和学术比赛等相关需求[10]
冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心· 2025-12-26 17:18
文章核心观点 - 文章对当前视觉语言动作模型的研究现状进行了批判性分析,认为许多研究在任务设置、环境复杂性和方法透明度上存在显著不足,但同时也肯定了其潜在价值并提出了改进方向[1][8] - 文章认为纯粹的端到端训练方法难以实现真正的通用人工智能,而更倾向于采用结构清晰、训练量小的显式思维链方法[5][8] - 文章指出,在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过感知误差不断修正行为的方式[4] VLA模型的当前局限与批评 - 任务设置过于简单,主要集中在“抓-放”类操作,缺乏复杂任务挑战[6] - 实验环境高度简化,多为纯色背景、仅放置1-2个物体、无遮挡且大部分是2D平面任务[6] - 模型训练本质上是数据量巨大的“升级版行为克隆”,系统呈现黑盒特性,难以解释模型的实际能力[6] - 部分研究存在实验内容与态度问题,被评价为“劣币驱逐良币”[8] VLA模型的潜在优势与改进思路 - VLA模型并非完全黑盒,例如NVIDIA的CoT-VLA工作展示了可拆分为三层的思维链,其思考模式与人类相似[1] - 真正的挑战在于让模型学会泛化,关键在于设计好子目标嵌入以保证其在遮挡、复杂背景及3D空间中的表现[2][3] - 有效的子目标嵌入应具备语义性、上下文相关性、能指明目标大致区域,并通过融合MLP保证可微性[7] - 在复杂环境下,基于学习的方法相比依赖精确坐标的传统方法可能更具优势,因其更接近人类通过视觉观测感知误差并修正动作以逼近目标的行为方式,无需每一步都遵循完美路线[4] 实现通用AGI的路径探讨 - 纯粹的端到端训练难以产生真正的通用人工智能,AGI需要的是少量样本学习及依靠推理逻辑处理新任务的能力,而非依赖海量数据的“死记硬背”[5] - 倾向于采用显式的VLA思维链方法:由大模型负责拆解任务,动作头根据子目标进行训练与执行,该方法训练量小、结构清晰,便于资源有限的研究者实施[8] - 只要任务拆解得足够细致和准确,无论后续采用基于模型还是基于学习的策略,效果都会不错[8] VLA模型的典型工作流程 - 大语言模型将语言指令拆解为子任务[6] - 视觉语言模型根据当前图像和子任务生成子目标嵌入[6] - 策略模型根据子目标嵌入和当前感知输出动作[6]
小米陈光:我们不想制造技术焦虑了
21世纪经济报道· 2025-12-25 16:24
行业技术路线争鸣 - 2025年智能驾驶行业出现“名词过载”现象,分化出VLA、VA、WA等多个技术派别,争鸣不断 [2] - 理想汽车与供应商元戎启行坚定选择VLA路线,在算法架构中引入大语言模型 [2] - 华为与小鹏是VLA的反对派,选择WA路线,尝试去掉Language环节 [2] - 小米汽车认为VA、WA、VLA本质目标一致,都是追求在有限算力下使模型的智能密度最大 [3][8] 小米汽车技术路径与进展 - 小米汽车坚定选择并深耕端到端技术路线,同时内部对VLA、WA、VA等所有主流路线均有预研团队 [3][4] - 小米端到端研发启动较晚,于2024年内部正式整合成立“端到端算法与功能部”,比理想、蔚来晚了至少3个月 [3] - 但小米追赶迅速,在2025年2月向用户全量推送300万Clips的端到端,7月推送1000万Clips版本,11月于广州车展发布Xiaomi HAD增强版,实现了“一年追三代” [3][6] - Xiaomi HAD增强版最大的不同是引入了世界模型+强化学习,使模型具备开放世界的知识性和推断复杂场景因果的能力,标志着进入认知驱动阶段 [3][9] - 小米智能驾驶团队规模已超过1800人,自2021年3月官宣造车后快速组建,第一年即组建500人团队,速度远超同期友商 [5][6][12] - 公司计划在2025年内完成Xiaomi HAD增强版的量产任务 [6] 技术理念:认知驱动与用户体验 - 行业共识是从单纯的数据驱动走向认知驱动阶段,以解决数据驱动无法覆盖所有长尾场景、难以平衡数据分布的问题 [9] - 简单的端到端模仿学习属于数据驱动,而引入强化学习、世界模型或VLA则属于认知驱动,其特点是让模型知道行为原因并进行自主探索与推理 [9] - 小米认为技术是否先进不代表体验一定更好,最终判断标准是能否被用户感知、信任和长期使用 [5][10] - 用户体验是最终落脚点,用户体验不好,用户会归咎于公司而非技术 [5][10] - 在有限硬件条件下训练出智能密度最大的模型是各家的努力方向,不应过分内卷算力 [14][15] 研发策略与基建能力 - 小米研发策略并非“一刀切”,新技术的引入需要循序渐进,并注重寻找最适合自身的技术方案 [5][9] - 强大的以数据为核心的研发基建是小米快速追赶的关键,其优势在于高效的研发架构、数据闭环和自动化流程 [17][18][19][20] - 基建能力强的体现包括:快速从已有数据中挖掘并标注问题、模型训练速度快、评测自动化程度高 [20] - 小米作为科技企业,其云端基建能力可在不同业务间相互借鉴和快速复用,这是其天然优势 [6][21][22] - 截至2025年第三季度,小米年度研发总投入已达235亿元,其中四分之一资金用于AI研发 [6] 仿真技术的应用与价值 - 在世界模型中应用强化学习面临两大难题:世界模型的保真度、并行探索的算力分配效率 [4][33] - 小米在应用强化学习和世界模型构建仿真环境方面比一般友商更为坚决 [32] - 高质量的仿真环境需要足够逼真、符合物理规律,并具备强大的场景编辑能力 [34][35] - 仿真数据主要用于解决实车难以遇到或危险的长尾场景,其生成质量很高 [35][36][42] - 在测试体系中,仿真测试里程要求至少是实车测试里程的100倍 [37][40] - 在模型训练数据中,仿真数据占比约为20%,真实数据占80% [41] - 这20%的仿真数据价值很高,能解决实车难以采集的场景,预计可减少数倍的人力成本 [41][42]
专访地平线副总裁吕鹏:做不好端到端就做不好VLA
21世纪经济报道· 2025-12-23 08:45
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,这一广阔的蓝海市场正吸引着地平线、Momenta等智驾厂商加速布局 [1][13] - 地平线于今年4月正式推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5和深蓝L06上市实现量产,两款车型上市短短两周后,HSD激活量便突破12000辆 [1][13] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:拓展生态合作模式,新增算法服务模式“HSD Together”,并与日本电装、大众合资公司CARIZON、HCT达成合作;引入更多生态合作伙伴,如元戎启行、卓驭等 [1][13] - 缺乏芯片研发能力的算法公司、软硬研发实力薄弱的车企正纷纷向地平线聚拢,公司目标是让城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3—5年内达成千万级量产规模 [2][14] 技术路线与研发投入 - 地平线敢于制定千万级量产目标的底气源于其在智驾端到端方案上的长期坚守与深耕,公司自2024年底便集中力量主攻端到端技术,90%的研发人力均投入到该方案的研发与量产落地工作中 [2][14] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需要建立在非常完整的端到端底座之上,没有扎实的端到端基座,高阶智驾就是空中楼阁 [2][9][10][14][21][22] - 地平线是目前行业内少数坚定选择端到端路线的厂商,其最早的端到端架构uni AD曾获得CVPR最佳论文,核心底气来自过去丰富的技术积累 [2][14][15] 技术方案详解 - 地平线HSD的端到端版本最核心的技术亮点是“光子进,轨迹出”,公司是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业 [4][16] - 所谓两段式端到端,并非一个模型,而是感知模型加规控模型,信息传递存在丢失;而一段式端到端可实现高维特征的无损传递,信息量更高,驾驶体验更接近人类直觉 [6][17] - 两段式端到端存在的原因是一段式方案若不够完善,输出轨迹会有缺陷导致无法控车,开发者会退而求其次增加后处理规则进行修正,但这些规则会限制模型上限并带来驾驶动作的割裂感 [7][18] - 分辨一段式与两段式端到端,对于从业者主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤进行,消费者最直观的体验是是否愿意在城市中安心使用该系统 [8][19] 竞争观点与未来展望 - 对于智驾技术路线之争,地平线认为WA或VLA都是基于端到端,语言(language)等模态应作为辅助项,而非开发核心,模型构建应模拟人类开车状态,即95%以上时间依赖直觉模型,仅在极度复杂场景下加入理解与推理 [9][21] - 未来更智能的端到端方案中,仿真闭环是关键核心技术,因为稀疏场景需要通过仿真生成数据验证,随着端到端成熟,遇到问题的场景会越来越稀疏 [10][22] - 公司认为未来最理想的智驾方案是在端到端直觉模型解决95%甚至99%场景的基础上,为剩余需要认知推理的场景叠加思维链理解能力,但一切前提是端到端直觉模型必须足够好 [10][22] - 作为智驾供应商,接下来的竞争核心应聚焦产品体验、安全性和市场认可度,而非追逐新名词和新概念,技术上公司会做好预研和储备 [11][22] - 地平线强调,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为端到端是VLA得以实现的基础 [12][24]
地平线吕鹏:端到端是基石,做不好端到端就做不好VLA
21世纪经济报道· 2025-12-22 21:23
市场格局与公司进展 - 今年前三个季度,国内20万元以上乘用车市场份额占比30%,13万元以下市场份额则高达50%,但后者多数车型尚未配备城区辅助驾驶功能,市场空间广阔[1] - 地平线于2024年4月推出基于征程6系列芯片的城区辅助驾驶解决方案HSD,并于11月随星途ET5上市实现量产,同期搭载的深蓝L06也发售,两款车型上市两周后HSD激活量突破12000辆[1] - 公司通过生态拓展加速市场渗透,在12月初的技术生态大会上公布两大举措:新增算法服务模式"HSD Together",并与日本电装、大众的合资公司CARIZON、HCT达成合作;引入元戎启行、卓驭等更多生态合作伙伴[2] - 公司目标是将城区辅助驾驶功能下沉至10万元国民车型,并计划在未来3-5年内达成千万级量产规模[2] 技术路线与研发投入 - 地平线坚信端到端技术是基石,自2024年底便集中90%的研发人力投入到端到端方案的研发与量产落地工作中[2] - 公司认为,无论是世界模型(WA)还是视觉语言动作模型(VLA),都需建立在完整的端到端底座之上,若端到端做得不够坚固,则难以引入新模态解决问题[3] - 端到端被类比为人的直觉模型,若直觉模型不完善,仅靠思考推理难以解决复杂场景,甚至可能带来新问题[3] - 公司技术逻辑的核心在于软硬结合,通过更好的硬件支撑大算力,并借助软硬协同优化释放更多性能,最终在消费者体验端带来收益[4] 端到端技术详解 - 地平线是除特斯拉之外,少数拥有真正意义上最完整的一段式端到端系统的企业[4] - 一段式端到端可简单描述为“光子进,轨迹出”,其模型内部进行高维特征的无损传递,信息量更高[4][5] - 两段式端到端并非一个模型,而是感知模型加规控模型的组合,信息传递存在丢失,因为规控模型是依靠感知白名单的检测结果进行训练的[5] - 一段式端到端若做得不完善,输出轨迹会有缺陷导致无法控车,行业退而求其次增加后处理规则进行修正,但这些规则会限制模型上限,导致横纵向操作有割裂感[5] - 对于从业者,分辨一段式与两段式主要看模型输出轨迹的连贯性和拟人性,特别是在交互场景下动作是行云流水还是按步骤执行[6] - 在一段式端到端中,无法精确设定规定车速,模型只能接收期望车速并朝其逼近,但不一定完全达到[6] 行业竞争与未来展望 - 行业内存在不同技术路线,如理想、元戎启行选择VLA,华为和小鹏选择WA或VA模型,但地平线认为它们都基于端到端[7] - 公司认为模型不应以语言为核心进行开发,而应将其作为辅助项,结合端到端基座,这符合人类开车时95%以上时间依赖直觉、仅在极复杂场景加入思考推理的状态[7] - 随着端到端技术成熟,遇到问题的场景会越来越稀疏,仿真闭环对于生成稀疏场景的模拟和验证变得关键[8] - 未来理想的智驾方案是在直觉模型(解决95%甚至99%场景)足够强的基础上,为剩余需要认知推理的场景增加思维链理解能力[9] - 公司认为竞争核心应回归产品体验、安全性及市场认可度,技术上会做好预研和储备[9] - 公司明确表示,即使下一代智驾方案包含VLA技术,也不会抛弃当前的端到端技术,因为后者是前者的基础[10]
研究生实验到什么程度可以写小论文?
自动驾驶之心· 2025-12-22 11:23
公司业务与服务模式 - 公司提供针对学术论文发表的辅导服务,旨在帮助用户在有限时间内高效产出科研成果,避免自主写作的常见问题 [2] - 服务覆盖期刊论文、会议论文、学位论文(毕业论文),以及课题和项目,提供全方位的学术支持 [8] - 服务以结果为导向,配套代码提升指导,并提供持续的服务保障,全程陪伴直至论文中稿 [8] 目标客户与用户痛点 - 目标客户包括面临论文发表压力的研究生、博士生,以及有科研需求的在职人员 [1][7] - 用户常见痛点包括:研究方向不清晰、研究想法(idea)难产、代码复现困难、实验跑不通、论文写作障碍、缺乏系统科研训练与导师反馈 [5] - 用户可能陷入追求过高创新性(novelty)而忽视项目完整性的误区,导致进度拖延 [1] 服务领域与专业方向 - 服务专注于人工智能与自动驾驶相关的前沿技术领域,具体方向包括:端到端学习、视觉语言模型(VLA)、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅(3DGS)、鸟瞰图(BEV)感知、占据网络(Occupancy Network)、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配(Flow matching)、点云感知、毫米波雷达感知、单目感知、车道线/在线高精地图等 [3] - 公司支持用户自带课题或研究方向进行咨询 [3] 师资力量与资质 - 所有辅导老师均保证来自全球QS排名前100的大学或机构 [6] - 师资人均拥有多篇顶级会议(A会)论文发表经验,且项目经验丰富 [6] - 公司承诺老师简历真实可查,合作后用户可要求查验 [6] 服务成果与案例 - 公司展示了过往学员的成功案例,涵盖从本科大三到博士五年级的不同阶段学员 [7] - 案例成果包括在SCI期刊(2区、3区)、CCF推荐会议(B类、A类)、以及各类顶会(如CVPR, emnlp)上发表论文 [7] - 服务周期通常在2至4个月之间,例如有学员在2个月内于NEUROCOMPUTING(2区)发表论文,或在4个月内于CVPR(顶会)发表论文 [7] 附加价值与承诺 - 除了论文发表,公司承诺为优秀学员提供清华大学、北京大学、麻省理工学院(MIT)等名校的推荐信,并推荐至实验室实习 [11] - 表现突出的学员可直接获得内推机会,进入如阿里巴巴达摩院、华为诺亚方舟实验室等企业研发岗位 [11] - 公司强调其务实风格,承诺只说实话、做实事,不会夸大或打鸡血,会认真听取用户情况后提供可行路径 [3] 服务定价与入门门槛 - 服务收费根据目标论文的分区(如SCI分区、会议等级)不同而定价,公司会根据用户具体情况和发文目标提供详细报价 [11] - 公司声称零基础用户也能发表论文,通过提供基础课程,让用户从文献带读学起,若踏实跟进,可在6个月内完成一篇小论文 [11]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
最近收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-19 17:25
自动驾驶领域研究方向与人才需求 - 行业收到大量来自计算机、车辆、自动化和机械方向学生的咨询,显示该领域人才需求旺盛且背景多元 [2] - 对于计算机与自动化背景的学生,行业建议主攻深度学习方向,包括视觉语言模型、端到端自动驾驶和世界模型等前沿领域,这些方向被认为从入门到就业乃至深造均有广阔空间 [2] - 对于机械与车辆工程背景的学生,行业建议可从传统规划与控制、3D高斯泼溅等方向入手,这些方向对算力要求相对较低且更易入门 [2] - 行业指出,新人研究者需要经历大量实践与试错才能形成有价值的创新想法,方法论提升的关键在于广泛阅读论文和积极交流 [2] 前沿与细分技术赛道 - 行业关注的前沿研究方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型 [2] - 行业认为开集目标检测、占用网络、小样本/零样本学习等是相对竞争不那么激烈的细分赛道 [2] - 行业提供的论文辅导服务覆盖了广泛的技术方向,包括但不限于端到端、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达、单目感知以及车道线/在线高精地图 [3] 学术成果与发表支持服务 - 行业提供的论文辅导服务声称具有很高的中稿率,并已有成果被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL [7] - 服务支持发表的论文级别多样,涵盖自动驾驶顶会/顶刊、中国计算机学会推荐的A/B/C类会议期刊、科学引文索引的一至四区期刊、中科院分区的一至四区期刊、以及工程索引和中文核心期刊 [10] - 服务内容全面,包括论文选题、全流程指导以及实验指导 [6] - 服务范围不仅限于学术论文发表,还扩展至毕业设计论文、申请博士以及竞赛支持 [10] - 服务提供针对不同论文级别的差异化定价 [8]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
L3自动驾驶量产元年,离L4的梦想又近了一步?
新浪财经· 2025-12-17 14:30
L3级自动驾驶商业化与政策突破 - 工信部首次批准L3级自动驾驶商业化运营,长安深蓝SL03与极狐阿尔法S6两款车型通过准入申请,标志着中国首次允许车辆在特定条件下由系统承担驾驶任务 [1] - 政策明确了L3级自动驾驶的权责划分:在限定路段以不超过80公里时速自主行驶时,若系统激活状态下发生事故,车企或将承担主要责任 [1] - 准入要求传感设备必须为“前装量产”,后改装车辆无法获得试点资格,从源头保障技术稳定性 [1] - 行业普遍认为L3级是从“辅助驾驶”到“完全自动驾驶”的重要过渡,后续L4级将在固定区域内实现完全无人驾驶 [1] - 中国此次准入虽起步晚于德国(德国2021年通过《自动驾驶法》),但一步切入责任核心,直接启动附条件商业化运营,未走“测试”老路 [1] L3级自动驾驶技术定义与行业进展 - 根据国家标准,L3级被定义为有条件自动驾驶,在特定条件下车辆可自主完成所有驾驶任务,驾驶员转变为监督者,仅在系统请求时介入 [4] - 与L2级(组合辅助驾驶)相比,L2级驾驶员需时刻监控并准备接管,而L3级在特定条件下系统可独立完成所有驾驶操作,驾驶员角色发生根本转变 [6][7] - 多家主流车企已将2025年实现L3级有条件自动驾驶落地作为目标,2026年被视为L3级自动驾驶的“量产元年” [1][3] - 华为联合赛力斯、阿维塔、奇瑞、北汽等11家车企在公开场合谈及L3,这些车企基本囊括中国汽车行业四大央企和新势力代表 [3] - 具体车企进展:小鹏汽车已在广州获得L3级道路测试牌照并启动常态化测试,计划2026年推出软硬件达L4级水平的量产车型;广汽集团计划2024年第四季度启动首款L3车型量产上市;奇瑞汽车计划2026年量产L3级车辆,并发布算力达1000 TOPS的猎鹰智驾系统 [3] 自动驾驶技术演进与关键挑战 - 从L2到L3的跨越面临现实挑战,核心在于人机共驾的信任建立,包括系统何时退出以及驾驶员能否及时接管 [2] - 国际数据显示,50岁以上用户从分神到重新掌控车辆平均需6秒以上,而系统发出接管请求后留给驾驶员的反应窗口通常不足10秒 [8] - 在低频激活场景下(有研究称城市道路L3可用时间不足23%),驾驶员极易产生依赖或松懈,反而放大风险 [8] - 当系统检测到难以处理的复杂情况(如恶劣天气、道路施工)时会提前发出接管提示,驾驶员必须迅速响应重新掌握控制权 [8] 智能驾驶技术竞争与AI模型发展 - 汽车行业智驾竞争激烈,主流车企如比亚迪、吉利、奇瑞、广汽等纷纷推出智驾计划,行业进入“得智驾者得天下”的时代 [8] - 自2023年以来,智驾行业掀起BEV、端到端技术浪潮,车企正逐步将AI神经网络融入感知、规划、控制等环节 [8] - “端到端+VLM”曾是主流技术方案,但存在联合训练困难、3D空间理解不足、驾驶知识欠缺、难以处理人类驾驶多模态性等问题 [12][13] - VLA(视觉语言动作)模型正在成为重要技术方向,它通过统一的大模型架构将感知、决策、执行无缝串联,形成“图像输入-语义理解-类人决策-动作输出”的闭环,可同步提高智驾的上限和下限 [13] - VLA模型整合了VLM的感知能力和端到端模型的决策能力,并引入“思维链”技术,具备全局上下文理解与类人推理能力 [14] - 在推理时长方面:传统基于规则方案只能推理1秒路况;端到端1.0系统能推理未来7秒路况;VLA模型则能对几十秒路况进行推理,显著提升决策能力和适应性 [14] - 理想汽车发布了新一代自动驾驶架构MindVLA,计划于2026年量产应用 [9] - VLA被业界认为是端到端2.0的主要技术形态,目前尚处于发展阶段,相关模型包括DeepMind的RT-2、OpenVLA、Waymo的EMMA、Wayve的LINGO-2、英伟达NaVILA等 [14] 车企智能化战略与自研趋势 - 随着汽车从“机电产品”变为“智能体”,用户需求从“能不能开”升级为“开得是否安全”,关注系统决策过程的可理解性与交互性 [15] - 车企自研渐成趋势,更适合自研的项目主要包括三类:核心竞争技术(如自动驾驶算法)、差异化技术(如独特用户界面)、高成本技术部件(如高性能自动驾驶芯片) [16] - 自研道路伴随高昂研发成本、漫长技术积累及未知市场风险,车企需在自研与配套之间找到最佳平衡点,并保持自研技术的持续创新力 [16] - 车企可采用分阶段的研发和投资策略,在每个阶段完成后进行评估和调整,根据项目进展和市场反馈逐步投资,以有效控制风险和成本 [17]