VLA
搜索文档
研究生实验到什么程度可以写小论文?
自动驾驶之心· 2025-12-22 11:23
公司业务与服务模式 - 公司提供针对学术论文发表的辅导服务,旨在帮助用户在有限时间内高效产出科研成果,避免自主写作的常见问题 [2] - 服务覆盖期刊论文、会议论文、学位论文(毕业论文),以及课题和项目,提供全方位的学术支持 [8] - 服务以结果为导向,配套代码提升指导,并提供持续的服务保障,全程陪伴直至论文中稿 [8] 目标客户与用户痛点 - 目标客户包括面临论文发表压力的研究生、博士生,以及有科研需求的在职人员 [1][7] - 用户常见痛点包括:研究方向不清晰、研究想法(idea)难产、代码复现困难、实验跑不通、论文写作障碍、缺乏系统科研训练与导师反馈 [5] - 用户可能陷入追求过高创新性(novelty)而忽视项目完整性的误区,导致进度拖延 [1] 服务领域与专业方向 - 服务专注于人工智能与自动驾驶相关的前沿技术领域,具体方向包括:端到端学习、视觉语言模型(VLA)、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅(3DGS)、鸟瞰图(BEV)感知、占据网络(Occupancy Network)、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配(Flow matching)、点云感知、毫米波雷达感知、单目感知、车道线/在线高精地图等 [3] - 公司支持用户自带课题或研究方向进行咨询 [3] 师资力量与资质 - 所有辅导老师均保证来自全球QS排名前100的大学或机构 [6] - 师资人均拥有多篇顶级会议(A会)论文发表经验,且项目经验丰富 [6] - 公司承诺老师简历真实可查,合作后用户可要求查验 [6] 服务成果与案例 - 公司展示了过往学员的成功案例,涵盖从本科大三到博士五年级的不同阶段学员 [7] - 案例成果包括在SCI期刊(2区、3区)、CCF推荐会议(B类、A类)、以及各类顶会(如CVPR, emnlp)上发表论文 [7] - 服务周期通常在2至4个月之间,例如有学员在2个月内于NEUROCOMPUTING(2区)发表论文,或在4个月内于CVPR(顶会)发表论文 [7] 附加价值与承诺 - 除了论文发表,公司承诺为优秀学员提供清华大学、北京大学、麻省理工学院(MIT)等名校的推荐信,并推荐至实验室实习 [11] - 表现突出的学员可直接获得内推机会,进入如阿里巴巴达摩院、华为诺亚方舟实验室等企业研发岗位 [11] - 公司强调其务实风格,承诺只说实话、做实事,不会夸大或打鸡血,会认真听取用户情况后提供可行路径 [3] 服务定价与入门门槛 - 服务收费根据目标论文的分区(如SCI分区、会议等级)不同而定价,公司会根据用户具体情况和发文目标提供详细报价 [11] - 公司声称零基础用户也能发表论文,通过提供基础课程,让用户从文献带读学起,若踏实跟进,可在6个月内完成一篇小论文 [11]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
最近收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-19 17:25
自动驾驶领域研究方向与人才需求 - 行业收到大量来自计算机、车辆、自动化和机械方向学生的咨询,显示该领域人才需求旺盛且背景多元 [2] - 对于计算机与自动化背景的学生,行业建议主攻深度学习方向,包括视觉语言模型、端到端自动驾驶和世界模型等前沿领域,这些方向被认为从入门到就业乃至深造均有广阔空间 [2] - 对于机械与车辆工程背景的学生,行业建议可从传统规划与控制、3D高斯泼溅等方向入手,这些方向对算力要求相对较低且更易入门 [2] - 行业指出,新人研究者需要经历大量实践与试错才能形成有价值的创新想法,方法论提升的关键在于广泛阅读论文和积极交流 [2] 前沿与细分技术赛道 - 行业关注的前沿研究方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型 [2] - 行业认为开集目标检测、占用网络、小样本/零样本学习等是相对竞争不那么激烈的细分赛道 [2] - 行业提供的论文辅导服务覆盖了广泛的技术方向,包括但不限于端到端、视觉语言模型、世界模型、强化学习、3D目标检测、多传感器融合、3D高斯泼溅、鸟瞰图感知、占用网络、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、流匹配、点云感知、毫米波雷达、单目感知以及车道线/在线高精地图 [3] 学术成果与发表支持服务 - 行业提供的论文辅导服务声称具有很高的中稿率,并已有成果被计算机视觉、人工智能、机器人、自然语言处理等领域的顶级会议和期刊收录,例如CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL [7] - 服务支持发表的论文级别多样,涵盖自动驾驶顶会/顶刊、中国计算机学会推荐的A/B/C类会议期刊、科学引文索引的一至四区期刊、中科院分区的一至四区期刊、以及工程索引和中文核心期刊 [10] - 服务内容全面,包括论文选题、全流程指导以及实验指导 [6] - 服务范围不仅限于学术论文发表,还扩展至毕业设计论文、申请博士以及竞赛支持 [10] - 服务提供针对不同论文级别的差异化定价 [8]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
L3自动驾驶量产元年,离L4的梦想又近了一步?
新浪财经· 2025-12-17 14:30
L3级自动驾驶商业化与政策突破 - 工信部首次批准L3级自动驾驶商业化运营,长安深蓝SL03与极狐阿尔法S6两款车型通过准入申请,标志着中国首次允许车辆在特定条件下由系统承担驾驶任务 [1] - 政策明确了L3级自动驾驶的权责划分:在限定路段以不超过80公里时速自主行驶时,若系统激活状态下发生事故,车企或将承担主要责任 [1] - 准入要求传感设备必须为“前装量产”,后改装车辆无法获得试点资格,从源头保障技术稳定性 [1] - 行业普遍认为L3级是从“辅助驾驶”到“完全自动驾驶”的重要过渡,后续L4级将在固定区域内实现完全无人驾驶 [1] - 中国此次准入虽起步晚于德国(德国2021年通过《自动驾驶法》),但一步切入责任核心,直接启动附条件商业化运营,未走“测试”老路 [1] L3级自动驾驶技术定义与行业进展 - 根据国家标准,L3级被定义为有条件自动驾驶,在特定条件下车辆可自主完成所有驾驶任务,驾驶员转变为监督者,仅在系统请求时介入 [4] - 与L2级(组合辅助驾驶)相比,L2级驾驶员需时刻监控并准备接管,而L3级在特定条件下系统可独立完成所有驾驶操作,驾驶员角色发生根本转变 [6][7] - 多家主流车企已将2025年实现L3级有条件自动驾驶落地作为目标,2026年被视为L3级自动驾驶的“量产元年” [1][3] - 华为联合赛力斯、阿维塔、奇瑞、北汽等11家车企在公开场合谈及L3,这些车企基本囊括中国汽车行业四大央企和新势力代表 [3] - 具体车企进展:小鹏汽车已在广州获得L3级道路测试牌照并启动常态化测试,计划2026年推出软硬件达L4级水平的量产车型;广汽集团计划2024年第四季度启动首款L3车型量产上市;奇瑞汽车计划2026年量产L3级车辆,并发布算力达1000 TOPS的猎鹰智驾系统 [3] 自动驾驶技术演进与关键挑战 - 从L2到L3的跨越面临现实挑战,核心在于人机共驾的信任建立,包括系统何时退出以及驾驶员能否及时接管 [2] - 国际数据显示,50岁以上用户从分神到重新掌控车辆平均需6秒以上,而系统发出接管请求后留给驾驶员的反应窗口通常不足10秒 [8] - 在低频激活场景下(有研究称城市道路L3可用时间不足23%),驾驶员极易产生依赖或松懈,反而放大风险 [8] - 当系统检测到难以处理的复杂情况(如恶劣天气、道路施工)时会提前发出接管提示,驾驶员必须迅速响应重新掌握控制权 [8] 智能驾驶技术竞争与AI模型发展 - 汽车行业智驾竞争激烈,主流车企如比亚迪、吉利、奇瑞、广汽等纷纷推出智驾计划,行业进入“得智驾者得天下”的时代 [8] - 自2023年以来,智驾行业掀起BEV、端到端技术浪潮,车企正逐步将AI神经网络融入感知、规划、控制等环节 [8] - “端到端+VLM”曾是主流技术方案,但存在联合训练困难、3D空间理解不足、驾驶知识欠缺、难以处理人类驾驶多模态性等问题 [12][13] - VLA(视觉语言动作)模型正在成为重要技术方向,它通过统一的大模型架构将感知、决策、执行无缝串联,形成“图像输入-语义理解-类人决策-动作输出”的闭环,可同步提高智驾的上限和下限 [13] - VLA模型整合了VLM的感知能力和端到端模型的决策能力,并引入“思维链”技术,具备全局上下文理解与类人推理能力 [14] - 在推理时长方面:传统基于规则方案只能推理1秒路况;端到端1.0系统能推理未来7秒路况;VLA模型则能对几十秒路况进行推理,显著提升决策能力和适应性 [14] - 理想汽车发布了新一代自动驾驶架构MindVLA,计划于2026年量产应用 [9] - VLA被业界认为是端到端2.0的主要技术形态,目前尚处于发展阶段,相关模型包括DeepMind的RT-2、OpenVLA、Waymo的EMMA、Wayve的LINGO-2、英伟达NaVILA等 [14] 车企智能化战略与自研趋势 - 随着汽车从“机电产品”变为“智能体”,用户需求从“能不能开”升级为“开得是否安全”,关注系统决策过程的可理解性与交互性 [15] - 车企自研渐成趋势,更适合自研的项目主要包括三类:核心竞争技术(如自动驾驶算法)、差异化技术(如独特用户界面)、高成本技术部件(如高性能自动驾驶芯片) [16] - 自研道路伴随高昂研发成本、漫长技术积累及未知市场风险,车企需在自研与配套之间找到最佳平衡点,并保持自研技术的持续创新力 [16] - 车企可采用分阶段的研发和投资策略,在每个阶段完成后进行评估和调整,根据项目进展和市场反馈逐步投资,以有效控制风险和成本 [17]
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 08:05
行业研究方向与选择 - 具身智能领域当前的研究方向包括视觉语言导航、视觉语言操作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的从业者,视觉语言导航和视觉语言操作被视为较好的切入方向[1] - 拥有机械臂硬件的研究者适合展开视觉语言操作研究,而无硬件的研究者可利用仿真环境或低成本硬件平台进行实验[1] - 四足机器人和人形机器人更适合采用强化学习方法进行研究,而视觉语言操作的研究难度相对较高[1] 研究方法与资源 - 研究过程中,拥有优秀的创新想法至关重要,但新人研究者往往需要经历多次试错才能获得[1] - 行业存在多种低成本的科研平台可供选择,例如移动操作平台[1] - 仿真方法是解决预算有限问题的可行方案之一[1] 专业辅导服务内容 - 提供的论文辅导服务覆盖从CCF-A到CCF-C级别的会议,以及SCI一区到四区的期刊[2] - 服务范围包括EI、中文核心期刊论文、毕业论文以及博士申请辅导等[2] - 辅导团队由来自国内外名校的博士及头部企业研究员组成,具备在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验[2] - 辅导流程为全闭环服务,涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略[2] - 辅导服务兼具工业界与学术界双重视角,不仅关注论文发表,也重视研究的落地价值[3] - 公司为前10名咨询者提供免费匹配专属导师的机会[5]
中游智驾厂商正在快速抢占端到端人才......
自动驾驶之心· 2025-12-15 08:04
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为,端到端等前沿技术的大规模量产起点将在明年[2] - 当前智驾前沿技术发展放缓,量产方案趋同,L2级智能驾驶正走下沉路线[2] - 随着明年L3法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场与量产现状 - 中国二十万以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在此价格区间的销量占比不及三分之一[2] - 已实现端到端技术量产的车型占比更低[2] - 端到端技术的成熟被视为开启更大规模量产的关键[2] - 地平线公司宣布将进军10万级市场,表明高阶智驾正迅速向更多国民车型下沉[2] 技术实施与人才需求 - 端到端自动驾驶不仅仅是一个算法,其落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套能力[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 端到端和VLA(视觉语言动作模型)领域的招聘需求预计将显著增长[3] 行业培训动态 - 为应对技术升级需求,市场出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等核心模块[3] - 另有课程专门梳理BEV感知、大语言模型、扩散模型和强化学习在端到端领域的应用,并设计相关实战项目[6] - 针对VLA领域,有课程从VLM(视觉语言模型)解释器到模块化、一体化及推理增强VLA进行全面梳理,并包含从零搭建模型的大作业[11] - 课程讲师及团队背景雄厚,多来自国内顶级主机厂、Tier1供应商及顶尖高校,拥有丰富的算法研发、预研及量产交付经验[5][8][13][14]
输了裸奔!何小鹏打赌,明年8月要追上特斯拉FSD
新浪财经· 2025-12-12 22:19
公司核心动态与目标 - 小鹏汽车创始人何小鹏公开设下赌约,若到2026年8月30日,小鹏第二代VLA在国内能达到特斯拉FSD V14.2在硅谷的效果,他将在硅谷建一家中国风味食堂;若不能达到,小鹏自动驾驶中心负责人刘先明承诺将在金门大桥裸跑[2][3][21] - 小鹏汽车已宣布第二代VLA将在2026年第一季度正式发布,并计划向Ultra车型全量推送,赌约时间点设定在发布后约5个月,被视为关键优化期[5][23] - 何小鹏在试驾对比后认为,特斯拉FSD V14.2已进入“准L4阶段”,虽然存在瑕疵,但水平大幅超过去年[2][20] 技术路径与能力评估 - 何小鹏表示,在近期测试中,他首次感受到第二代VLA的上限能够达到L4的可能性,若多给3-5年时间,甚至可能达到L5[6][24] - 小鹏第二代VLA的核心创新在于砍掉了语言转译环节,首次实现从视觉信号到动作指令的端到端直接生成[8][26] - 为训练该模型,公司使用了接近1亿个视频片段,相当于人类司机驾驶65000年才能遇到的极限场景总和,并采用了阿里云3万卡云端算力集群,部署720亿参数的基座大模型,每5天完成一次全链路迭代[8][26] - 公司自研的图灵AI芯片单颗算力为750TOPS,整车配备3颗芯片集群,总算力达2250TOPS,是行业主流双Orin-X方案(508TOPS)的4.4倍[11][29] 竞争对比与挑战 - 特斯拉FSD拥有显著的数据优势,通过全球超600万辆测试车辆,每天产生16亿帧图像数据,累计行驶里程已突破96亿公里,其“影子模式”能在全球多样化交通环境中收集数据[14][15][32] - 在20公里复杂小路的实测中,特斯拉FSD V13.2.9版本接管5次,而小鹏第二代VLA仅需接管1次[16][33] - 搭载小鹏第二代VLA的测试车辆已能识别交警手势、理解红绿灯并提前反应,甚至在暴雨夜安全行驶[17][34] - 然而,特斯拉最新的FSD V14.2版本大幅提升了性能,解决了V13.2.9版本中95%以上的犹豫变道和异常刹车问题[17][34] - 小鹏承认在“泛化”能力上面临挑战,例如不同国家对黄灯交通规则的理解不同,如何平衡并实现良好泛化是公司正在探索的问题[12][13][30][31]
输了裸奔,何小鹏打赌,明年8月要追上特斯拉FSD
36氪· 2025-12-12 20:12
公司管理层表态与赌约 - 公司CEO何小鹏在硅谷试驾后认为,特斯拉FSD V14.2已进入准L4阶段,大幅超过去年水准,但公司第二代VLA的首个版本尚无法实现其全部能力[2] - 何小鹏与自动驾驶团队立下赌约:若到2026年8月30日,公司VLA在国内达到特斯拉FSD V14.2在硅谷的效果,他将在硅谷建一家中国风味食堂;若未达成,自动驾驶中心负责人刘先明承诺将在金门大桥裸跑[2] - 公司已宣布第二代VLA将在2026年第一季度正式发布,并计划向Ultra车型全量推送,赌约时间点设定在发布后约5个月,是关键优化期[4] 公司技术路线与能力展望 - 何小鹏表示,在最近几个月的测试中,首次感受到第二代VLA的上限能够达到L4的可能性,如果多给3-5年,也许能够达到L5[6] - 第二代VLA方案砍掉了语言转译环节,首次实现从视觉信号到动作指令的端到端直接生成[9] - 为研发该模型,公司采用了阿里云3万卡云端算力集群,部署720亿参数的基座大模型,每5天完成一次全链路迭代,何小鹏称明年云端算力将达5万卡甚至更多[9] - 公司自研的图灵AI芯片单颗算力为750TOPS,整车配备3颗芯片集群,总算力达2250TOPS,是行业主流双Orin-X方案(508TOPS)的4.4倍[12] 行业技术对比与公司挑战 - VLA(视觉-语言-动作)概念由谷歌DeepMind于2023年提出,旨在整合视觉、语言和动作能力,目前除该公司外,理想汽车、长城汽车等车企也在布局[8] - 特斯拉FSD通过全球超600万测试车辆,每天产生16亿帧图像数据,累计行驶里程已突破96亿公里,其“影子模式”能在全球多样化交通环境中收集数据[13] - 在实测中,20公里复杂小路上,特斯拉FSD V13.2.9版本接管5次,公司第二代VLA仅需接管1次,公司车辆能识别交警手势、理解红绿灯并提前反应,甚至在暴雨夜安全行驶[13] - 特斯拉最新FSD V14.2版本大幅提升性能,解决了V13.2.9版本中95%以上的犹豫变道和异常刹车问题[13] - 公司正在探索泛化问题,例如不同国家对黄灯交通规则的差异,这是追赶特斯拉FSD需要解决的能力之一[13] 公司研发投入与合作伙伴 - 用于训练第二代VLA模型的视频片段接近1亿个,无需人工标注,相当于人类司机驾驶65000年才能遇到的极限场景总和[9] - 阿里巴巴CEO吴泳铭曾亲自到访公司广州总部,与何小鹏会面[10]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 08:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]