Workflow
端到端神经网络
icon
搜索文档
马斯克10年梦成真!特斯拉全球首次自动驾驶横穿美国,人类0接管
猿大侠· 2026-01-02 12:11
事件概述 - 特斯拉FSD系统完成全球首次经第三方验证的“零接管”横穿美国旅程,从洛杉矶行驶至南卡罗来纳州默特尔海滩,总里程2732.4英里(约4397公里),耗时2天20小时,穿越24个州,全程人工接管次数为0 [1][2][4][6][18][23] - 此次旅程由车主David Moss驾驶搭载FSD V14.2的Model 3完成,实现了物理世界的“自动驾驶奇点”,被喻为通过了公路上的图灵测试 [2][4][7] 技术突破与意义 - 此次成功标志着特斯拉端到端神经网络方案的重大胜利,系统从数百万小时视频中学习驾驶,不再依赖人类编写的规则代码 [10][16] - FSD V14.2的关键进步在于将导航和路径规划整合进神经网络,使系统能像本地人一样根据实时路况理解如何行驶,而非依赖死板地图 [62][63][64][66] - 此次壮举有力回应了行业质疑,证明仅凭摄像头和算力的纯视觉方案,无需激光雷达和高精地图,也能处理从都市到公路的复杂现实场景 [70][71] - 尽管官方仍定义为SAE L2(需监督),但此次事件表明车辆完成100%驾驶任务、驾驶员仅作安全监督已完全可能 [72] 历史背景与承诺兑现 - 特斯拉CEO埃隆·马斯克曾在2016年10月承诺,到2017年底特斯拉将实现从洛杉矶到纽约的全程自动驾驶且无需触碰方向盘,该承诺多次延期,直至此次旅程才最终兑现 [29][30][31][48][49] - 从FSD V12版本开始,特斯拉彻底转向“端到端”神经网络技术路线,抛弃了传统的规则代码,这是实现此次突破的基础 [16][52] 旅程细节与验证 - 整个旅程路况复杂,经历了城市街道、州际高速、天气多变、交通拥挤、夜间驾驶等场景,系统未出现一次险情,且在所有充电站点的停车均由FSD自动完成 [20][22][24] - 车主David Moss在2025年底就曾创下纪录,在FSD V14上连续无干预驾驶超过10000英里,此次横穿美国是其更宏大目标的实现 [35][36][43][44] - 旅程数据可公开登录FSD数据库进行验证 [22] 行业与市场反响 - 此次成就震撼了全球科技圈、AI圈及特斯拉车主,前特斯拉AI总监安德烈·卡帕西等人将其誉为“软件2.0”在物理世界的完全接管 [3][9][10] - 社交媒体上,有用户反馈自FSD V14.2更新后,已实现超过1500英里全程100%使用率,体验良好 [32] - 此次成功向整个行业证实,即使在现实复杂场景下,实现L4级别自动驾驶也具有可能性 [25]
马斯克10年梦成真!特斯拉全球首次自动驾驶横穿美国,人类0接管
创业邦· 2026-01-02 12:06
事件概述 - 2026年第一天,特斯拉FSD系统完成了全球首个完全自动驾驶、零人工接管的横穿美国之旅,标志着自动驾驶技术达到全新里程碑[2][3] - 车主David Moss驾驶搭载FSD V14.2的Model 3,从美国西海岸洛杉矶行驶至东海岸南卡罗来纳州,全程2天20小时,人类驾驶员0次接管方向盘或踏板[4][6][8] - 此次旅程穿越了24个州,总里程达2732.4英里(约4397公里),全程由第三方数据验证,特斯拉官方账号及CEO马斯克均对此表示赞扬[13][15][23][25] 技术细节与表现 - 此次旅程全程未出现一次险情,系统成功应对了包括加州高速公路、中部城市街道、东海岸复杂路况、夜间驾驶、德克萨斯暴雨以及自动化充电在内的各种复杂场景[22][25][27][28] - 车辆在所有充电站点的停车动作均由FSD系统自动完成,相关充电记录已公开[30] - 此次成功的关键在于FSD V14.2版本将导航和路径规划整合进了端到端神经网络,使系统能像本地人一样根据实时路况做出决策,而非依赖传统死板的地图[69][70][74] 技术路径与行业意义 - 特斯拉自FSD V12版本开始,彻底抛弃传统C++代码逻辑,转向端到端神经网络方案,让AI通过数百万小时视频学习驾驶,实现了“软件2.0”在物理世界的完全接管[11][21][59] - 公司AI负责人指出,端到端方案的优势在于:从数据中学习人类价值观比系统化定义更容易、通过梯度整体优化网络、易于扩展以处理现实世界长尾需求、具有确定性延迟的同构计算[63] - 此次成功有力回应了“纯视觉方案无法实现长途全自动驾驶”的质疑,证明了仅凭摄像头和算力,无需昂贵激光雷达和高精地图,AI也能处理绝大多数现实驾驶场景[75] 历史背景与承诺兑现 - 特斯拉CEO马斯克曾在2016年10月预言,到2017年底特斯拉将能实现从洛杉矶到纽约的全程自动驾驶且无需人工触碰方向盘,但该承诺多次跳票,直至2026年才由第三方车主实现[35][36][55][56] - 此次壮举被视为一个迟到了八年的承诺的兑现,标志着特斯拉正式通过了公路上的“图灵测试”[9][37] 当前定位与未来展望 - 尽管完成了100%的驾驶任务,特斯拉官方仍将FSD定义为需要监督的SAE L2级自动驾驶系统[76] - 分析认为,一次成功的“零接管”长途旅行并不代表系统已完美,要应对数百万辆车的日常通勤安全,可能还需要等待几个软件版本的迭代甚至新一代硬件Hardware 5.0的普及[75][78] - 前特斯拉AI总监Karpathy评价称,这是端到端神经网络的胜利,方向盘未来可能只是车上的一个装饰品[11][18]
2天20小时、零接管横穿美国,特斯拉FSD已通过“物理图灵测试”?
华尔街见闻· 2026-01-01 20:20
核心观点 - 特斯拉FSD v14系统在一项由普通车主完成的、横跨美国大陆的真实驾驶测试中,实现了全程2732英里零人工接管,标志着其自动驾驶技术成熟度达到重要里程碑,并引发了其可能已通过“物理图灵测试”的行业讨论 [1][3][9][12] 技术突破与表现 - 一辆搭载FSD v14.2.1.25的Model 3,在车主Davis Moss驾驶下,从洛杉矶到南卡罗来纳州,全程2732.4英里100%依赖FSD,未出现任何人工接管或险情 [1][4][5] - 行程覆盖高速公路、城市道路、夜间驾驶及多次进出超级充电站等复杂场景,系统处理了所有停车操作,包括超级充电站的自动泊车 [1][5] - 此次零接管横跨海岸驾驶是特斯拉自2016年以来反复提及但未能实现的目标,现被社区和官方视为自动驾驶技术成熟度的重要标志 [7][9] - 系统在极端天气下也展现出能力,有案例显示FSD在能见度极差、路面积水严重的冰雹暴风雨中连续行驶7小时无人工干预 [15] 技术原理与数据优势 - FSD v14的突破源于从基于规则的系统向端到端神经网络的转变,通过海量真实驾驶数据训练,以类似人类的方式学习驾驶模式 [15] - 配备FSD的特斯拉车辆已累计行驶近70亿英里,其中约25亿英里在城市环境中完成,这些复杂场景数据是系统能力提升的关键 [15] 行业影响与评价 - 英伟达机器人业务负责人Jim Fan提出,FSD v14可能已通过“物理图灵测试”,即其驾驶行为让观察者难以区分是机器还是人类 [12] - 试乘体验显示,FSD的驾驶行为像一位谨慎、有经验的人类司机,能对难以手工编程实现的微妙线索做出反应 [13] - 驾驶被认为是结合了理解三维空间、精细处理物体、掌握真实世界背景知识及弥合数字指令与物理行动鸿沟四大挑战的最难攻克的具身AI问题之一 [13] - 技术转变被类比为智能手机的普及过程:从令人惊叹到成为常态,最终不可或缺,为能理解意图的机器人技术打开大门 [15]
特斯拉将最新无人驾驶电动车“开进”进博会
中国经济网· 2025-11-10 15:36
产品展示 - 公司在进博会展示其明星展品Tesla Cybercab无人驾驶电动车,旨在让观众感受无人驾驶时代已到来[1] - Cybercab无方向盘和脚踏板,采用Tesla Vision视觉处理系统加端到端神经网络自动驾驶方案,无需使用昂贵的激光雷达硬件即可实现无人驾驶[1] - 针对92%的出行场景为1-2人的需求,新车采用两座设计并搭配超大后备箱,可满足大部分打车场景及城市间小型货运需求[1] - 同台展出两台特斯拉人形机器人Tesla Bot,该机器人与电动车技术同源,共享摄像头、三电技术及端到端神经网络技术[1] - 车辆积累的超大规模视觉数据为机器人训练提供持续素材[1] 能源生态系统 - 公司展示多场景能源产品,包括太阳能屋顶Solar Roof、Powerwall家用储能系统、V4超级充电桩、Cybervault充电桩及Megapack商用储能系统示意图[2] - 上述能源产品建立起“利用、储存、再利用”的循环生态链,服务于人类生活、生产、出行用电的不同场景,提供清洁可靠能源[2] - 展台以未来街区形式呈现,屋顶Solar Roof将太阳能转化为清洁电力储存进Powerwall,为特斯拉之家及家用充电桩供电[2] - 整个街区电力供应来自超大型商用储能系统Megapack[2] 未来愿景呈现 - 展台场景包含停放的赛博越野旅行车、街上行驶的Model 3和Model Y L、帮主人遛狗做家务的机器人以及等待乘客上车的Cybercab[2] - 该展示在充满科技感的同时传递出生活气息,呈现一体化未来生活图景[2]
特斯拉Cybercab亮相进博会 人形机器人秀出“车同源”技术
证券日报网· 2025-11-05 21:13
公司业务布局与战略 - 公司在进博会以未来街区形式展示其完整的业务布局 涵盖整车 能源 机器人三大板块 [1] - 三大业务的本质是利用同一套AI底层能力进行横向扩张 通过端到端神经网络同时驱动车轮和关节 [1] - 共享AI技术有望使量产成本下降曲线比纯电汽车更陡峭 若实验成功将带动供应链享受机器人红利 [1] Cybercab与Robotaxi业务 - Cybercab采用纯视觉自动驾驶方案 无需激光雷达等昂贵硬件 计划于2026年第二季度启动量产 [2] - Cybercab将服务于Robotaxi无人驾驶网约车车队 该业务已于2025年6月在得州奥斯汀开始运营 [2] - Robotaxi在奥斯汀累计里程超40万公里 在加州湾区累计里程超160万公里 [2] - 当Cybercab大规模加入后 Robotaxi整体运营成本将低于所有现有交通工具 每公里费用仅需几毛钱 [2] - 加入Robotaxi车队可使私家车行驶时长提升十倍 单车年行驶里程有望突破8万公里 [2] - 纯视觉方案使成本骤降 百万公里级运营数据已验证可靠性 计划将每公里出行成本压至几毛钱 [3] 人形机器人业务 - 人形机器人与车辆技术同源 共享摄像头 三电技术以及端到端神经网络技术 [4] - 车辆积累的超大规模视觉数据为机器人训练提供素材 机器人已能完成清洁 抓取 焊接等多种任务 [4] - 人形机器人未来全球人机比例将提升至1:2 功能将覆盖工业制造 家庭服务 医疗护理等领域 [4] - 公司正在安装人形机器人生产线 预计2026年底启动生产 2030年实现年产100万台的产能目标 [4] - 第三代人形机器人将在2026年第一季度发布 [4] 供应链优势与影响 - 人形机器人采用车规级器件 其可靠性比工业级高一个数量级 对量产是决定性优势 [5] - 公司将汽车产业链直接平移到机器人 大幅降低了人形机器人零部件成本 [5] - 国内供应商在电池 电机 精密减速器环节具备全球竞争力 [6] - 特斯拉机器人的放量有望使中国零部件企业复制“苹果链”奇迹 带动上下游新增产值万亿元 [6]
直通进博会丨Cybercab+人形机器人 在进博会看特斯拉的现实世界AI宏图
新华财经· 2025-11-05 11:31
特斯拉AI战略展示 - 公司在第八届中国国际进口博览会上展示了Cybercab赛博无人驾驶电动车和人形机器人Tesla Bot,作为现实世界AI的两大载体[2] - 公司展示了电动车、能源和人工智能整体全线板块,描绘可持续富足时代的未来生活场景[2] - 公司通过"宏图计划第四篇章"表明重大战略转向,即从电动汽车和新能源全面转向人工智能和人形机器人[5] Cybercab无人驾驶技术 - Cybercab在进博会进行亚太首秀,具备无方向盘和脚踏板设计,体现"端到端神经网络"技术支持下的真正无人驾驶[2] - 端到端技术意味着车辆能自主完成从感知、决策到执行的全驾驶流程,无需人工干预[2] - 截至三季度末,公司已积累60亿英里的行车数据以强化端到端神经网络能力[3] - 公司发布的"世界模拟器"系统可在一天内吸收相当于人类500年的驾驶经验[3] - Cybercab计划在2026年第二季度启动量产,将服务于Robotaxi无人驾驶网约车车队[3] - Robotaxi有望在未来数月内取消安全驾驶员,并预计2025年底前在8至10个市区开展运营[3] 人形机器人业务发展 - 人形机器人Tesla Bot被定位为公司的终极价值所在,未来将占据公司价值的80%左右[4][5] - 人形机器人成功需满足三个条件:功能强大的机械手、能探索感知现实世界的AI大脑、规模化量产能力[5] - 第三代人形机器人将在2026年第一季度发布,公司正在安装生产线预计2026年年底启动生产,最高年产能100万台[5] - 外部投资机构认为人形机器人是长期巨大机会,潜在市场规模可能高达26万亿美元[5] - 公司最终目标被解读为不是销售电动车,而是主导一个全球机器人出租车生态系统[5]
马斯克「世界模拟器」首曝,1天蒸馏人类500年驾驶经验,擎天柱同脑进化
36氪· 2025-10-27 15:34
核心技术:世界模拟器 - 公司发布由神经网络驱动的“世界模拟器”,能够生成逼真的虚拟驾驶环境用于测试和训练[1] - 该模拟器可基于初始视频片段,合成多视角、连续长达6分钟的驾驶画面,帧率为24帧/秒[2] - 模拟器能处理长尾场景,如行人横穿马路和车辆加塞,并在虚拟世界中以对抗性方式进行反复试炼[2] 技术架构:端到端神经网络 - 公司采用“端到端”神经网络方案,直接处理来自多个摄像头、车辆运动学信号、音频、地图等原始数据,并输出方向盘和油门/刹车的控制指令[4][5][7] - 该方案相比传统的模块化(感知-预测-规划)方法具有根本优势,包括能隐式学习人类驾驶价值观、消除模块间信息损失、具备更好的可扩展性以及符合Scaling Law规律[9][13][16][18][19] - 神经网络需处理高达20亿个输入信息单元(token),并将其压缩为2个输出指令,公司通过日均相当于人类500年驾驶经验的海量数据来训练模型,以学习正确的因果关系而非偶然相关性[22][23][25] 系统能力与可解释性 - 系统具备可解释性,能输出被称为“中间token”的思考过程,并利用“生成式高斯泼溅”技术基于摄像头输入生成新视角的3D场景,全程运行时间约220毫秒[33][34][38][40] - 人工智能还能用自然语言解释其决策,例如在复杂路况下(如雨天路滑)能对“二阶效应”进行预判,提前减速[29][30][40] 应用扩展与战略布局 - 公司将其为自动驾驶汽车开发的同一套AI大脑和世界模拟器技术,无缝迁移至人形机器人“擎天柱”项目,用于模拟其在物理世界中的导航与交互[2][3][47] - 公司的战略野心超越了造车,旨在打造一套可解决通用物理世界交互问题的底层AI引擎,汽车被视为收集数据和验证技术的首个应用载体[47]
理想智驾是参考特斯拉, 不是跟随特斯拉已经有了很强的证据
理想TOP2· 2025-10-24 12:48
理想智驾与特斯拉的技术发展关系 - 理想智驾从V10-11时期的跟随特斯拉转变为V12及以后的参考特斯拉,跟随尺度显著降低[2] - 转变的核心锚点是理想在VLM后进行了大量特斯拉未公开提及的原始创新,其VLA创新度达到DeepSeek MoE水平[2] - 理想VLM由快系统(系统一)和慢系统(系统二)组成,快系统部分可视为跟随特斯拉,但慢系统部分为理想独立创新,因为特斯拉直到ICCV 2025才提及该概念,而理想在2024年X月已发表相关论文[3] - 理想VLM到VLA的演进是基于VLM的自然发展路线,而非追随特斯拉[3] 特斯拉端到端自动驾驶技术框架 - 特斯拉转向单一、大型的端到端神经网络,直接输入像素和传感器数据,输出控制动作,不再有显式感知模块[4] - 转向端到端的原因包括:人类价值观编码困难、传统模块接口信息丢失、易于扩展处理长尾问题、实现同构计算与确定性延迟[5] - 面临三大挑战:维度灾难(30秒窗口达20亿token)、可解释性与安全保证、评估难度[6][7] - 解决方案包括:利用车队数据挖掘高价值场景、通过辅助输出(如3D占用、自然语言决策)实现可解释性、使用神经网络闭环模拟器进行评估[7][8][9][10] 理想与特斯拉技术路线的对比与创新时序 - Ashok在ICCV 2025提及的系统2自然语言应用、高斯溅射生成仿真、仿真评估等概念均为理想率先公开[13][16] - 理想在2024年1月2日发表的论文已包含3D高斯表征相关内容,早于特斯拉ICCV 2025的公开介绍[18][20] - 特斯拉架构图中明确标注系统2和LLM应用,进一步验证理想在相关技术方向的先行性[22] - Ashok此次演讲未提出突破性概念,因此不能认为特斯拉再次引领行业研究方向调整[13]
特斯拉Ashok ICCV'25讲FSD与QA|952字压缩版/完整图文/完整视频
理想TOP2· 2025-10-23 23:33
技术架构转型 - 特斯拉转向采用单一、大型的端到端神经网络,直接接收像素和其他传感器数据作为输入,并输出下一个控制动作,不再依赖显式的感知模块[1][2][34] - 转向端到端架构的原因包括:将人类驾驶价值观(如平顺性)编入代码极其困难;传统模块化架构的接口定义不佳易导致信息丢失;该架构易于扩展以处理现实世界的长尾问题;并能实现具有确定性延迟的同构计算,这对实时系统至关重要[3][4][5][6][36] - 该技术路径被认为是解决机器人技术的正确方法,其优势在处理复杂场景时尤为明显,例如为避开路面水坑而驶入对向车道,或理解鸡群过马路的意图并耐心等待,这些决策难以用显式代码编写[40][46] 核心挑战与解决方案 - 面临维度灾难挑战,输入上下文极长,例如30秒窗口可达20亿个token[7][10][48] - 解决方案是利用庞大的特斯拉车队数据,通过基于触发器的机制(如用户干预、状态空间大变化)精准挖掘有价值的极端场景数据,而非海量普通数据,从而使模型能泛化到极端场景,实现主动安全[11][51][56] - 在高速公路上演示了系统的主动安全能力,当前方车辆失控撞向护栏时,系统不仅判断一阶碰撞风险,更预判了车辆反弹回车道的二阶效应,提前实施了约4米每平方秒的强力刹车[57][58] 可解释性与调试方法 - 端到端模型可被提示预测多种可解释的辅助输出用于调试和安全保证,包括3D占用和流、物体、交通控制、道路边界、语义以及自然语言表达的决策[12][13][60] - 生成式高斯溅射技术相比传统方法有显著提升,优化时长从约30分钟缩短至220毫秒,无需3D关键点初始化,能更好处理动态物体,且新视角生成质量更高[15][65][66] - 模型支持自然语言交互和“系统2思考”,在需要时可花费更长时间生成推理token,再产生与推理一致的行动,避免了始终推理导致的延迟[16][69] 评估体系创新 - 评估是最大挑战,好的开环性能不保证好的闭环结果,需要平衡且详尽的评估集,而非随机采样的大量普通驾驶数据[9][17][18][71] - 核心解决方案是神经网络闭环模拟器,该模拟器使用易于收集的状态-动作对数据训练,能生成所有8个摄像头的一致视频流(长达数分钟),并可与策略神经网络连接在闭环中模拟世界[19][20][22][77][79] - 该模拟器能重放历史失败案例以评估新策略,并能合成创造新的对抗性事件(如车辆横切)来测试极端案例,渲染性能接近实时,允许人类在模拟器中实时驾驶测试[23][24][81][82] 技术应用与扩展 - 下一代Cyber Cab是为robotaxi设计的专用车辆,旨在实现低于公共交通的交通成本,并由相同的端到端神经网络技术驱动[25][83] - 相同的核心技术,包括视频生成,可无缝转移到其他人形机器人Optimus上,展示了其在工厂内导航并生成一致视频的能力,体现了技术的高度可扩展性[26][84][86] - 公司全身心投入于机器人技术,致力于为世界生产智能、有用、大规模的机器人,并将该技术扩展到不同的车辆平台、地理位置和天气条件[83][84][87]
会叠衣服的中美机器人,谁离具身智能更近?
36氪· 2025-10-20 20:43
产业竞争格局 - 全球人形机器人产业呈现中美双雄竞争格局,中国企业数量超过110家,占据全球半壁江山,美国企业超过45家,占比20% [27] - 中国产业已形成京津冀、长三角、粤港澳三大集聚区,其中长三角地区以8686家企业占据全国31.8%份额 [23][43] - 2025年上半年全球人形机器人融资超140亿人民币,中国占六成,红杉、高瓴、宁德时代、蚂蚁、腾讯、美团等头部机构纷纷入场 [24] 成本与制造优势 - 中国企业在成本控制上优势显著,宇树科技G1机器人售价压至9.9万元人民币起,双足机器人R1售价3.99万元起,而波士顿动力Atlas单台价值200万美元,本田ASIMO价值250万美元 [1] - 供应链本土化是降本关键,谐波减速机、传感器等环节实现国产替代,如柯力传感的应变式力矩传感器、昊志机电和宇立仪器的六维力矩传感器 [15] - 特斯拉Optimus目标售价约2万美元,但其降本很难脱离中国制造 [1][40] 技术发展路径 - 中美技术侧重出现分野:中国依托成熟供应链侧重硬件制造与仿生模拟,如宇树G1拥有43个关节电机;美国则以特斯拉、Figure AI为代表聚焦“端到端神经网络”和通用VLA模型,在自主决策、环境适应上领先 [4][21][59] - 2025年3月“具身智能”被写入中国政府工作报告,标志着中美在AI终极形态上的竞争正式开始 [19] - 当前行业处于从“形体仿人”向“能思考的具身智能”过渡的关键期,核心挑战在于AI能力不足,而非硬件 [56][64] 应用场景落地 - 中国人形机器人已在工业场景快速落地,优必选Walker S1可在比亚迪工厂完成车灯毫米级质检,利元亨激光系统降低60%人力成本,中控技术“领航者2号”将在石化企业高风险作业场景应用 [21][60] - 世界机器人大会列出十大潜力应用场景,包括汽车制造分拣配料、船舶制造打磨抛光、石油化工产线巡检、电力生产电站操作等,其中不乏中国优势产业场景 [5][6][9] - 美国企业在家庭服务等场景创新加速,Figure AI机器人展示完全自主叠衣服能力,特斯拉Optimus V3实现拟人化交互,能通过声纹识别区分家庭成员 [50][52][54] 市场与资本动态 - 高盛预测2035年全球人形机器人市场达1.1万亿元人民币,DeepSeek预测中国市场规模3000亿元 [23] - 2025年上半年中国新增人形机器人相关企业超105家,较2024年全年增长183.78%,行业处于规模化商用拐点 [42] - 资本市场活跃,2025年上半年13家中国机器人公司赴港上市,涵盖人形机器人、协作机器人等领域,包括已上市的优必选、地平线、越疆科技等 [25] 当前产业挑战 - 产品在运动控制、续航、自主性等基础能力上存在显著短板,如人形机器人马拉松多数无法完赛,展品需工作人员搀扶或遥控 [31][33] - 产业融资阶段偏早期,主要集中在天使到A轮,多数公司仍处“技术验证”阶段,离大规模应用尚有距离 [35] - 与美国相比,中国在具身智能大模型上无明显优势,导致产品在交互能力和通用能力方面欠缺 [64]