端到端模型
搜索文档
给机器人造一颗会思考的大脑,白惠源的“反共识”突围
财富FORTUNE· 2026-01-21 21:03
文章核心观点 - 原力无限公司创始人白惠源在2026年CES论坛上提出,当前人形机器人行业的最大瓶颈在于缺乏对世界的因果理解,没有“具身大脑”的机器人只是精致的提线木偶 [1] - 公司自2023年创立起,便选择了一条与行业主流“卷硬件”不同的“反共识”路径,聚焦于打造能够理解物理世界、具备因果推理能力的“具身大脑”,并推行“一脑多身多场景”战略 [2][3][12] - 公司通过“持续学习的Hyper-VLA + 因果世界模型”技术路线,致力于让机器人从依赖大数据的“关联”学习,进化到具备“小数据、强逻辑”的因果推理能力,以解决在物理世界中面临的“数据饥渴”和“鲁棒性缺失”问题 [5][6] - 2025年,公司获得超过5亿元人民币的商业订单,这些来自文旅、科研、能源等领域的头部客户的订单被视为对技术路线的“信任票”,用于在真实场景中验证技术、喂养数据,推动产品从Demo到Pilot的关键跨越 [8] - 公司的长期愿景是成为机器人智能内核的底层提供者,让技术变得无形,使人类忘记是在与机器打交道 [13] 行业背景与公司战略选择 - **行业趋势**:2023年左右,机器人行业陷入一场“造身体”的硬件军备竞赛,全球数百家创业公司比拼关节、步态等硬件参数 [2] - **公司洞察**:行业痴迷于打造完美躯壳,却忽视了机器人的认知能力,没有认知能力的机器人与遥控玩具无异 [2] - **战略路径**:公司确立“一脑多身多场景”战略,不参与硬件参数内卷,战略重心聚焦于能适应不同躯体、理解物理世界的“具身大脑” [3] - **核心逻辑**:硬件是容器,智能是水,先让大脑学会如何定义身体,而非相反 [3] - **关键选择**:公司在行业卷硬件时押注“一脑多身”架构;在行业迷信端到端黑盒时引入“因果推理”逻辑白盒;在行业浮躁时选择用“场景闭环”打磨产品,这三次“反共识”选择构建了公司的护城河 [12] 技术路线与核心理念 - **技术范式**:采用“持续学习的Hyper-VLA + 因果世界模型”技术路线,被硅谷主流技术圈视为对主流范式的“叛逆” [5] - **理论依据**:借鉴Judea Pearl的观点,指出现有AI大多停留在“关联”层面,而真正智能需跨越到“干预”和“反事实”层面 [5] - **现有模型局限**:“端到端学习”范式在物理世界面临严重“数据饥渴”和“鲁棒性缺失”,它基于概率统计,无法理解材质属性(如玻璃易碎)或推导事件后果(如碎片伤人) [6] - **公司解法**:在大模型的直觉之上,叠加一层因果逻辑引擎,让机器人学会因果推理 [6] - **思维类比**:将现有端到端模型比作丹尼尔·卡尼曼理论中的“系统1”(快思考,靠直觉),而公司正给机器人装上“系统2”(慢思考,靠逻辑) [6] - **进化方向**:这是一场从“大数据”向“小数据、强逻辑”的进化,旨在让机器人在缺乏数据的陌生环境中依然安全、可控 [6] - **终极目标**:公司旨在培养理解世界的智能体,而非训练动作模仿者,这被认为是两条完全不同的物种进化树 [6] 商业化进展与市场反馈 - **订单规模**:2025年,公司斩获超过5亿元人民币的商业订单,在行业内引发震动 [8] - **订单性质**:订单并非标准化货架产品,而是来自文旅、科研、能源、智能制造等领域头部客户的“联合实验”,他们为“未来的可能性”买单 [8] - **应用场景**:公司的AstroDroid AD系列人形机器人正在真实场景中跨越,如在博物馆理解游客意图、在实验室操作精密仪器、在家庭提供清洁服务 [8] - **订单意义**:这5亿元订单是市场投出的“信任票”,反映了行业对机器人能否在真实世界干“正经事”的焦虑与期待 [8] - **发展逻辑**:通过商业试点验证技术,用真实场景喂养数据,形成“数据飞轮” [8] 创始人理念与公司愿景 - **创始人观点**:在CES论坛上,白惠源指出“一个不理解世界因果关系的机器人,不过是一个精致的提线木偶” [1] - **创业动机**:基于对底层逻辑的推演,认为具身智能的核心矛盾在于大脑对物理世界的感知与预测能力,而非肢体灵活性 [3] - **中国优势认知**:面对中国供应链优势的提问,创始人表示正因为中国擅长制造,才更清楚制造不是终点,并坚信理想主义者才能改变世界 [10] - **长期愿景**:希望公司成为机器人世界的“空气”和“水”,无论未来机器人形态如何,其智能内核(理解世界、自主决策的大脑)源自原力无限 [13] - **技术境界**:最顶级的技术会变得无形,让人类彻底忘记是在与机器打交道 [13]
硬科技冲高,机器人行情火热,昊志机电涨超6%,机器人ETF基金(159213)冲击五连阳,连续3日强势吸金超6300万元!人形机器人"黄金十年"启幕?
搜狐财经· 2025-12-30 11:42
机器人ETF基金市场表现 - 12月30日,机器人ETF基金(159213)上涨0.67%,冲击五连阳 [1] - 当日盘中资金大举净申购2000万元,已连续3个交易日强势吸金超6300万元 [1] - 成分股涨跌互现,新时达涨停,昊志机电涨超6%,拓普集团涨0.81%,机器人涨0.51%,汇川技术、双环传动等涨幅居前 [6] 机器人ETF基金成分股构成 - 标的指数前十大成分股覆盖计算机、机械设备、汽车、家用电器等行业 [2] - 前两大成分股为科大讯飞(估算权重9.96%)和汇川技术(估算权重9.94%) [2] - 前十大成分股还包括拓普集团(权重7.71%)、大华股份(权重4.59%)、大族激光(权重4.27%)等 [2] 行业标准化进程与产业现状 - 人形机器人与具身智能标准化技术委员会在北京成立,旨在通过标准制修订工作引导产业健康发展 [3] - 当前产业规模增速较快,但存在标准滞后、基础接口不统一推高协同成本、应用缺乏规范影响市场信任等问题 [3] - 标委会将承担基础共性、关键技术、部组件、整机与系统、应用、安全等领域的行业标准制修订工作 [3] 产业发展阶段与未来展望(开源证券观点) - 回顾2025年,产业从“0-1”开始走向“1-10”,核心是“技术收敛”,板块围绕特斯拉机器人的技术迭代和升级方向展开 [4] - 展望2026年,产业将跨越“1-10”拐点,走向“10-100”,核心是“量产和商业化” [4][8] - 2026年关键预测包括:特斯拉Gen2.5机器人硬件平台或已锁版,为Gen3量产筑牢基础;3月份开启批量订单,8月份开启大规模制造;宇树等国产头部企业有望实现IPO;政策与产业端有望实现中美共振,板块迎来主升浪 [8] 技术、硬件与政策催化(国联民生观点) - 大脑方面:模型加速进化,VLA架构成为2025年主流方案,强化学习加速融入训练,端到端模型是终局方向,真实数据成为核心生产力与竞争瓶颈 [9] - 本体方面:硬件处于多元探索阶段,应用由数据采集与教育科研为主,向“工业与特种先行、商业跟进、家庭探索”路径展开,机器人形态将长期多元并存 [9] - 政策方面:通用机器人为大国科技竞争前沿,海内外政策共振,国内形成“国家战略引领、地方落地支撑、标准体系规范”的格局,政策加码提供发展预期与长期确定性 [10] 行业整体趋势与投资工具 - 全球科技巨头与新秀全面下场布局人形机器人,行业量产奇点已至 [11] - 机器人ETF基金(159213)及其联接基金跟踪中证机器人指数,该指数结构与产业链环节高度契合,为投资者提供一键布局工具 [11]
预估3万亿,特斯拉用AI攥住美股的话语权
36氪· 2025-12-27 16:14
核心观点 - 华尔街分析师将特斯拉的牛市目标价推向3万亿美元市值,其估值逻辑已从传统汽车制造商转变为“AI与机器人超级周期”叙事,公司将自身重塑为拥有物理实体的人工智能巨头 [1] 估值逻辑转换 - 华尔街采用分类加总估值法,传统汽车销售业务在总估值中的占比被压缩至不足30%,该业务被视为为AI训练提供资金的“现金牛” [4] - 视角转换的核心在于“边际成本”差异:汽车制造业成本线性增长,毛利率在15%—18%区间;而AI业务(如FSD订阅、Robotaxi)复制成本近乎为零,潜在毛利率高达80% [4] - 若未来全球数千万辆特斯拉车队中有30%转化为FSD订阅用户,将直接带来数百亿美元的纯利润 [5] - Robotaxi业务被预测每英里成本将低于0.2美元,远低于Uber或Lyft,并可能赋予公司类似苹果App Store的定价权和平台佣金收入 [5] - 特斯拉的Megapack储能业务在2025年Q3财报中表现出惊人增速,被视为未来电力基建的核心拼图 [6] - 当前估值逻辑完全建立在“完美执行”的假设之上,是一场基于未来的透支 [6] FSD V13的技术优势与竞争壁垒 - FSD V13采用“端到端”神经网络,彻底改变了自动驾驶技术栈,让AI直接学习人类驾驶直觉,摒弃了传统基于人为规则代码的模式 [9] - FSD V13的参数量和训练算力需求较V12呈指数级跃升,背后依靠部署了数万颗H100/H200 GPU及自研Dojo芯片的超级计算集群 [9] - 特斯拉在全球拥有超过600万辆具备FSD能力的车辆作为移动数据采集节点,提供了竞争对手无法企及的海量训练数据优势 [10] - 公司展现出对算力摩尔定律的极致追逐,FSD V13在HW4.0硬件上的表现显著优于HW3.0,为此甚至愿意牺牲部分存量市场的体验 [10] - 端到端模型的“黑盒”特性带来挑战,修正错误需通过数据清洗和重新训练,可能耗时数周并持续消耗数十亿美元的算力投入,是一场没有终点的军备竞赛 [11] 具身智能与机器人业务 - Optimus人形机器人进化迅速,已能从原型机发展到在工厂执行电池分拣等精密任务的Gen 3版本,证明了FSD算法在机器人领域的复用性 [14] - 用于训练汽车自动驾驶的视觉网络可无缝迁移至机器人导航,形成了底层AI逻辑的同构与闭环 [14] - 全球劳动力市场规模达数十万亿美元级别,若Optimus能以2万美元成本替代年薪5万美元的蓝领工人,其商业价值将远超汽车业务 [14] - 特斯拉在“AI+制造”上拥有双重基因,其大规模的超级工厂运作经验是其他机器人公司所不具备的核心优势 [16] - 公司构建了从能源(光子变电子)、算力到物理世界动作的完整链条,并握有每个环节的定价权,使其成为难以对标的独特物种 [16] 面临的现实挑战 - 监管是Robotaxi商业化的主要障碍,美国涉及FSD的事故会引发严格调查,加州监管机构对无人驾驶商业化运营态度谨慎 [15] - 在中国市场,FSD入华面临数据出境、地图测绘资质及权责界定等复杂的合规博弈 [15] - Optimus要实现数百万台量产,面临执行器寿命、电池续航及非结构化环境安全等工程学挑战 [15] - 中国在具身智能领域爆发力显现,依托强大供应链和创新生态,特斯拉在机器人时代将面临一群反应迅速的强劲竞争对手 [15]
载具纪元新章系列1:Robotaxi白皮书:技术政策双轮驱动,行业正处高速增长阶段
申万宏源证券· 2025-12-16 09:43
报告行业投资评级 - 看好 [1] 报告的核心观点 - Robotaxi行业正处在技术政策双轮驱动的高速增长阶段,技术可行性已得到验证,行业主要矛盾正从技术可行性转向商业可行性 [1][2][6] - 行业有望成为万亿级蓝海市场,并孕育出千亿级企业 [2] - 建议重点关注在软件算法端与终端运营端建立起一定壁垒的企业 [3] 根据相关目录分别进行总结 1. Robotaxi背景:智驾技术重塑出行服务行业 - **行业演进**:出行服务行业从传统巡游出租车(线下匹配效率低下)演进到网约车(算法撮合提升效率但服务体验不标准),再到Robotaxi(通过自动驾驶提供无人化、标准化的服务)[15][18] - **价值链重构**:Robotaxi时代,运力的供应、代理与管理面临结构性洗牌,车辆资产所有权可能从分散个体转向技术公司或专业运营公司,行业利润有望被重新分配 [20][22][25] - **技术可行性**:无人驾驶技术路径已从早期多模块探索转向以端到端学习为主流的技术收敛阶段,头部企业如Waymo的实际运营数据已验证其安全性显著优于人类驾驶员 [2][26][35] - Waymo在全无人驾驶累计超5670万英里背景下,其严重事故率较人类降低91%,行人、自行车、摩托车受伤率分别下降92%、78%、89% [35] - 保险理赔数据显示,Waymo相较于人类驾驶,财产损失索赔下降88%,人身伤害索赔下降92% [38] - **商业可行性**:当前中美主要Robotaxi公司均处于试点阶段,尚未盈利,但清晰的盈利路径在于硬件成本下降、规模化降本及网络效应带来的订单密度提升 [44][45] 2. 产业链结构:智驾技术+硬件生产+终端运营 - **合作模式**:当前主流为“金三角”协作模式,即智能驾驶公司输出方案、主机厂提供车身制造、出行服务平台统筹运营 [2][47] - **技术端**: - Robotaxi商业化基础是L4级自动驾驶,技术公司发展路径可分为渐进式(如特斯拉)和跨越式(如Waymo)[2][59] - L4系统强调安全冗余,带来额外硬件成本,技术迭代的关键在于高质量数据获取与高效数据闭环的建立 [2][56][66] - 行业处于规模化前试点阶段,技术公司多自持车队运营以收集数据,Waymo周订单量从2023年5月的1万单增至2025年8月的36万单,车队规模从2025年5月的1500辆增至11月的2500辆 [68][72] - **硬件端**: - L4级核心硬件为高算力车规芯片与激光雷达 [2][95] - 智驾域控芯片市场由英伟达与特斯拉主导,2024年两者合计份额达65%,但国产芯片如华为昇腾610、地平线征程5市占率正逐步提升 [98][99] - 激光雷达是L4安全冗余的核心组件,随着产业链成熟与规模效应显现,其价格持续下降,为Robotaxi降本创造条件 [104][112][113] - 全球激光雷达市场规模预计从2024年的约16亿美元增长至2029年的171亿美元 [107] - 2025年上半年,国内主激光雷达市场前三名为禾赛科技(33%)、华为(30%)、速腾聚创(28%)[111] - **运营端**: - 行业竞争要素正从流量聚合向无人车队的精细化运营转变,运维网络效率与调度管理能力将成为新竞争壁垒 [2] - 网约车时代依赖网络效应,滴滴在一二线城市市场份额均超70% [119][120] - 聚合平台(如高德、美团)成为重要力量,其订单占市场总订单比例约25%-30%,为二线出行公司(如曹操出行)提供了关键流量来源 [123][126][129] - 2024年,聚合平台促成的GTV占曹操出行总GTV的85%,曹操支付给聚合平台的佣金费率约为7.2%-7.5% [129][132] 3. 政策引导:保障安全前提下鼓励试点,出海布局加速 - **国内政策**:已形成从国家顶层设计到地方试点创新的闭环体系,在保障安全的前提下鼓励技术迭代与模式探索 [2][3] - **海外政策**:呈现差异化开放态势,在合规约束中逐步释放商业化空间 [2] - **企业出海**:在全球政策逐步放开背景下,中国Robotaxi企业(如萝卜快跑、小马智行、文远知行)积极出海,与当地企业合作以抢占市场份额 [2][45] 4. 行业仍处高速成长期,万亿市场有望诞生千亿企业 - **市场空间**:行业仍处成长初期,市场规模增长空间巨大 [2][8] - **未来催化**:未来1-2年行业将迎来密集催化,包括多家头部企业量产车型落地、全球化运营铺开,行业格局与盈利路径将逐步清晰 [2][3][8] - **投资展望**:随着技术路线持续收敛,市场资源或向具备全栈能力的企业集中,万亿级赛道有望孕育出千亿级企业 [2][8]
明星公司全部员工停工放假,公司剩不到300人,高管曾放话“不存在死这件事”
21世纪经济报道· 2025-11-29 21:47
公司运营状况 - 智驾供应商毫末智行于2025年11月24日起对全部在职员工停工放假 [2] - 公司员工数量从2023年9月的近800人(其中700人从事乘用车智驾研发)锐减至目前不足300人 [2] - 公司成立于2019年,由长城汽车孵化,曾是长城旗下魏牌、坦克、哈弗等近20款车型的唯一智驾供应商 [2] 客户与订单流失 - 2023年末,魏牌蓝山因城市NOA功能迟迟未量产,转而采用元戎启行的方案,标志着公司命运转折点 [3][9] - 2024年,公司虽有长城、北京现代、丰田、宝马四家主机厂订单,但均非唯一供应商 [3][8] - 例如,丰田在乘用车智驾的战略合作方是Momenta [8] 技术路线与研发挑战 - 公司是国内最早坚持“重感知、轻地图”技术路线的玩家之一 [5] - 公司推出的HPilot系列产品包括低阶HP170、中阶HP370和高阶HP570 [5] - 公司智能驾驶累计行驶里程在2023年11月底才突破1亿公里,远落后于同期小鹏(1.4亿公里)、蔚来(1.6亿公里)和理想(2023年3月高速NOA超1亿公里) [7] - 公司技术路线切换缓慢,2024年重心仍是无图城市NOH量产,仅部分人力进行端到端技术预研,而竞争对手如元戎启行、理想已提前布局 [12][14][15] - 公司智驾方案基于高通芯片(SA8540P+SA9000P组合),AI算力仅50-100 TOPS,难以满足城市NOA对200 TOPS以上高算力平台的需求 [10][11] 融资与估值 - 公司共进行5轮公开融资,披露融资规模约15亿元人民币,同期元戎启行融资至少28亿元 [20] - 公司估值从2021年的10亿美金变为2024年的约90亿元人民币,涨幅有限 [20] - 2024年下半年,原定港股IPO计划被大股东长城汽车内部叫停 [19] - 2023年底,长城汽车独家投资了竞争对手元戎启行1亿美元的C轮融资 [21] 人力资源与成本 - 2024年公司曾以现金200万-300万人民币及股票/期权的高价招聘高阶智驾人才(H5级以上) [16] - 公司受长城集团框架限制,无法支付与其他科技公司同等的现金薪酬 [17] - 2024年公司超700人规模的研发团队中,仅近百人专职交付,面对4家主机厂超过20款车型的装机量,交付能力不足 [16]
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 08:49
端到端模型与VLA技术路线 - 理想汽车在端到端模型结合视觉语言模型量产的后期发现两大问题:训练数据量超过1000万片段后,模型性能提升速度显著变慢,5个月内平均无干预接管里程仅增长约2倍[5];端到端模仿学习缺乏深度逻辑思维能力,导致违反常理行为、决策不够智能及安全感不足[5] - 为解决上述问题,公司引入视觉语言模型,并主推视觉语言行为模型量产,期望其平均无干预接管里程达到1000公里以上[2][5] - 视觉语言行为模型具备三大核心能力:空间智能代表对远距空间和全局语义的理解能力;语言智能代表通过思维链生成决策并听懂人类指令,联合训练后推理速度可达10赫兹以上;行为策略代表使用扩散模型直接生成平滑轨迹,支持多种驾驶可能性[6] 仿真测试与闭环训练体系 - 公司升级模型评测方式,使用世界模型进行闭环仿真和测试,使后训练和强化学习环节的评测效率更高,测试成本从每公里18.4元大幅降低至0.53元[9] - 基于世界模型构建的仿真平台可实现强化学习,架构包括云端训练平台进行数据管理和奖励模型更新,更新后的模型在仿真平台运行,高价值数据反馈至样本库[11] - 为配合区域仿真,公司构建世界模型3D资产库,可根据训练需求将资产注入仿真世界作为交通参与智能体[12] 算力资源配置 - 理想汽车总算力达到13EFLOPS,其中10EFLOPS用于训练,3EFLOPS用于推理[13] - 公司拥有5万张训练和推理卡,推理卡算力等效3万个L20,训练卡算力等效2万个H20[13] - 在视觉语言行为模型时代,推理算力尤为重要,缺乏推理卡将无法生成仿真训练环境[13]
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-24 08:03
文章核心观点 - 文章系统回顾了公司在自动驾驶领域的一系列核心技术研究,这些研究构成了一个从感知到规划、再到仿真评测和基础模型的完整技术链路 [2][4][5] - 技术路径从Sparse4D系列融合感知出发,逐步拓展至SparseDrive端到端运动规划,并针对长期迭代需求开发了UniMM交通流仿真和DriveCamSim传感器仿真,最终探索了智驾基础大模型LATR [4][5][30] - 认为端到端模型是行业明确方向,但未来性能提升高度依赖于高效、准确的云端评测系统,而非完全依赖实车测试 [22][30][31] 3D融合感知(Sparse4D系列) - Sparse4D系列采用稀疏query加内外参投影采样的方式,直接从多视角图像特征得到融合感知结果,理论计算复杂度远小于BEV方案 [6][7] - Sparse4D v1核心是deformable aggregation算子,实现了纯稀疏范式的融合感知 [7] - Sparse4D v2将时序融合方式改为recurrent形式,时序复杂度从O(T)降低至O(1),并优化了算子实现,提升了训练推理速度和模型性能 [9] - Sparse4D v3通过temporal denoising、decouple attention等技术提升性能,并以简洁方式实现了联合检测与跟踪,在nuScenes camera-only detection和tracking榜单位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D基础上,增加了online mapping任务并设计了运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 采用稀疏feature作为planner输入,通过大量负样本query覆盖所有可视范围,以应对非白名单物体的避障问题 [15] - 当前规划decoder结构较简单,且仅在nuScenes上进行开环评测,闭环性能有待通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - EDA提出了动态更新的anchor概念,并采用NMS策略进行匹配,能有效建模轨迹预测的多峰分布,且可与多数预测模型即插即用 [16][17] - 轨迹预测是连接感知和决策的中间件,但其应用受感知噪声和下游使用复杂性限制 [19] - UniMM将交通流仿真的主流模型Continuous Mixture Models和GPT-Like Discrete Models进行了统一,并提出了通用算法框架 [20] - 交通流仿真通过每一步重新采样的方式绕开直接建模多车联合概率,比联合轨迹预测更能反映算法真实性能 [19][20] 传感器仿真(DriveCamSim) - DriveCamSim旨在构建高度可控的传感器仿真系统,通过显式投影约束3D-2D和时序一致性,解耦了时间和空间概念 [23][24] - 模型可生成任意帧率、任意相机内外参、任意相机数量下的图像,适应的condition包括3D bounding box、地图、自车pose等 [24] - 相比于基于3DGS的重建方案或完全依赖Attention的生成方案,该方法在可控性和一致性上具有显著优势 [23][24] 智驾基础模型(LATR) - LATR目标是通过海量数据无监督训练和大参数量,构建能理解智驾场景语义、空间和时空关系的基础模型 [26] - 采用Mask Image Modeling进行预训练,并通过精心设计的masking策略加大补全难度以提升训练效果 [26] - 设计了decoder-only的统一架构,将7个任务融合到同一框架中,新增任务仅需增加一个MLP,最大程度复用预训练参数,效果达到与SparseDrive相当的水平 [27]
理想主动安全负责人发文《主动安全之死》
理想TOP2· 2025-11-21 00:15
文章核心观点 - 主动安全技术正经历从基于规则的传统方法向模型化或端到端技术的根本性转变,这将带来业务质的飞跃 [15][18] - 激光雷达对于提升主动安全性是必要的,尤其是在人类驾驶占主导的当下,能极大程度弥补人眼和视觉系统的感知局限 [6] - 主动安全业务的长期发展是“向死而生”,随着事故减少和高级别自动驾驶的到来,其形态将发生涅槃重生,而非彻底消亡 [16][18] 主动安全与辅助驾驶的关系 - 辅助驾驶系统根据导航全程控制车辆,将用户送至目的地,在L2阶段需要人类监督 [2] - 主动安全功能通过预警、刹车、转向等方式,在人类或系统驾驶时拦截潜在碰撞风险,其控制权会短暂“抢占”车辆 [2] - 主动安全的目标更纯粹:无论何种驾驶方式或驾驶者,核心是避免碰撞 [3] 激光雷达的必要性 - 对于主动安全,激光雷达可以极高程度提高安全性,短期看是必须的 [6] - 人类是交通事故主因,其驾驶决策并非仅围绕安全,常将车辆置于“冒险”状态 [6] - 人眼感知依赖光照条件,在逆光、炫光、无光或目标纹理与环境难区分时存在局限,激光雷达可有效弥补 [6] - 雨雪天气下激光雷达性能受影响的争议被指出意义不大,因这类天气在全量驾驶里程中占比不足10% [6] 传统主动安全技术的瓶颈 - 当前基于枚举场景和规则代码的开发方式,难以覆盖用户真实事故的纷繁复杂性,例如醉汉突然摔倒、两轮车突然切入等场景 [8][10] - 串联式技术架构在信息传递过程中存在信息损耗和校验时延,增加处理时间 [12][13] - 安全领域毫秒必争,该架构对复杂场景(如人群中冲出的行人、夜间鬼探头等)应对能力存在瓶颈 [11] 模型化/端到端技术的优势 - 模型化或端到端技术可极大缓解传统规则方法的两个核心问题,并对复杂场景的泛化应对立竿见影 [15] - 规则方法被比喻为“在烧饼里捡芝麻”,而模型化则是“一口一口吃芝麻”,处理效率更高 [15] - 对于主动安全所需的极短时序(约10秒)本能安全反应,端到端技术无比适合 [15] 主动安全业务的未来演进 - 业务呈现“向死而生”态势:人类驾驶事故不断减少,以及未来L3/L4级自动驾驶系统的谨慎策略,都可能降低其对传统主动安全的需求 [16] - 传统主动安全将成为过去式,但通过模型化技术的应用,业务将凤凰涅槃,在未来三年内出现超乎想象的进步 [18] - 规则与模型在安全领域相辅相成,行业内部将专注于如何共创未来,持续优化以降低事故概率和烈度 [18]
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
FSD用多了会变傻:逆行闯红灯幻觉严重,50多起事故后,特斯拉被调查了
36氪· 2025-10-10 15:57
调查概况 - 美国国家公路交通安全管理局(NHTSA)于2025年10月7日启动针对特斯拉全自动驾驶(FSD)系统的新调查,调查编号为PE25012 [2] - 调查范围涵盖所有配备FSD(Supervised)或FSD(Beta)功能的特斯拉车辆,估计涉及车辆总数为2,882,566辆,这几乎是特斯拉在北美市场的全部历史累计销量 [2][10] - 调查由用户车辆问卷、常规指令报告及媒体报道共同促成 [2] 具体安全问题 - 调查集中在两类交通违法行为:FSD系统无视交通信号灯违规通行,以及FSD系统走错车道 [2][3] - 关于闯红灯问题,NHTSA确认收到18起投诉,其中4起事故导致人员受伤 [2] - 多起闯红灯事故集中发生于马里兰州乔帕市的同一路口,公司已针对该路口采取整改措施,这表明在V14版本之前,FSD系统无法完全依赖数据驱动,仍需对特定场景进行手动优化 [3] - 关于走错车道问题,确认收到18份投诉,涉及场景包括转弯过程中驶入对向车道、直行时越过双黄线、或无视逆行路标试图驶入禁行道路 [3] - 官方文件显示,总计收到58份使用FSD时违反交通安全规定的事故报告,共造成23人受伤 [3][8] 系统性能表现与监管挑战 - 第三方机构AMCI Testing在总计1000英里(1600公里)的测试中发现,FSD系统在启动初期(如前5分钟)表现优秀,但问题往往在系统运行一段时间后出现,呈现性能下降趋势 [3][6] - NHTSA的审查将评估系统是否对操作行为发出充分警告、给予驾驶员的响应时间是否充足、以及系统识别交通信号灯、车道标线和逆行标志并作出恰当响应的能力 [10] - 调查还将重新评估每次OTA更新是否影响FSD系统遵守交通法规的表现 [10] - 传统监管调查周期通常长达18个月或更久,这与AI技术的快速迭代规律存在矛盾,公司可能利用监管的迟滞性作为技术发展的窗口期 [13][15] 技术背景与行业影响 - 此次暴露的问题很可能与端到端模型的“幻觉”问题相关,行业当前主流解决方案是通过大语言模型加强模型认知 [11] - FSD V14版本已展现出类似的环境理解认知能力,但端到端模型的“黑盒”特性使得精准归因和调参十分困难,公司可能通过技术体系重构(如过渡到一段式端到端)来在整体层面提升系统能力 [11] - 除本次调查外,公司目前仍面临另外4起由NHTSA进行的调查,涉及远程挪车事故、恶劣天气条件下的事故以及Robotaxi落地部署合规性等,且每次调查范围均涵盖公司历史累计交付的所有车辆 [13]