VLA架构
搜索文档
揭秘长城智驾自研:元戎、Momenta「抬轿」与千人自研团队
雷峰网· 2026-03-02 08:43
公司核心战略:合作与自研并行 - 公司采取“两条腿走路”策略,一方面引入外部算法供应商以快速补齐技术进度,另一方面加强内部自研团队建设,形成合作与自研并行的策略 [5] - 公司内部已组建一支超过千人的自研团队,整合座舱与智驾两大板块,由技术中心副总经理姜海鹏统管,向CTO吴会肖汇报 [11] - 公司智驾研发费用占总研发投入的50%,年投入达到10亿元人民币,2025年前三季度研发费用达66.4亿元,同比增长6.8% [13] 智驾平台规划与供应商布局 - 公司规划了三大算力平台(ADC 2.0/3.0/4.0),旨在将智驾功能覆盖至10万至40万元价格区间的车型 [5] - **ADC 2.0平台**:面向哈弗等主流价位车型,算力方案以TI芯片与高通平台为主,地平线J6M或也在其中,重点解决高速场景能力,可实现高速无图NOA、记忆泊车等功能,算法供应商包括卓驭与Momenta [6][7] - **ADC 3.0平台**:芯片升级为英伟达Orin系列,支持无图城市NOA并转向端到端模型架构,合作方为元戎启行,已应用于魏牌蓝山、高山、坦克400/500/700及欧拉5等车型 [7][8] - **ADC 4.0平台**:采用英伟达Thor芯片,同样与元戎启行合作,引入VLA架构,已于2025年底首发在蓝山智能进阶版上,即将应用于魏牌旗舰车型V9X及坦克品牌新车 [8] 技术进展与产品落地 - 公司于2025年末发布VLA大模型,成为行业内唯二实现VLA落地的车企,搭载该模型的辅助驾驶系统CP Master首搭于魏牌蓝山智能进阶版 [2][12] - 与Momenta合作的新车型定位L2+级别,采用其最新一段式端到端方案,基于高通骁龙8620芯片(算力156TOPS),支持高速NOA和泊车辅助,预计2026年上半年上市 [7] - 公司计划将高阶辅助驾驶能力下放,2025年欧拉5车型已搭载城市高阶辅助驾驶,价格在12-13万元,2026年希望让更多用户以亲民价格体验智驾功能 [13] 市场表现与成效 - 多元化的供应商体系在销量端显现成效,二代哈弗枭龙Max上市后,智驾版与非智驾版订单各占一半 [9] - 智驾对高端品牌拉动明显,2025年魏牌全年销量达到10.2万辆,同比增长86%,产品焕新与端到端大模型和VLA的落地提供了助力 [9] 自研能力建设与基础设施 - 公司自研团队以上海(偏向算法、软件)和保定(重心,负责工程、落地)为基础,凭借强大的执行能力推进自研项目 [11] - 公司正在建设九州超算中心,总算力规模达到5EFLOPS(5百亿亿次浮点运算/秒),硬件扩容至超万卡级别,为大规模模型训练提供算力支撑 [15] - 公司计划在硅谷建设自动驾驶研发中心,以吸纳全球智驾人才 [14] 行业背景与竞争态势 - 自动驾驶技术路线正从端到端向VLA和世界模型进化,2026年的智驾竞赛将推动市场格局新一轮洗牌 [2] - 行业普遍向VLA或视觉大模型投入资源,主要投入在算力和研发人员上,采用新架构后所需团队规模可能从上千人缩减至几百甚至几十人的纯算法团队 [15]
智驾圈都在等何小鹏
36氪· 2026-02-26 11:03
公司核心战略与领导层 - 公司董事长何小鹏在约两年前向刘先明提出核心战略问题,即如何在本代智驾技术上“远远甩开当前的对手”,这源于公司意识到其智驾技术已不再“高人一头” [1][7] - 公司智驾业务在8年间经历了三次负责人更替,这反映了公司认为真正的智驾竞争在于对抗组织惯性,而主导者需要随时代和技术架构变化而改变 [5] - 公司是少数敢于在智驾领域反复进行自我革命的车企,其核心在于具备推倒重来、拆掉过去自建“金字塔”的勇气,并认为完成历史使命的感觉是“自己干掉自己” [6] 智驾技术发展历程与竞争格局 - 公司的智驾发展史是中国新势力智驾突围的缩影,竞争围绕体系、量产、算法三种能力展开,但同时也具备其特殊性 [3] - 在吴新宙主导的“规则时代”,公司搭建了完整的感知、规控和地图团队,并通过智驾数据闭环开发模式成为引领者,其代表作Xpilot 3.0/3.5基于规则的多传感器融合架构,在当时提供了体验最好的高速NOA [9][10][11][13] - 行业在2024年底迈入“后端到端时代”,华为、理想等玩家迅速跟进,使得公司在开城之战中面临被围追堵截的局面,甚至陷入“吃老本”的质疑 [3][16] - 继任者李力耘主导了架构向XNGP+的全面转向,守住了量产,并完成了“前端到端时代”的两个阶段,其底层已是初步的端到端大模型 [14] - 吴新宙与李力耘分别完成了“建城”与“守城”,但围绕规则时代建立的组织惯性与技术金字塔在新时代成了负担 [16] 第二代VLA技术突破 - 刘先明给出的答案是“拆掉语言的VLA”,即对VLA(视觉-语言-动作)架构进行二次变革,其本质是拆掉“传感器信号翻译成语言token”的中间步骤,将推理任务从大语言模型变为一个多模态Transformer大模型 [1][17][18][19] - 具体技术路径上,VLA 1.0需要两次语言转译(视觉->语言->动作),而VLA 2.0拆掉了语言这堵墙,让视觉和语言信息输入后直接推理输出动作,实现“视觉+语言—动作” [20] - 变革的主要原因有二:一是解决传统VLA中两次语言转译带来的物理世界信息损耗;二是解决传统VLA因语言离散性导致输出受限的问题,从而提升模型效率和泛化能力,并能实现自监督训练 [22] - 公司的第二代VLA与特斯拉FSD V14在核心思路上有异曲同工之妙,两者都采用多模态模型,输入融合信息后经推理给出联合决策,并都具备“招手即停”的涌现能力 [22][28] - 公司计划于2025年3月率先向P7、G7、X9 Ultra车型推送第二代VLA,其他车型后续跟进 [50] 技术基础设施与研发体系 - 公司与特斯拉在云端都拥有“类世界模型”,公司称之为“世界模拟器”,其功能从智能生成环境场景,变为能想象和评估决策质量的预测系统,用于验证新模型和合成低频极端场景 [26][27] - 公司内部正在研发可用于训练不同架构的基础模型——“图灵模型”,作为其未来保持技术领先的武器 [52] - 刘先明团队的技术栈特点是“简洁”,强调模型是机器,数据是燃料,并致力于让数据在机器里高效流动,为此他拆除了所有规则,甚至包括车辆过ETC这类传统上规则更高效的场景 [46][48] 硅谷研发中心与人才战略 - 公司在美国硅谷保留的研发中心是其能持续进行技术革新的关键“火种”,而非简单的技术“水龙头”,该中心在技术竞争中起到了延续先进技术的作用 [30][34] - 在众多中国公司缩减或关闭湾区研发中心后,公司是少数仍在硅谷保留可观研发团队的车企,其在湾区的团队规模约为200人 [33][35] - 公司智驾业务连续四代负责人均来源于湾区,持续的人才供给是公司能在智驾竞争中多次翻身的关键因素 [38] 行业趋势与竞争本质 - 智驾行业正迈向L4级别,这需要端到端与大模型的双重发力,意味着企业需要在拆掉旧技术“空地”上“新建大楼” [59] - 能在智驾上取得成就的玩家,如特斯拉、公司等,共同特征是敢于“拆墙”,包括拆掉特定芯片、激光雷达、规则乃至语言模块 [56] - 行业的真理在于企业必须敢于自我革命才能迈过从规则到端到端的门槛,不善于跟随技术范式调整组织的玩家将在下一个范式中落后,而“吃老本”的玩家会被加速淘汰 [58][59]
AI重塑汽车产业:从CES 2026看智能化革命的深度演进
中国汽车报网· 2026-01-15 14:23
文章核心观点 人工智能正从汽车的附加功能转变为重新定义产品本质的核心力量,驱动汽车产业智能化转型全面加速,覆盖智能驾驶、智能座舱、营销服务及产业生态等多个维度 [1] 智能驾驶 (智驾) 的普及与下探 - 2025年“智驾平权”成为行业关键词,智能驾驶正从30万元以上车型快速下探至10万元级市场 [2] - 技术突破是核心驱动力:端到端大模型、VLA架构通过引入“思维链”机制提升决策可解释性,世界模型仿真系统可实现单日30万公里智能驾驶测试,降低对实车数据的依赖 [2] - 成本端突破是关键:固态激光雷达替代机械雷达,使得高阶智驾系统能搭载于经济型车型;2024年城市NOA功能已在15万元级车型实现搭载,较2023年的30万元门槛下降一半 [2] - 智驾普及对售后提出新要求,某新势力车企通过三级AI智能诊断体系,将三电系统诊断准确度提升至98.1%,单个故障事件处理时间压缩至20秒左右 [3] L4级自动驾驶 (Robotaxi) 的商业化进展 - 2025年,武汉、北京、上海、广州等城市Robotaxi示范运营全面提速,武汉市开放测试道路突破3800公里,触达人口超770万 [5] - 商业模式得到验证:小马智行三季度Robotaxi业务收入同比增长89.5%,在广州实现城市级L4级单车盈利转正;文远知行三季度Robotaxi营收达3530万元,同比增长761% [5] - 高盛预测,中国Robotaxi市场规模将从2025年的5400万美元激增至2035年的470亿美元,到2030年超过10座城市将投入运营5万辆Robotaxi [5] - 技术-商业化-盈利的正向循环正在形成,规模效应推动行业进入可持续发展阶段 [5] 智能座舱的演进 - 汽车座舱正从交通工具向“第三生活空间”演进,CES 2026上展示了多项AI座舱技术,如吉利的Step-Audio2端到端语音大模型、奔驰集成的微软与谷歌双AI引擎、宝马的AI个人助理 [6] - 2026年将迎来入口级Agent在汽车座舱中的规模化量产,座舱AI将具备个性化记忆、主动执行、跨场景服务的完整能力,成为“智能管家” [6] - 端云协同成为技术演进方向,行业重点在于如何在有限的车载芯片算力下实现端云能力的最优组合 [6] 营销与服务的智能化重构 - 大模型正推动汽车营销从粗放式触达向精准化运营转变 [7] - 某汽车品牌利用线索分析数字员工,从新车发布会直播产生的超800万条弹幕与百万量级跨平台评论中,实时精准识别客户需求并自动调度当地4S店进行回复,实现全流程自动化 [7] - 丰田汽车在老客户回馈场景采用大模型外呼数字员工,实现了超60%的外呼接通率,高效完成客户意向筛选 [7] - 岚图汽车在销售全链条引入大模型“洞察+质检”产品,销售SOP执行度提升70%,意向客户识别精准度提升,直接带动到店转化增长 [8] - 根据报告,中关村科金在“大模型应用项目中标数榜单”位列前十,在“智能客服&数字人项目中标数”榜单排名第三 [8] 产业生态的竞争与合作 - 汽车智能化竞争正从单一企业的技术较量演变为生态体系的综合博弈,2025年车企与智驾供应商的“抱团”整合成为显著趋势,如一汽对卓驭科技超36亿元战略投资、吉利成立千里科技、奇瑞与轻舟智航深度绑定 [9] - 深度合作模式的价值在于构建“量产-数据-迭代-升级”的正向循环,可将高阶智驾功能的产品迭代周期缩短至半年甚至更短 [9] - 生态化布局伴随新挑战,如如何平衡外部合作与核心能力建设、如何在数据共享中保障信息安全、供应商如何避免过度绑定单一车企等 [9] 政策与产业展望 - 政策层面,《关于深入实施“人工智能+”行动的意见》《汽车行业稳增长工作方案(2025-2026年)》等文件为智能网联汽车发展提供了明确指引 [10] - 产业层面,从传统车企到造车新势力,从互联网巨头到垂直AI公司,各方力量正汇聚成推动汽车智能化的强大合力 [10] - 未来的竞争将是生态体系在协同效率、创新速度、战略深度上的综合较量,成功构建或深度融入强大、开放、共赢产业生态的参与者才能把握“AI定义汽车”时代的机遇 [10]
从“地大华魔”掉队,卓驭科技在智驾平权浪潮下另觅出路
第一财经网· 2026-01-12 18:24
行业竞争格局重塑 - 中国乘用车城市NOA第三方供应商市场高度集中,2025年1~10月Momenta和华为HI合计市场份额超过80%,其他供应商仅占19.2% [1] - 传统“地大华魔”一梯队出现分化,Momenta和华为占据先机,地平线凭借智驾芯片快速扩张软件版图,而卓驭科技出现掉队迹象 [1] - 行业竞争加剧,智能驾驶乘用车渗透率已超68%,高阶智驾方案正下探至10~15万元级别市场,压缩成本、精简团队成行业共识,优胜劣汰趋势明显 [2] 卓驭科技现状与挑战 - 公司主要搭载量仍依赖大众燃油车型,城市NOA主攻纯视觉方案并多搭载于捷途、宝骏等经济型品牌 [1] - 公司过于依赖单一客户大众,虽公布与红旗、一汽大众、哈弗、比亚迪等50多款车型合作,但部分合作车型市场表现不佳,如仰望U8越野玩家版已停售 [3] - 公司以“低成本”控制优势著称,但车企多将其方案用于中低配车型,高配车型需要的高价值功能投入非其所长 [3] - 在低成本赛道面临更多强势玩家挤压,如比亚迪与Momenta合作将高阶智驾下探至10万元级别,地平线计划进入10万元以内市场,华为乾崑ADS 4亦有意下探至15万元级别 [4] - 公司2024年国内ADAS市场份额不足5% [5] - 公司面临生存压力,包括账面资金紧张、原有技术路径对复杂道路环境适应性不足等挑战 [5] 公司技术方案与成本 - 公司7V纯视觉无图城区智驾方案依赖7颗摄像头和1颗高通芯片,实现100TOPS算力,成本约7000元 [5] - 行业目标是将智驾解决方案成本进一步下探至5000元区间,极致成本压缩给供应商带来巨大挑战 [5] 公司新业务拓展 - 为寻求新增长点,公司于2025年底宣布新增重卡和无人物流车业务 [6] - 规划2026年上半年量产搭载其高速NOA的重卡车型,合作企业包括徐工、陕汽、重汽 [6] - 无人物流车将应用于矿山、港口等特定场景 [6] - 新赛道竞争亦激烈,无人物流车领域价格竞争明显,部分产品起售价已降至2万元,并出现“0首付、低利息”等促销方式 [6]
卓驭创始人沈劭劼:2026,智驾要从“端到端” 到“端到所有地方”
新浪财经· 2026-01-11 13:53
行业整合与竞争态势 - 2025年底,自动驾驶行业出现整合与出清,毫末智行骤然倒下,大卓智能于5月解散并入奇瑞,中智行被裁定破产清算[2] - 几乎同时,卓驭科技获得中国一汽超36亿元的战略投资[2] - 行业竞争核心已从“谁先出发”转变为“谁的迭代系统更快、更高效”,领跑与追赶的差距可能仅在于一次成功模型更新的时间窗口[3] - 2025年第三季度后,行业进入“王炸频发期”,每隔一段时间就有公司发布突破性方案,预计2026年竞争激烈程度将远高于2025年[10][11] 技术范式转型:数据驱动与端到端 - 行业已从规则驱动全面倒向数据驱动的端到端模型,完成此开发范式改造是智驾公司的“斩杀线”,否则将被淘汰[4][5] - 卓驭科技于2024年10月14日做出艰难决定,全删原有代码库(清除3000行代码),正式宣布全面转向端到端,清除了对规则驱动的路径依赖[6] - 转型初期面临模型不成熟、交付压力等挑战,并发现为安全设计的兜底逻辑越多,系统反而越容易因逻辑冲突而“犯傻”[6] - 公司安全保障不再依赖规则兜底,而是通过建立完整的测评体系来实现,并逐渐删除了大量兜底逻辑[6] - 数据质量比数据量更关键,2025年若干次大模型性能大幅提升,源于调整了数据的配比和质量,而非模型本身改变[6] 公司运营与工程化落地 - 数据驱动必须工程化落地,体现在财务规划(算力与数据闭环投入占比)、项目交付(以数据链路通畅为核心KPI)及与主机厂合作的完整“基座”能力[7] - “斩杀线”实则是企业能否构建将数据智能转化为工程确定性的系统能力,这决定了公司是持续进化还是在堆积技术债务[7] - 卓驭科技的模型迭代周期已缩短至每周一次,客户项目交付时间从6个月压缩至1个多月[3] - 模型开发流程重塑后,从最初每周迭代50个模型只有一两个可用,提升到现在每周迭代3-5个模型大多可用[8] - 关键指标TTE(从问题上报到模型更新的时间)大幅缩短,从一年前走一遍流程需要6个月,压缩到现在一个多月[8][9] 技术路线与未来战略 - 对于行业技术路线分歧(如大算力小算力、有图无图、纯视觉与激光雷达),沈劭劼认为这些是工程问题而非哲学问题,最终会相互融合[10] - 卓驭科技将沿着VLA架构推进:V负责感知和一段式端到端;L是多模态大语言模型负责场景理解;A负责接入感知结构并进行未来几秒到10秒级别的推理[12] - 2025年的核心是端到端,2026年的主题是“端到所有地方去”,即证明模型具有横向拓展能力,能应用于更多场景和车型[12] - 公司推行“基座模型”策略,车企可在其基座上进行二次开发,自主进行功能定义、逻辑编写甚至调用大模型,以此打破传统Tier1与主机厂的界限[13] - 商业化保持聚焦,公司绝大多数收入来自乘用车,未来两年99%的数据预计也来自乘用车,对新垂类领域采取谨慎投入策略[13]
硬科技冲高,机器人行情火热,昊志机电涨超6%,机器人ETF基金(159213)冲击五连阳,连续3日强势吸金超6300万元!人形机器人"黄金十年"启幕?
搜狐财经· 2025-12-30 11:42
机器人ETF基金市场表现 - 12月30日,机器人ETF基金(159213)上涨0.67%,冲击五连阳 [1] - 当日盘中资金大举净申购2000万元,已连续3个交易日强势吸金超6300万元 [1] - 成分股涨跌互现,新时达涨停,昊志机电涨超6%,拓普集团涨0.81%,机器人涨0.51%,汇川技术、双环传动等涨幅居前 [6] 机器人ETF基金成分股构成 - 标的指数前十大成分股覆盖计算机、机械设备、汽车、家用电器等行业 [2] - 前两大成分股为科大讯飞(估算权重9.96%)和汇川技术(估算权重9.94%) [2] - 前十大成分股还包括拓普集团(权重7.71%)、大华股份(权重4.59%)、大族激光(权重4.27%)等 [2] 行业标准化进程与产业现状 - 人形机器人与具身智能标准化技术委员会在北京成立,旨在通过标准制修订工作引导产业健康发展 [3] - 当前产业规模增速较快,但存在标准滞后、基础接口不统一推高协同成本、应用缺乏规范影响市场信任等问题 [3] - 标委会将承担基础共性、关键技术、部组件、整机与系统、应用、安全等领域的行业标准制修订工作 [3] 产业发展阶段与未来展望(开源证券观点) - 回顾2025年,产业从“0-1”开始走向“1-10”,核心是“技术收敛”,板块围绕特斯拉机器人的技术迭代和升级方向展开 [4] - 展望2026年,产业将跨越“1-10”拐点,走向“10-100”,核心是“量产和商业化” [4][8] - 2026年关键预测包括:特斯拉Gen2.5机器人硬件平台或已锁版,为Gen3量产筑牢基础;3月份开启批量订单,8月份开启大规模制造;宇树等国产头部企业有望实现IPO;政策与产业端有望实现中美共振,板块迎来主升浪 [8] 技术、硬件与政策催化(国联民生观点) - 大脑方面:模型加速进化,VLA架构成为2025年主流方案,强化学习加速融入训练,端到端模型是终局方向,真实数据成为核心生产力与竞争瓶颈 [9] - 本体方面:硬件处于多元探索阶段,应用由数据采集与教育科研为主,向“工业与特种先行、商业跟进、家庭探索”路径展开,机器人形态将长期多元并存 [9] - 政策方面:通用机器人为大国科技竞争前沿,海内外政策共振,国内形成“国家战略引领、地方落地支撑、标准体系规范”的格局,政策加码提供发展预期与长期确定性 [10] 行业整体趋势与投资工具 - 全球科技巨头与新秀全面下场布局人形机器人,行业量产奇点已至 [11] - 机器人ETF基金(159213)及其联接基金跟踪中证机器人指数,该指数结构与产业链环节高度契合,为投资者提供一键布局工具 [11]
FSD v14很有可能是VLA!ICCV'25 Ashok技术分享解析......
自动驾驶之心· 2025-10-24 08:04
FSD V14技术进展 - Tesla FSD V14系列在两周内连续迭代4个小版本,从14.1到14.1.3,展现了快速进化节奏[4] - 初始版本14.1在驾驶AI能力上实现显著突破,后续版本分别优化刹车顿挫问题、引入Mad Max模式、扩大对Model S/X车型支持[4] - 这种高速版本迭代表明自动驾驶技术在融入其他AI领域进展后,正进入加速演化新阶段[4] 端到端架构优势 - 从V12版本开始,Tesla FSD转向全面端到端架构,实现从传感器像素输入到车辆控制信号输出的单一神经网络模型完成[7] - 端到端架构减少中间规则处理环节,使模型训练梯度能够从输出端无缝反向传播至感知端,实现模型各部分整体协同优化[7] - 该架构能更好地编码人类价值判断复杂性,通过大量学习人类驾驶数据掌握细微价值权衡[9] - 解决感知与决策规划间接口定义难题,神经网络间直接信息传递能最大程度减少信息损失[11] - 具备同构计算带来的确定性延迟优势,神经网络固定结构和参数量保证单帧计算延迟确定性[11] 端到端系统技术挑战 - 端到端模型面临维度诅咒挑战,输入信息维度相当于20亿token,而输出仅为2个token,需要解决从极高维度到极低维度映射问题[16] - Tesla通过强大数据引擎应对挑战,车队每日产生相当于500年驾驶时长数据,采用复杂触发机制回传长尾场景数据[18] - 公司采用VLA架构保障可解释性和安全性,系统输出驾驶控制指令同时输出多种中间结果,包括3D占据网格、动态障碍物、静态物体等[20] 技术创新与应用 - Tesla FSD V14很可能采用基于VLA的端到端技术方案,与国内头部自动驾驶团队技术路线不谋而合[22] - 自然语言决策实现慢系统思考,在复杂场景中展现逻辑推理能力,例如识别道路封路标志并通过推理做出左转决策[24][26] - Feedforward 3D Gaussian提供丰富监督信号和空间理解能力,相比点云或多边形表达更高效可微,相比NeRF等隐式表达几何信息更明确[28] - 3D高斯表征利用神经网络模型泛化能力,通过重建模型前向推理推导场景几何信息和颜色属性,不需要点云初始化[29] 评测体系与仿真系统 - 完善评测体系是端到端系统核心壁垒,训练Loss不能代表模型性能,开环指标不能保证闭环性能[32][34] - Tesla评测体系核心是基于神经网络闭环仿真系统,可利用大量廉价离线状态-动作数据对进行训练[36] - 闭环仿真系统具有三大作用:验证端到端Policy正确性、利用场景编辑生成能力生成对抗样本检验模型能力、在闭环仿真系统中获取人驾真值[36][38][42] - 丰富多样真实数据是自动驾驶核心资源,训练数据多样性和质量决定世界模型性能[40]
FSD V14深度解析!自动驾驶AI的觉醒时刻?
自动驾驶之心· 2025-10-18 00:04
FSD V14版本概述 - FSD V14被公司描述为具有"觉醒"体验的版本,预计将首次超越人类驾驶员的安全水平[2] - 该版本面向部分早期用户推送,旨在向"无人监督"级别迈出实质性一步[3][9] - V14已更新至V14.1.1版本,改善了顿挫与幽灵刹车问题,V14.2将于几周后发布[27] 技术能力提升 - 新增到达选项功能,支持在停车场、街道、车道、停车库或路边选择泊车位置[7] - 增加对紧急车辆(如警车、消防车、救护车)的靠边停车或让行处理能力[7] - 将导航和路径规划整合到基于视觉的神经网络中,实时处理道路封闭和绕行[7] - 提供额外的速度配置文件,进一步定制驾驶风格偏好[7] - 改进对静态和动态门的处理能力[7] - 增强对道路遗撒物(如轮胎、树枝、箱子)的绕行偏移能力[7] 场景处理优化 - 优化无保护转弯、变道、车辆切入和校车等多种场景的处理能力[7] - 提升系统故障管理能力,从降级操作中平滑恢复,增强可靠性[7] - 增加自动窄场清洗功能,提供快速高效的前摄像头自清洁[7] - 改进对挡风玻璃内部残留物积聚的警报功能[7] - 整体平滑度和感知能力得到提升[7] - 停车位选择和停车质量有所改善[7] 实车测试表现 - 在无GPS停车场环境中能准确识别"EXIT"出口文字与箭头,顺利找到出口[12] - 识别施工封路标志后执行掉头操作,并实时更新导航路线完成绕行[12] - 在夜间关闭的停车场场景中,快速判断通行不可行并立即转向寻找新停车地点[15] - 在窄路施工场景中准确识别施工人员手势标牌,完成停车等待和绕行通过[18] - 通过音频信号识别500米外警笛声,在严重拥堵路段提前寻找变道空间完成特殊车辆避让[21] - 在快餐店Drive-Thru场景中准确停靠点餐麦克风处,并自动跟车前行[24] 技术架构推测 - 可能首次引入语言模态,采用类VLA架构[12][28] - 模型参数量提升10倍,达到750亿规模,Context Length提升3倍[28] - HW4上的FSD V13模型文件规模达7.5GB,假设8bit存储相当于75亿参数[28] - 最可能的技术方案是MoE架构的VLA模型,使用local parameter类似MoE模型中不同的experts网络[28] - 音频输入被整合到控制模型中,新款Model系列配备4麦克风阵列加强音频处理能力[21][28] - 导航信息与视觉网络深度融合,使模型能够根据实时路况调整行驶策略[28]
千寻智能解浚源:展望迈向通用人形机器人的曙光时刻
新浪财经· 2025-06-30 16:22
具身智能技术发展 - 千寻智能采用三阶学习路径:互联网图像预训练注入先验认知、真实机器人模仿学习数据映射动作、强化学习提升完成度至接近完美 [3] - 该架构突破传统模仿学习局限,模型可灵活选择多种达成路径而非复制"平均动作" [3] - 硬件投入极小即可实现跨物品操作泛化能力,例如未训练过的机械臂能在火锅店首次完成倒水操作 [3] 千寻智能核心竞争力 - 同时具备顶尖硬件制造能力(创始人拥有十年机器人量产经验)与学术界先锋软件团队(首席科学家为清华助理教授) [5] - "软硬件全栈"能力成为实验室成果商业转化的核心优势 [5] - 公司使命为十年后让全球10%的人拥有个人机器人 [5] 行业应用与前景 - 通过工业场景叠衣操作等案例验证技术成熟度 [5] - 具身智能处于从实验室迈向商用的关键分水岭阶段 [5] - 研修会汇聚百余位青年科学家与上市公司企业家,反映行业关注度提升 [1]
自动驾驶未来技术趋势怎样?李想:现阶段VLA是能力最强的架构
快讯· 2025-05-07 21:27
理想汽车CEO李想关于VLA架构的评论 - 公司CEO李想认为VLA架构能够实现全自动驾驶,但对它是否是效率最高的方式提出疑问 [1] - 指出VLA基于transformer架构,而transformer架构现阶段是效率最高的架构 [1] - 认为VLA架构目前是能力最强的自动驾驶架构,但不排除未来可能出现更高效的架构 [1]