VLA
搜索文档
地平线吕鹏:即使推出VLA后,我们也不会全盘抛弃端到端
21世纪经济报道· 2026-02-03 16:04
公司技术战略 - 地平线公司明确表示,在推出视觉语言模型后,不会放弃其现有的端到端技术团队 [1] - 公司认为端到端技术是基础,是做好视觉语言模型的重要前提 [1]
未知机构:东北计算机20260128智元VLA端侧推理性能提速15倍并于精灵G-20260129
未知机构· 2026-01-29 10:20
纪要涉及的行业或者公司 * 行业:人形机器人、智能装备、机器人流程自动化(RPA)、企业人工智能、固态电池、计算机[1] * 公司:智元、AutomationAnywhere、C3.ai、LG能源、特斯拉、道通科技、祥鑫科技[1][2][3] 纪要提到的核心观点和论据 * **人形机器人固态电池需求预测**:到2035年,人形机器人领域的固态电池需求可能超过74吉瓦时(GWh)[1] * **智元公司技术突破**:其VLA端侧推理性能提升了15倍,并且已在精灵G2机器人上完成了真机验证[1] * **潜在行业并购**:机器人流程自动化软件公司AutomationAnywhere可能收购企业人工智能软件公司C3.ai,若交易达成,AutomationAnywhere将借此实现上市[1] * **供应链合作**:LG能源将向特斯拉供应用于人形机器人的电池[1] * **地方产业目标**:山东省力争在2026年使机器人和智能装备产业规模突破2000亿元人民币[2] * **公司业绩预告**:祥鑫科技预计年度净利润在1.680亿元至2.000亿元之间,同比下降幅度为44.36%至53.26%[3] 其他重要但是可能被忽略的内容 * 道通科技发布了一份关于公司涉及诉讼进展的公告[3] * 文档中包含了“国产人形机器人每日公告”的标题,表明这可能是一份定期或系列性的行业信息汇总[3]
轻舟智航L2/L4智驾方案解析:一段式、VLA和世界模型
自动驾驶之心· 2026-01-26 15:16
轻舟智航技术方案与产品进展 - 公司首个基于单颗地平线征程6M芯片的城市NOA方案已于21号正式上车理想L系列智能焕新版[2] - 该方案在23号的发布会上进行了技术分享[2] 基于单J6M的端到端自动驾驶架构 - 技术方案采用单征程6M芯片实现了一段式端到端架构并结合了强化学习[3] - 核心网络架构的输入部分包括时序图像、激光雷达、SD导航和自车位姿信息[6] - 经过多传感器时序BEV融合后,得到全局的BEV表征[6] - 后续通过多任务解码头输出道路拓扑、OCC特征、交通元素特征和智能体特征[6] - 这些特征用于获取动静态信息、OCC和交通信号灯等[6] - BEV表征与上述特征共同输入到一个统一的世界-状态隐编码器[7] - 之后连接一个Flow-Matching规划器,用于解码他车运动预测并生成多模态的自车轨迹[7] - 后续利用Safe RL进一步优化自车轨迹,该步骤增加了规则判断[5] - 整套架构的挑战在于在J6M芯片128TOPS的有限算力上实现[5] - 采用的DiffusionDrive和Flow Matching算法已被多家公司验证为可量产算法[5] - Flow规划器是Diffusion规划器的改进版本,源自清华AIR詹仙园老师团队的工作[5] 实车演示表现 - 公司展示了L2级别实车在困难场景下的表现,包括严重错位道路和复杂路口的无保护左转,效果良好[5] - 严重错位道路场景对静态感知基本功要求高,不仅考验道路/车道线识别,也考验SD地图接入模型的表现[5] - 公司也展示了L4级别实车的表现[9] 下一代自动驾驶模型架构展望 - 公司提出了下一代自动驾驶模型架构,其核心理念是将视觉语言动作模型与世界模型融合到一个端到端系统中[11] - 若去掉Transformer解码器和语言推理模块,该架构仍可理解为一段式端到端,整体与小鹏的VLA 2.0有些相似[11] - 架构中同样包含通过强化学习微调自车轨迹的步骤,该判断模块是为端到端系统提供安全保障的兜底模块[12] - 针对L4级自动驾驶,公司提出了RA机制以保障系统级安全,在此意义上,VLA被视为L4系统规模化运行的基础设施而不仅是能力展示[12] - 根据架构图,下一代系统输入可能增加用于交互的语音指令[17] - 世界编码器可能仍基于BEV特征,可直接解码得到动静态/OCC/交通控制信息[17] - 增加了Transformer解码器,用于处理环境复杂文本、困难场景描述和车端语言指令,并作为思维链的中间表示[17] - 增加了多模态世界解码器,作为具备未来世界动态演化能力的生成式世界预测模型[17] - 多模态世界解码器与语言推理模块需要强交互并对齐,这是VLA的核心,否则会产生严重幻觉[17] 公司高层观点 - 公司联合创始人兼CEO于骞判断,无论是VLA还是世界模型,都不会是自动驾驶技术的终极答案[13]
何小鹏谈行业销售承压:最坏的时候也是最好的时候
新浪财经· 2026-01-08 18:04
行业前景与公司战略 - 公司认为当前新能源汽车行业面临的销售压力是暂时的,预计行业过段时间会恢复 [1][1] - 公司认为行业最坏的时候也是最好的时候,并相信今年对公司而言存在巨大机会 [1][1] - 公司将专注于推进VLA、VLM以及人形机器人等产品的量产工作 [1][1]
智驾的2025:辞旧迎新的一年
自动驾驶之心· 2026-01-04 09:04
2025年自动驾驶行业核心发展脉络 - 2025年是自动驾驶行业承上启下、辞旧迎新的一年,主要围绕“向下普及”和“向上挑战”两条主线展开 [4] - 传统车企如比亚迪、吉利、奇瑞扮演向下普及角色,将高速NOA功能下放到10万+车型,并计划在2026年将城市NOA功能下放到10万+车型 [4] - 新势力及头部智驾供应商负责向上挑战技术上限,秉持一年一代新技术的做法,在端到端之后继续探索新技术 [4] 技术范式演进:从端到端到世界模型 - 端到端技术解决了标准道路场景“好开”的问题,但对罕见高风险Corner Case解决能力有限 [5] - 世界模型是智驾技术从“被动反应”走向“主动思考”的关键分水岭,意味着第三次技术范式演进:从1.0规则式、2.0端到端到3.0生成式智驾 [5] - 2025年,前沿技术辞旧迎新,端到端大规模普及,同时世界模型、VLA实现了从0到1的量产上车 [5] - 小鹏、小米等公司从研究VLA转向世界模型研究,世界模型的热度也延伸至具身智能领域 [5] 世界模型的竞争格局与量产进程 - 世界模型的发展遵循从0到1、再从1到10的量产规律 [6] - 2025年,蔚来在国内首发世界模型量产上车,完成了从0到1最艰难的阶段 [6] - 进入2026年,世界模型将迎来从1到10的性能爆发增长阶段,国内目前蔚来走在从1到10阶段,更多玩家仍在从0到1阶段 [6] - 早期布局世界模型的代表公司包括蔚来、特斯拉、华为,其中蔚来在2024年业内聚焦端到端时已发布世界模型,宣布从“感知驱动”转入“认知驱动” [5] 数据闭环成为研发核心 - 2025年智驾开启“炼丹模式”,数据闭环第一次成为核心中的核心 [6] - 过去几年许多公司的“数据飞轮”更多是营销作用,对云端算力、数据及人才投入不足 [6] - 2025年许多玩家在数据基建上疯狂“补课”,数据闭环及强化学习人才抢手,云端算力成本成为研发投入大头 [6] - 有前瞻性布局的玩家如蔚来已享受到数据基建红利,其较早投入云端数据闭环,并在车端4颗芯片中专设一颗用于数据收集、标注和训练,为其首发世界模型奠定基础 [7] 软硬一体化趋势与自研芯片 - 2025年是软硬一体的大年,蔚来和小鹏实现自研芯片上车,头部智驾供应商地平线、Momenta也走向软硬一体 [7] - 自研芯片不仅为降低成本,更因智驾进入模型时代,软硬深度协同重要性提高,需针对自身算法架构量体裁衣以最大化算力利用率 [7] - 自研芯片可把控芯片量产节奏,避免因供应商交付延迟影响算法上车及新车上市 [7] - 自研芯片存在“外包式自研”与“真自研”之分,蔚来投入大几百人技术团队进行真自研,设计芯片架构,实现深度软硬协同 [8] - 蔚来推出的“神玑NX9031”智驾芯片、“SkyOS·天枢”全域操作系统及“天行智能全主动底盘”为行业提供了明确技术方向 [8] L3牌照发放与行业下半场竞争 - 2025年临近年底L3牌照发放,标志着自动驾驶从上半场(L2+量产)转向下半场(L3、L4)竞争 [8] - 虽然首批L3牌照被部分传统车企申请到,但其L2+能力不足且使用供应商方案,形式大于本质 [9] - 未来真正具备拿到下半场门票的是新势力、华为等挑战前沿技术上限的玩家 [9] - 下半场门票的核心是模型能力,尤其是具备世界模型能力的玩家,如已实现世界模型量产上车的蔚来 [9] 技术价值与未来公司形态 - 智驾技术的终极价值在于解放驾驶者精力和减少交通事故,当前阶段将“减少事故”置于首位 [9] - 智驾进入世界模型阶段,将与全球最前沿的生成式AI技术并驾齐驱 [9] - 在世界模型竞赛中领先的企业,如蔚来,未来将不仅是一家汽车公司,而是一家基于世界模型的AI+硬件+能源生态公司 [10] - 智驾的加速普及由端到端、VLA、世界模型等AI技术突破驱动,也得益于华为、地平线等核心供应商技术的成熟 [9]
从赛事夺冠到场景落地:速腾聚创(02498)AI机器人全栈能力瞄准即时配送等万亿市场
智通财经网· 2025-12-31 11:25
公司技术实力与市场验证 - 公司(速腾聚创)通过提供VLA模型、高自由度灵巧手及创新的融合传感器系统Active Camera,赋能合作伙伴格松科技赢得2025年深圳智能机器人灵巧手大赛竞技赛冠军 [1] - 此次夺冠验证了公司已具备行业领先的机器人手眼协同全栈技术能力,并展现了面向真实场景高效落地、与合作伙伴共创产业价值的商业实力 [3] - 公司技术方案支持机器人全程自主完成从外卖拆箱、折叠包装、导航、搭乘电梯直至最终配送的全部长程复杂任务,动作流畅,完成度高 [11] - 格松科技的夺冠展现出公司的AI机器人技术已具备多模态数据采集、端侧高效部署、小样本泛化、一脑多型、持续进化等核心能力,形成了从底层技术到上层应用的全链条技术壁垒 [11] 技术方案细节与应用场景 - 公司通过官方视频预告了其手眼协同方案,机器人能精准完成从接收礼物、操作电梯到上楼悬挂礼物等一系列连贯动作,展现了高度灵敏的环境感知与精细操作能力 [5] - 该手眼协同方案深度融合了公司自研的VLA、Active Camera、灵巧手等核心技术 [5] - 公司的技术方案瞄准最后100米配送、智能制造、仓储物流、商业服务等需要高柔性自动化操作的场景 [5] - 此项完整技术方案计划于2026年1月举办的国际消费电子展上展出 [5] 行业背景与赛事意义 - 本届大赛是国内首个专注灵巧手技术研发与场景落地的专业赛事,恰逢“机器人量产元年”的关键节点,共吸引来自深圳、香港、杭州等地高校、科研院所及重点企业的53支高水平团队参与 [9] - 比赛设置了人流穿行、电梯共用、光照变化等复杂变量,全面考验机器人的稳定性、环境适应性与泛化能力,其中“将折叠后的外卖箱投入上下高度仅3厘米的回收口”被公认为技术难点 [11] - 当前无人配送行业在仓储、干线运输等环节已成熟落地,但在从区域分拣中心到终端用户的“最后100米场景”中,因地形复杂、人流干扰等因素,机器人落地仍面临较大挑战 [13] - 大赛围绕外卖配送末端实际需求设置真实场景挑战,具有很高的应用导向价值,公司技术方案的夺冠展示了打通无人配送从起点到终端用户全链条应用的可能性 [13] - 随着技术持续泛化与成熟,此类技术的应用边界将从即时配送延伸至智慧养老、智能家居等更广阔的生活服务场景 [13]
英伟达主管!具身智能机器人年度总结
具身智能之心· 2025-12-29 20:50
文章核心观点 - 英伟达机器人主管Jim Fan认为,机器人领域在2025年仍处于缺乏统一标准、硬件可靠性制约软件迭代的“蛮荒时代”,当前主流的VLA技术范式也存在结构性问题 [1][11][13] 行业现状与核心挑战 - 硬件进展快于软件,前沿硬件(如Optimus、e-Atlas、Figure、Neo、G1)的潜力未被AI完全发挥,机器人“身体”能力强于“大脑”指令 [11][14][15] - 硬件可靠性严重不足,过热、马达损坏、固件问题频发,需要整个运维团队维护,错误不可逆,这限制了软件的快速迭代速度 [16][17][18][30] - 领域缺乏统一、可复现的标准评测体系,基准测试是一场“史诗级灾难”,在硬件平台、任务定义、评分标准等方面均无共识,导致人人都可通过定义新基准宣称达到SOTA [8][9][20][21] 主流技术范式(VLA)的局限与未来方向 - VLA(视觉-语言-动作模型)是2025年机器人领域最热的词汇,当年发表了超200篇相关工作,它赋予机器人处理多模态信息的大脑,具备任务泛化能力 [44][45][47] - 当前基于VLM(视觉-语言模型)的VLA范式存在根本性结构问题:VLM是为视觉问答优化,其大多数参数服务于语言和知识,而非物理世界;其视觉编码器会丢弃对灵巧操作至关重要的低层细节 [11][24][26][27][49] - VLA的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制不对齐 [26][51] - 未来方向包括:转向以**视频世界模型**作为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律 [28][53];发展整合物理驱动世界模型的VLA,统一语义指令与物理精度 [50];采用“形态无关表征”解耦规划与控制,实现零样本跨具身迁移,而非盲目堆叠参数 [51] 硬件与数据进展 - 2025年涌现多款新硬件本体,如Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2,它们在运动能力上表现亮眼,大型机器人已能像小型机器人一样灵活 [33][35] - 核心工程挑战在于如何在维持高性能的同时,提升硬件的抗摔性、电池发热、长时间运行稳定性等可靠性问题 [35] - 数据在具身智能领域的重要性已不言自明,数据规模存在Scaling Law,例如Generalist项目证明数据越大、参数越高,模型表现越好 [36][37][43] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [38][40][42] - 具体数据路线(人类中心采集、真机遥操、仿真、互联网数据等)及模态配比仍是未收敛的开放问题 [43] 数据与评测的未来趋势 - 未来数据范式可能转向 **“模拟优先、失败为中心”** ,依赖高保真模拟环境生成多样化轨迹,并充分利用失败轨迹学习,以提高数据利用效率和可持续性 [54][55][56] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,以反映鲁棒性、效率和安全裕度 [56] 市场前景与产业动态 - 机器人产业市场前景广阔,据摩根士丹利研究,其规模有望从当前的910亿美元激增至2050年的25万亿美元 [57] - 硅谷科技巨头(除微软/Anthropic外)均已加码机器人软/硬件布局 [59]
具身智能机器人年度总结,来自英伟达机器人主管
量子位· 2025-12-29 17:01
文章核心观点 - 英伟达机器人主管Jim Fan认为,尽管2025年机器人硬件取得显著进展并出现大量演示,但整个机器人领域仍处于“蛮荒时代”,存在硬件可靠性不足、基准测试混乱、主流技术范式存在结构性缺陷等核心问题 [1][11][13] 硬件进展与瓶颈 - 2025年涌现出如Optimus、e-Atlas、Figure、Neo、G1、Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2等前沿硬件,其运动能力(如翻跟头、步态控制)已明显超出年初平均水平,证明大型机器人也能非常灵活 [15][33][35] - 当前机器人硬件能力(身体)已明显强于AI大脑能发出的指令,硬件进展快于软件 [11][16] - 硬件可靠性严重不足(如过热、马达损坏、固件问题),需要整个运维团队维护,其不可逆的错误限制了软件迭代速度,成为被低估的瓶颈 [11][14][17][18][19][29] - 行业面临的核心工程挑战是在维持高性能的同时,提升硬件的抗摔性、电池发热管理及长时间运行稳定性 [35] 软件、模型与技术范式 - Vision-Language-Action模型是2025年机器人领域最热门的模型范式,仅2025年一年就发表了超过200篇相关研究工作 [45][46] - VLA模型旨在为机器人提供能同时处理视觉、语言和动作信息的大脑,使其具备任务泛化能力 [48][54] - 当前主流技术路线是基于视觉-语言模型嫁接动作模块,但该范式存在结构性缺陷 [11][24][25] - VLM本质是为视觉问答等任务优化,其视觉编码器会主动丢弃对机器人灵巧操作至关重要的低层物理细节,且其庞大的参数服务于语言知识而非物理世界 [26][30][50][51] - VLA模型的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制任务不对齐 [26][52] - 视频世界模型被视为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律,未来趋势是将其能力嫁接至VLA,或将其作为解耦的内部模拟器以实现显式规划 [27][53][55] 行业基准与数据 - 机器人领域缺乏统一的基准测试共识,在硬件平台、任务定义、评分标准、模拟器使用等方面均无标准,导致每次演示都可能临时定义新基准,可复现性和科学规范缺失 [21][22][23] - 数据对塑造机器人模型能力至关重要,2025年出现了证明具身智能Scaling law的案例,显示数据规模、模型参数与任务表现正相关 [32][37][38] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [39][41][42] - 具体数据路线尚未收敛,人类中心采集、真机遥操、仿真及互联网数据等多种模态和配比仍是开放问题 [44] - 未来数据范式可能转向“模拟优先、失败为中心”,即利用高保真模拟生成多样化轨迹,并充分利用失败轨迹进行学习 [56][57][58] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,涵盖鲁棒性、效率和安全裕度 [59] 市场前景与产业动态 - 据摩根士丹利研究,机器人产业规模有望从当前的910亿美元激增至2050年的25万亿美元 [60] - 除微软和Anthropic外,硅谷主要科技巨头(如Google、Amazon、OpenAI、Meta、xAI/Tesla、Nvidia、Apple)均已加码机器人软件或硬件布局 [62][63]
魏牌全新蓝山智能进阶版上市
每日商报· 2025-12-25 07:21
产品发布与定价 - 魏牌全新蓝山智能进阶版于12月22日上市,定位为首款搭载VLA大六座插混SUV,限时售价27.58万元起 [1] 核心技术亮点 - 新车搭载VLA大模型,通过语音控车、CoT推理卡片、防御性驾驶、特殊场景理解四大功能,实现从感知到执行的智能闭环 [1] - 搭载全球首创的四挡全速域直驱技术Hi4性能版,实现了“四驱的性能,两驱的花费” [1] - VLA与Hi4深度融合,实现了从“感知—决策—控制”的全链路协同,构建“主动规避”与“主动稳定”的双重安全防线,实现1+1>2的智慧出行体验 [2] 性能与能耗表现 - 车辆零百加速性能为4.9秒,同时达成6.5L/100km的超低馈电油耗,综合续航里程为1343km [1] - 通过前后50:50轴荷分配与iTVC智能扭矩控制,提供从容安稳的驾乘体验 [1] 智能座舱与交互体验 - 搭载Coffee OS 3.4系统,融合AI主动服务与人性化交互,构建“五好座舱” [2] - 配备23扬声器,支持7.1.4全景声,后排配备17.3英寸3K娱乐屏,支持AI多屏扩画、晕动舒缓显示等功能 [2] - “晕动舒缓显示”功能能有效缓解行车途中看屏幕导致的晕车不适感 [2] - 智能助手“小魏同学”能主动感知环境与乘客,并提供贴心的协同服务 [2] 全场景应用能力 - VLA与Hi4的协同能力在城市通勤突发规避、恶劣天气稳控防滑、非铺装路面从容通过等真实出行场景中表现明显,构成全场景智慧安全核心 [2]
元戎启行获国内头部Tier 1战略投资......
自动驾驶之心· 2025-12-20 10:16
元戎启行近期动态与市场地位 - 公司获得国内头部Tier 1和海外豪华车企的战略投资,背后是带有产业资源的产投资本在重金下注[4] - 国内芯片公司地平线和黑芝麻也寻求与公司在芯片上进行合作[4] - 公司已交付20万辆搭载城市NOA的量产车型[4] - 2025年10月,公司在辅助驾驶城市NOA第三方供应商市场的单月市占率接近40%[4] 城市NOA市场格局与发展拐点 - 产投资本和产业资源加速向优质的城市NOA供应商聚拢,背后是城市NOA普及迎来爆发的拐点,将超越高速NOA成为市场最主流的方案[4] - 2025年全民智驾普及浪潮下,城市NOA定点项目放量,头部智驾公司在手的城市NOA项目订单超过百万辆[4] - 华为、元戎启行、Momenta三家手握的城市NOA项目订单都超过百万辆,市场初步形成三分天下的格局[4] - 2026年,城市NOA将迎来最大一波放量,并正式成为市场最主流的方案[5][6] 元戎启行的增长驱动因素 - 公司进入量产时间晚,但每年城市NOA项目规模都是几倍的增速,是城市NOA领域增速最快的供应商[5] - 增长驱动因素一:吃到了技术红利,公司技术一直瞄准前沿,从无图、端到端到VLA,每年技术路线切换时受到车企青睐[5] - 增长驱动因素二:拿到了几个基石客户,即把大部分车型都交给公司做的车企客户[5] - 基石客户不仅意味着稳定的平台型订单及license收入,更关键的是数据闭环,几十万辆量产的数据闭环价值远高于几万辆[5] - 基石客户是2026年衡量一家智驾公司实力的重要指标[5] 2026年智驾市场关键趋势与挑战 - **市场主流方案更替**:城市NOA超越高速NOA成为市场最主流方案[5] - **放量两大路径**:一是硬件成本下降到几千元水平,可下沉到十多万的车型;二是传统车企油车智驾全面向电车对齐,带来近千万辆增量[6] - **重要规模门槛**:对头部智驾公司而言,城市NOA量产规模过百万辆是一个重要挑战门槛,这关乎市场份额和构建数据壁垒的优势[6] - **技术路线迭代**:2026年技术迭代的一个重要看点是VLA的迭代,将从1到10进入性能指数级增长阶段[6][7] - **供应商的双重挑战**:一方面需做好城市NOA的普及下沉,将端到端降本下沉到更便宜车型;另一方面需做好前沿技术VLA,为未来技术迭代竞争提前卡位[7] - 华为、元戎启行、Momenta将成为率先在城市NOA上量产过百万的供应商[6]