VLA
搜索文档
世界模型,是自动驾驶的终极答案吗?
36氪· 2026-02-05 12:30
行业核心趋势:世界模型成为智能驾驶新焦点 - 世界模型是继端到端、VLA后,智驾领域最时髦的技术名词,多家公司推出相关概念,如小鹏的“世界基座模型”、蔚来的“端到端世界模型”、华为的“世界行为模型”,地平线、理想、元戎启行、Momenta也在进行相关研发 [2] - 在广义语境中,世界模型本质是在虚拟世界再造真实世界,使AI能理解现实世界的物理规律、因果关系和环境动态,被科学家和科技公司视为实现“物理世界AI”的关键拼图 [3] - 当前智驾行业谈论的“世界模型”在技术路径上差异不大,主要是对传统仿真工具进行范式升级,旨在还原度、颗粒度、场景丰富度和自由度更高的虚拟世界中,解决端到端模型的测试与验证问题,以训练出更拟人化的智驾模型 [4] 技术驱动因素:端到端普及暴露传统仿真短板 - 过去两三年,头部智驾方案从规则栈转向AI驱动的端到端模型,感知、预测、规划被整合进一张网络,配合更大模型和更高算力,旨在使驾驶行为更拟人 [7] - 端到端模型的“黑盒”特性导致新版本OTA可能表现不稳定甚至“退步”,核心问题在于AI驱动使得模型评估和回归验证变得困难,研发人员难以定位错误原因 [8][9] - 端到端的普及凸显了传统仿真器的短板,传统仿真器在规则时代主要用于问题重现和增加特定场景数据,但无法支撑端到端模型所需的大规模、系统性闭环验证 [10] 核心应用定位:世界模型作为云端仿真与验证系统 - 截至目前,智驾行业的世界模型仅应用于云端,尚未部署到车端,其主要作用是充当仿真器,用于测试和验证端到端模型 [6] - 头部玩家如理想和小鹏均将世界模型作为仿真器应用,理想为使其VLA在仿真环境中进行强化学习,提出了包含自车和他车轨迹的驾驶世界模型;小鹏也在采用世界模型进行仿真测试以评测新算法 [10] - 世界模型在工程上被定位为端到端时代的“验证与反证系统”,用于在云端重放、改写、扩增现实驾驶场景,检验车端大模型输出的稳定性和可复现性,并形成可追踪的错误证据链 [14] - 世界模型的核心能力包括对物理世界的数字化建模与抽象,以及基于此对物理世界进行合理的想象和预测,例如通过给定图片预测未来变化 [14] 技术路径与挑战:生成质量、幻觉与算法瓶颈 - 世界模型的好坏取决于其能否在云端生成足够真实和多样性的数据,仅回放真实数据并非真正的世界模型,训练数据的质量会显著影响生成结果的质量 [15] - 世界模型底层是生成式模型,天生存在“幻觉”风险,目前最难的是保证生成内容符合真实世界的物理规律和行为逻辑,否则将导致车端模型学到错误知识,性能变差 [16] - 行业普遍处于早期阶段,国内厂商基于世界模型最长能生成30-60秒视频片段,但动态物体在时空一致性和多视角一致性上存在较大问题 [16] - 前理想汽车辅助驾驶负责人指出,世界模型的瓶颈首先在于算法层面未有突破,图像模型的自监督训练尚未找到像语言模型那样顺畅的范式,图像信息密度低,对驾驶决策有用的信息占比极低,模型需从海量噪声中提取极少有效信号 [17][18] - 由于基础技术尚未明确突破,车企对世界模型的投入更多是研究性质,目前世界模型主要停留在用于训练与验证的第一阶段,而非能支撑决策规划的第二阶段 [18] 效率价值与未来展望 - 基于世界模型,车企在云端仿真时可以无限制地生成所需场景,根据指令生成视频作为训练数据,效率远高于真实数据采集与训练,能带来模型迭代速度的断代式领先 [16] - 特斯拉采用了“世界模拟器”的概念,其基于海量数据集训练,根据当前状态与动作生成未来状态,并与车端端到端模型形成闭环评估,其方法更倾向于用神经网络“拟合”世界,渲染通过计算生成,以增强模型泛化能力 [11][14] - 业内观点认为,如果世界模型足够成熟且算力可支撑,未来有望部署到车端,实现通过预测世界变化并进行有利决策,从而解决自动驾驶和机器人相关问题,但目前尚无公司在车端应用世界模型 [18][19]
见谈|地平线吕鹏:端到端是基石,做不好端到端就做不好VLA
21世纪经济报道· 2026-02-03 16:04
智能驾驶技术路线 - 行业专家认为市场无需对技术路线的不同名词感到焦虑 无论是端到端 VLA WA还是VA 本质上没有冲突 其技术架构均基于端到端构建 [1] - 端到端技术是基石 没有端到端的基座 很难引入新的模态 也无法更好地提升产品性能 做不好端到端就做不好VLA [1]
五一视界(6651.HK)物理AI的“左右互搏”:世界模型与VLA的闭环进化论
中金在线· 2026-01-28 10:39
物理AI的发展趋势与核心突破 - AI技术正取得三大突破:从聊天到干活的智能体、开源模型降低门槛、物理智能理解客观自然世界 物理智能展现出AI开始理解蛋白质结构、化学分子、流体力学等自然科学规律 这被认为是AI的下一波浪潮[1] 物理AI的核心技术范式:VLA与世界模型协同 - 为加速AI理解、重建和生成物理世界,需依赖世界模型这一利用AI训练AI的新工具[2] - 行业共识认为,单纯依赖真实机器人数据采集不够 正在见证VLA模型或VA模型与世界模型双模型协同的新范式崛起[2] - VLA或VA模型担当负责感知、推理和行动的大脑 世界模型充当负责推演和想象的场景模拟器[2] VLA与世界模型协同的价值与路径 - VLA+世界模型是解决物理AI中具身智能数据饥渴和物理安全性矛盾的最优解 真实机器人数据采集较贵、较慢、有危险[3] - 世界模型能生成无穷无尽的仿真数据 可低成本生成各种情景甚至反事实场景 为VLA提供细节丰富的训练场[3] - 斯坦福大学李飞飞教授提出空间智能是连接数字与物理世界的桥梁 世界模型应生成具备3D几何一致性、物理互动性的可操作世界 VLA在此训练才能真正理解物理规律[3] - 协同进化工程化落地分为四个阶段:冷启动、接口对齐、在仿真场景中训练、虚实迁移与校准[4][5] 解决生成式模型物理常识缺失的关键技术 - 需警惕生成式模型在长时间序列预测中的一致性幻觉 如物体突然变大或穿透[6] - 解决对策:引入3D几何、材质等约束 结合3DGS等技术 确保生成的物体在三维空间中守恒[6] - 公司日常训练中将3DGS技术与3D几何图形引擎融合 形成3DGS混合仿真引擎 使虚拟环境物理特性与真实环境保持一致[6] - 为判断任务成功 需训练配套的奖励模型作为裁判 查看生成场景并给出分数反馈[6] - 为解决世界模型推演速度瓶颈 可采用潜一致性模型等加速技术 将预测从像素级转移到特征级 速度可大幅提升[6] 数据共享与互补的最佳实践 - 世界模型训练需要输入真实数据与合成数据[7] - 共享视觉底座:VLA和世界模型的视觉编码器可共享权重或联合训练 以节省显存并保证对世界特征的同频理解[7] - 反事实数据生成:利用世界模型生成假设性失败案例数据 让VLA学习从未经历过的失败 提升鲁棒性[7] - 数据配比:建议发展初期按照真实数据与合成数据1:9的比例混合使用 真实数据用于校准物理规律 合成数据用于拓展多样性[7] 物理AI的演进方向与未来应用 - 世界模型未来需直接生成4D的交互式环境 VLA将在完全三维的动态可交互环境中训练[8] - 在公司的"数字孪生工厂"中 利用物理AI可在虚拟产线调试机械臂、应对异常 再同步到实体工厂执行[8] - 构建动态"虚拟训练场" 使人形机器人在部署前学会应对数千种突发状况[8] - 实现快慢系统默契配合:VLA处理毫秒级实时反应 世界模型处理长程规划 当VLA遇难题可呼叫世界模型推演方案[8] - 最终VLA和世界模型可能合并为一个大一统模型 输入观测时既能预测下一个动作也能预测下一帧状态[9] - 未来应用包括:机器人管家、模拟火星环境中自主作业的工程车、在药物研发中推演蛋白质折叠与分子互作的"虚拟实验室"[10]
从 DeepMind 到投身具身智能,王佳楠:算法最终还是要服务真实世界|万有引力
AI科技大本营· 2026-01-23 18:09
文章核心观点 - 通往AGI的终极路径是具身智能,其目标是让大模型进入物理世界,成为可用、可落地、可持续演化的智能体[1] - 具身智能并非AI的新分支,而是各类AI技术在现实世界中的统一落地点[6] - 实现具身智能需要从纯粹的算法研究转向与硬件、数据和真实场景不确定性正面交锋的全流程定义与开发[2][21] 从DeepMind到投身具身智能 - 嘉宾王佳楠的职业路径从牛津大学到DeepMind,再回国加入IDEA研究院进行生成式AI研究,最终于2024年加入星尘智能,投身于大模型与机器人结合的具身智能领域[1][7][18] - 在DeepMind期间,其研究方向是追求通用的强化学习框架,并亲历了AlphaStar等标志性项目的诞生[1][12] - 从DeepMind到创业公司的转变,本质是从“定义好问题”的纯算法研究,转向需要“定义问题本身”的解决真实世界问题的过程[6][14] 对具身智能的认知与信念 - 对嘉宾而言,AGI的终极形态就是智能机器人,这是其投身该赛道的根本信念[8][9] - 机器人是当前AI技术的一个重要终端平台,CV、NLP、大模型等领域的从业者都在此汇聚,以实现开放环境中与人交互的智能机器人目标[7] - 机器人研发涉及复杂的软硬耦合,与纯粹的AI开发逻辑完全不同,开发者需从“解题者”转变为“全流程定义者”[21] 技术架构:快慢系统(大小脑) - “快慢系统”(或称大小脑、System 1/System 2)是具身智能的核心系统观,其核心在于区分决策深度[6][25] - 快系统(小脑)负责无需语言中介、由直觉驱动的基础运动能力,其核心任务是通过海量动作片段数据预训练,构建机器人的“动作基元库”[28][29] - 慢系统(大脑)作为指挥官,通过高层指令精准调用快系统的原子技能,实现从“意图”到“执行”的闭环[29] - 该架构是一种功能定义,既可通过单一模型切换实现,也可通过多模型协作完成,并具备高度可扩展性[25] 关键瓶颈与解决方案探索 - **数据是当前最硬的瓶颈**,高质量的真机数据不可替代[6][33] - 解决数据瓶颈的探索包括:1)**数据增强**:在仿真中对真实采集的数据进行背景、光照等调整以扩充数据量;2)**纯仿真生成**:适用于交互不复杂的任务;3)**互联网数据积累**:用于解决上层语义理解和长时序任务规划等痛点[34][35] - 在模型架构上,常见方案包括使用单一Transformer的VLM框架,或外接世界模型(如DiT)提供预测提示,系统需要开放地接受不同形式的提示[31][32] - 让机器人理解人类非预设的复杂需求,核心在于意图表达的颗粒度,需结合“语言指令+多模态提示”(如勾勒运动轨迹、设定空间约束)[31] 对世界模型与VLA的看法 - 世界模型是一个有潜力的方向,但**不需要等待其完美**,能提供预测与提示价值即可,其本身并非银弹[6][38] - 如果已经能完美仿真一个问题所处的环境,那么该问题其实已经解决,这是一个哲学上的循环问题[38] - VLA是通往通用机器人的**关键一步和重要里程碑**,它为机器人配备了通用能力,但下游应用仍需要特定的设计或改动[6][41] 通用机器人的发展路径与时间表 - 通用机器人“走到人身边”可能只需**2到3年**,但实现完全自主还需要长期演化[6][43] - 更现实的路径是“可用先行、人类接管、逐步升级”,类似自动驾驶的发展节奏[6][43] - 若目标是在定义好的大量任务上达到高正确率,主要是一个数据和模型训练问题,若有足够快的数据采集和行业共创,**3到5年**可能积累覆盖日常各种场景的完整数据[44][45] 公司实践与发展现状 - 星尘智能团队具备多元化的行业长期积累,并通过紧密的多团队协作与创业精神实现了产品的快速发展[19] - 公司在数据方面进行了大量优化,并采用仿真进行数据增强,同时与MIT等高校合作探索多模态数据应用[33][47] - 公司目前处于“打磨”和推向科研、高校合作伙伴的阶段,门槛已有所降低,但商业化落地(让客户能自主验证和二次开发)是下一步关键挑战,整体进度估计在**50%左右**[50][51] 未来关键方向与行业建议 - 未来关键探索方向包括:1)**人机交互**:定义机器人理解意图、沟通及发出求助信号的交互方式;2)**多模态数据**:收集和应用触觉、力觉等更多模态数据以提升模型能力[47] - 具身智能是一条漫长但值得坚持的道路,需要开发者具备信念感和耐心[55] - 行业需要**共创共赢**的心态,集合个人、公司、社区的力量共同积累与反馈,以推进边界[6][55]
2025年几家自动驾驶公司的采访总结
自动驾驶之心· 2026-01-22 17:07
核心观点 - 自动驾驶行业在核心算法层面已形成共识,即采用端到端(End-to-End)作为基础架构,并引入世界模型(World Model)作为关键基础设施 [6][7][10] - 行业在顶层认知上出现路线分歧,主要围绕是否在端到端模型中引入语言模型(即VLA与WA/反VLA之争),这本质上是计算效率与推理能力(快思考 vs 慢思考)的不同权衡 [7][11] - 未来三年是现有深度学习范式的“极致优化期”,核心在于通过海量数据驱动能力自然生长,而非理论重构 [7] - 行业竞争已超越单纯算法模型之争,研发基建、数据仿真、算力芯片、工程化能力及用户体验等非技术因素成为决定成败的关键变量 [13] 核心技术路线 端到端 (End-to-End) - 是自动驾驶的底层基座,替代了传统的模块化方案,直接从传感器输入映射到控制输出 [1][10] - 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),统一了L2和L4的开发范式 [7] - 其局限性主要是“模仿学习”,能力上限受限于训练数据,缺乏逻辑推理 [12] 世界模型 (World Model) - 是核心算法演进中的关键基础设施,扮演“中间加速器”的角色 [7][10] - 主要作用分为两方面: - **对内(训练)**:作为“超级模拟器”,生成大量合成数据以解决长尾问题,并让端到端模型在虚拟环境中通过强化学习反复试错迭代,实现从“数据闭环”到“训练闭环”的演进 [2][8][11][18] - **对外(推理)**:作为“预测机”,帮助车辆理解物理规律和因果关系,直接指导动作生成 [9][11] - 3DGS(3D Gaussian Splatting)是构建高保真仿真环境的重要技术 [3] 视觉-语言-动作模型 (VLA) 与 世界-动作模型 (WA) - **VLA派(理想、英伟达)**:认为需要引入大语言模型赋予车辆逻辑推理(Chain of Thought)和解释能力,以处理复杂、罕见的长尾场景(System 2,慢思考) [9][11][12] - **WA/反VLA派(华为、小鹏)**:认为驾驶主要是直觉反应,引入语言环节会增加延迟和算力负担,主张直接从世界模型理解映射到动作(System 1,快思考) [9][11] - **务实派(小米)**:当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求,追求“智能密度”最大化 [9][11] 主要公司技术选择对比 | 公司 | 核心技术路线选择 | 核心逻辑与观点 | 世界模型/仿真工具的角色 | | :--- | :--- | :--- | :--- | | **理想汽车** | VLA (Vision-Language-Action) | 认知驱动,认为需从“模仿”进化到“自己学会”,单纯数据闭环不够,必须走向训练闭环 [9] | 利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化,是训练闭环的核心 [9] | | **英伟达 (NVIDIA)** | 物理AI + VLA (Alpamayo) | 强调AI的可解释性与推理能力,不仅要会开,还要能解释决策,并强调“Test time Scaling”(让AI多思考一会儿) [9] | 使用Omniverse & Cosmos生成合成数据和进行物理模拟,训练车辆学习物理定律 [9] | | **小米汽车** | 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化,当前方案优先解决“直觉”(System 1)问题,VLA类似“看悬疑片”(System 2),仅用于极复杂场景,不制造技术焦虑 [9][17] | 使用高保真模拟器进行强化学习训练,解决实车难以覆盖的长尾场景 [9] | | **地平线** | 一段式端到端 (One-Stage) | 范式统一,认为FSD V12证明了端到端的可行性,未来三年是“极致优化期”,旨在统一L2与L4的开发范式 [9] | 未详细展开,主要强调通过统一范式和低成本部署打通壁垒 [9] | | **华为 / 小鹏** | WA (World Action) / 反VLA | 去语言化,认为驾驶主要是直觉反应,不需要经过语言环节,以降低延迟和算力负担 [9] | 利用世界模型理解环境演变,直接指导动作生成 [9] | 非核心技术关键因素 研发基建与工程效率 - 基建(以数据为核心的研发效能)决定迭代速度,好的基建能大幅提升研发效率,例如小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率提升 [3][18] - 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练 [18] - 强化工程能力和组织能力被视为公司的“工业母机”,是应对技术范式变化的确定性方法 [18] 仿真与合成数据 - 仿真成为解决长尾问题(Corner Case)的核心,单纯依赖真实路测数据已无法满足需求 [14] - 合成数据价值极高,例如在小米的训练数据中,仿真数据占比约为20%,但节省了数倍的人力成本 [18] - 英伟达通过Cosmos世界模型生成符合物理定律的合成数据来训练自动驾驶模型 [18] - 理想汽车等公司强调从“数据闭环”走向“训练闭环”,让AI在虚拟世界中进行强化学习,自我探索最优策略 [18] 算力规模与芯片适配 - 智驾是算力和硬件的“暴力美学”,计算机工业的本质就是“玩命堆算力” [15][18] - 英伟达发布Rubin平台以应对每年增长5倍的AI推理需求,旨在将推理成本降低至原来的1/10 [18] - 算法上车面临巨大的“部署偏差”,从一颗芯片迁移到另一颗芯片通常需要6-10个月解决算子支持、计算精度对齐等问题,这种高昂的迁移成本构成了芯片厂商的护城河 [18] - 随着AI进行长序思考(System 2),车载芯片的“显存”面临巨大挑战 [18] 商业化成本与泛化能力 - 技术再先进也需考虑成本,智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别车型 [18] - 新一代端到端技术通过数据驱动,在一个复杂城市验证后,能大概率泛化到整个国家,极大地降低了扩张成本 [18] 用户体验与安全冗余 - 技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑 [17] - 安全机制至关重要,即便是激进的端到端方案也需要安全兜底,例如英伟达的方案中包含了一个经典的规则驱动AV栈作为安全护栏,在端到端模型信心不足时回退 [19]
VLA任务的成本马上被干到了白菜价......
具身智能之心· 2026-01-20 17:30
行业趋势:具身智能与VLA任务硬件成本快速下降 - 用于VLA任务的机械臂价格在过去两年内急剧下降,从2年前的单臂30,000元以上,降至1年前约15,000元,目前“能用”的具身科研臂价格已低于5,000元 [1][2] - 低成本机械臂(如5,000元以下产品)的出现,使得实现π0、π0.5等各类VLA任务的门槛大幅降低 [2] 市场痛点:初学者进入VLA领域面临多重障碍 - 尽管硬件成本下降,但初学者在复现VLA任务时仍面临“成本太高”的困扰,且开源低成本机械臂存在调试困难的问题 [3] - 打通数据采集、VLA模型、训练优化、部署全流程对初学者而言非常困难,特别是在π0、π0.5、GR00T等模型的训练中存在许多“trick” [4] - 许多学习者将大量时间“浪费”在踩坑上,缺乏有效的学习路径和实战指导 [4][6] 公司解决方案:推出面向实战的VLA课程 - 公司基于SO-100机械臂和LeRobot平台,复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、真机昂贵及不知如何上手的问题 [8] - 公司联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,课程内容涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流模型部署、VLA+世界模型、真机实验及具身产业讲解 [9][14] - 该课程被描述为公司目前最大、最完整的课程,采用软硬结合的方式,课程已正式开课并提供社群交流 [15][17] 课程附加价值与硬件支持 - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂) [19] - 课程项目经验可写入简历,课程中学习的“trick”可作为面试答案,帮助学习者节省自行摸索的时间 [12] - 课程为录播形式,购买后2年内支持反复观看,并提供VIP群答疑服务 [27] 目标用户与课程要求 - 课程面向正在具身领域求职、需要实战项目的学生;VLA领域的入门及进阶者;从事具身智能研究的本科生、硕士生、博士生;希望从传统CV、机器人或自动驾驶领域转行的人员;以及对具身智能感兴趣的其他人员 [26] - 课程对硬件有建议配置:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,学员也可自租云服务器资源 [26] - 学员需具备一定的Python和PyTorch基础,课程目标包括掌握真机调试与数据采集、掌握各类VLA算法在真机上的部署、以及对VLA模型量化有深入了解 [26] 预期学习成果 - 完成课程后,学员将对具身产业和落地有清晰认识,简历上可获得足够多的项目支撑,学习成果相当于具备1-2年以上的算法工程师经验 [32]
2026,中国智驾驶入决赛圈
36氪· 2026-01-15 11:46
文章核心观点 - 自动驾驶行业技术路线正从规则驱动向模型驱动的端到端方案收敛,并以特斯拉FSD V12和V14为关键转折点,行业进入VLA(视觉-语言-动作模型)与WA(世界模型)的路线竞争阶段 [2] - 中国智驾行业正经历剧烈洗牌,竞争将在2026年结束,最终只会有两到三个玩家胜出,头部供应商如华为、地平线、Momenta、文远知行等正通过软硬一体、数据和资金构建护城河 [1][10][11] - 行业共识认为一段式端到端是未来方向,其能解决安全与舒适不可兼得的矛盾,而实现该技术的门槛极高,涉及芯片算力、海量数据与巨额资金投入 [8][9][10][11] 技术路线演进与竞争格局 - **技术范式转变**:特斯拉FSD V12证明了大模型驱动的端到端技术路径可行性,行业随之转向;FSD V14为解决黑箱困境,放弃纯端到端,加入思维链能力,行业纷纷押注VLA路线 [2] - **路线分歧**:以小鹏、理想、长城为代表的主机厂坚定拥抱VLA路线;华为明确拒绝VLA,坚持走WA路线;Momenta则代表相对小众的RL(强化学习)路线 [5][6] - **供应商架构转型**:地平线在2025年6-7月完成技术架构整体切换,其HSD智驾系统采用一段式端到端架构与强化学习,激活量超12000辆 [3];文远知行凭借一段式端到端架构降维切入L2+赛道,与博世联合开发的解决方案从启动到量产仅用时7个月 [3];卓驭科技彻底放弃八年规则代码,All in端到端路线 [4] - **行业洗牌**:中国智驾行业经历剧烈洗牌,估值百亿的毫末智行被曝陷入停摆;纵目科技、清研微视等中腰部玩家因资金断裂或技术掉队而声量渐微 [1];供应商赛道上剩余玩家包括华为乾崑智驾、地平线、Momenta、卓驭科技、元戎启行及文远知行等 [1] 核心能力与竞争壁垒 - **软硬一体**:端到端算法对芯片的最低算力要求是1000T稠密算力、1TB/s带宽起,目前仅有华为和地平线完成了相关技术储备 [10];Momenta 2025年的核心任务是量产自研芯片以实现软硬一体 [10] - **数据闭环**:车企自研获取足够高质量数据以维持模型迭代的门槛是年销量50万辆 [10];华为有问界等爆款车支撑其世界模型的数据闭环;地平线、Momenta、文远知行则需依赖合作车企打造爆款车型以获得足够规模数据 [10] - **资金投入**:每年投入20亿元训练模型、10亿元采购大规模计算芯片,是训练一段式端到端大模型的标准,符合此标准的玩家不多 [11] - **车企自研降温**:主机厂自研智驾已经降温,因自研花费比预期大、事不好干,且与内部磨合不畅,越来越不愿意投钱自研 [11] 市场发展与未来展望 - **商业化落地与竞争焦点**:2025年被称为VLA上车元年 [5];对于大多数企业,2026年的重心仍是L2+和城市NOA,L3/L4只会是轻量化探索 [12];卓驭科技主打性价比路线,旨在让不足10万元的A0级电动车具备城市NOA功能 [4] - **出海与全球竞争**:国内L2+的红海厮杀倒逼中国智驾企业加速出海,L4级Robotaxi成为新战场 [12];2025年百度萝卜快跑全球订单突破1700万单超越Waymo;文远知行与Uber在阿布扎比启动合作;小马智行在沙特和韩国布局 [12] - **行业终局判断**:行业共识是竞争将在2026年结束,最终只会有两到三个玩家胜出 [1];目前华为依然是绝对头部,地平线、Momenta、文远知行等还在第一梯队 [12]
VLA学习“成本太高”的问题,正在被解决......
具身智能之心· 2026-01-14 17:00
行业痛点与市场需求 - 复现视觉语言动作模型任务面临高成本障碍,可用的机械臂基本价格在1.5万元以上,加上相机等传感器后成本更高,对自学者构成硬伤[3] - 开源低成本机械臂存在使用门槛,初学者在数据采集、模型训练和动作输出方面难以调出理想效果,导致大量时间浪费在踩坑上[4][5] - 打通从数据、VLA模型、训练优化到部署的完整任务链条对初学者非常困难,特别是对于π0、π0.5、GR00T等模型,其数据采集和训练存在诸多技巧[5] - 市场存在对低成本完成各类VLA任务的强烈需求,许多学习者希望在预算有限的情况下也能入门该领域[7] 解决方案与课程产品 - 具身智能之心平台基于SO-100和LeRobot复现了ACT、GR00T、π0、π0.5等方法,旨在解决学习者缺乏真机、真机昂贵以及不知如何上手的问题[8] - 平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,旨在帮助学习者有效学习更新快速的技术路线[9] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流VLA模型部署、VLA结合世界模型、各类真机实验以及具身产业讲解[14] - 该课程被描述为平台最大、最完整的课程,采用软硬结合的方式,旨在提升学习效率[15] - 课程正式开课,社群内交流活跃,能够为学员遇到的问题提供解答[16] 课程硬件与师资 - 购买课程的学员将获赠一套SO-100机械臂,包含示教臂和执行臂,通过淘宝购买后直接发货给学员[18] - 课程讲师为某机器人公司VLA高级研究员,拥有超过5年的机器人行业实战经验,聚焦产学研协同落地,熟练掌握具身智能全栈技术[21] - 讲师在人形/轮式机器人、机械臂等多种具身本体上有深度实操经验,并在自动控制、机器人领域的IEEE Trans系列、Neural Networks等顶级期刊发表过10篇以上学术论文[21] 目标学员与课程要求 - 课程面向正在具身领域求职需要实战项目的同学、VLA领域需要进阶的入门者、从事具身智能研究的本硕博学生、希望从传统CV、机器人或自动驾驶转行进入具身领域的人员,以及对具身智能感兴趣的其他人员[25] - 课程对计算资源有明确建议:推理建议使用RTX 3060及以上显卡,训练建议使用2张以上RTX 3090 Ti显卡,学员也可自租云服务器资源[25] - 学员需要具备一定的Python和PyTorch基础[25] 学员收获与课程安排 - 学员学完后将对具身产业和落地有清晰认识,简历上能积累足够多的项目支撑,达到相当于1-2年以上算法工程师的经验水平[27] - 课程项目可写入简历,所学技巧可作为面试答案,能帮助学员节省大量踩坑时间[12] - 课程第一章于2025年12月30日开课,后续章节将持续至2026年2月25日,共九章内容[28] - 课程价格为788元[29]
英伟达还是放不下自动驾驶
虎嗅APP· 2026-01-13 21:35
文章核心观点 - 英伟达通过发布开源VLA大模型Alpamayo及配套工具链,旨在降低车企开发高阶自动驾驶的门槛,从而巩固并扩大其汽车芯片业务的客户基础与市场地位,这是其对自动驾驶领域发起的一次战略性总攻 [8][12][25] 一、大模型预制菜 - VLA(视觉-语言-行动)模型是当前自动驾驶热门技术路线,其通过将传感器数据转化为语言符号并进行推理决策,解决了端到端模型的黑箱与不可控问题,使算法决策可追溯、可解释 [6][11] - 多家车企已押注VLA路线,包括小鹏(已发布第二代自研模型)、理想、长城、奇瑞,特斯拉FSD V14也被认为采用了类似架构 [10] - 英伟达Alpamayo的核心价值在于开源,它为车企提供了一套完整的底层VLA大模型,车企可基于自有数据微调,大幅降低了开发难度与成本 [12] - 英伟达提供了完整的开发套件:包括开源模型Alpamayo、用于闭环测试的仿真框架AlpaSim,以及超过1727小时驾驶数据的Physical AI开放数据集,为车企提供了“预制菜”式的解决方案 [12][14] 二、英伟达的心事 - 英伟达汽车业务面临挑战:其DRIVE系列芯片虽是中高阶智驾市场霸主,但业务收入增长未达预期,且客户结构存在问题 [17] - 客户存在流失风险:软件算法能力强的客户(如小鹏、蔚来)有自研芯片计划;而销量高的传统车企(如大众、奔驰、宝马)缺乏自动驾驶算法研发能力,难以成为英伟达客户 [23][24] - 公司战略转向“保姆式服务”:为扩大客户基础,英伟达从单纯卖芯片转变为提供“硬件+软件+工具”的全套解决方案,最新推出了涵盖云端训练(Vera Rubin芯片、Cosmos世界模型)与车端推理(Thor芯片、Alpamayo模型)的智能驾驶工具链闭环 [25] - 商业模式在标准化与定制化间重新校准:通过提供开源算法和丰富工具链来降低芯片使用门槛,但坚持不亲自下场为车企做定制化项目,核心目的仍是销售标准化的芯片 [26]
英伟达还是放不下自动驾驶
远川研究所· 2026-01-12 21:12
文章核心观点 - 英伟达在2026年CES上发布开源VLA大模型Alpamayo及配套工具链 标志着公司对自动驾驶领域发起总攻 旨在通过提供“预制菜”式的标准化解决方案 降低车企开发门槛 从而巩固并扩大其汽车芯片业务的市占率[6][7][22] 自动驾驶技术路线演进 - VLA模型成为自动驾驶年度热词 其通过将传感器数据转化为语言符号进行推理 使决策过程可追溯、可解释 避免了端到端方案的黑箱问题[7][10] - 特斯拉FSD V14被推测采用了类似VLA的技术架构 而英伟达Alpamayo是首个开源的VLA大模型 内部测试显示其接管率与特斯拉FSD处于同一水平[7][10] - 多家车企已押注VLA路线 小鹏在2024年已开始开发并跳代发布了第二代自研VLA模型 理想、长城、奇瑞等车企也选择了该路线[8] 英伟达Alpamayo模型及开源策略 - Alpamayo是一个开源的大规模教师模型 车企可基于自有数据对其进行微调和蒸馏 以形成差异化的技术方案 大幅降低了开发难度和成本[10][11] - 英伟达提供了完整的工具链闭环 包括用于仿真测试的AlpaSim框架 以及包含超过1727小时驾驶数据的Physical AI开放数据集[11][21] - 该策略被比喻为提供“预制菜” 使车企能快速“出锅”上车 是英伟达在“标准化”芯片与“定制化”服务之间找到的平衡 旨在提升芯片易用性而不亲自下场做项目[10][11][22] 英伟达汽车业务的挑战与战略调整 - 英伟达汽车业务面临增长未达预期的困境 其DRIVE系列芯片虽是中高阶智驾市场霸主 但收入贡献相比数据中心业务差距较大[15] - 商业模式存在挑战 软件算法能力强的客户有自研芯片计划 而销量高的传统车企缺乏算法研发能力 导致英伟达芯片销售受阻[20] - 为此 英伟达进行了战略调整 从单纯卖芯片转向提供“保姆式服务” 包括提供车载计算机硬件设计蓝图、物理级精确仿真平台DRIVE Sim 以及最新的数据中心芯片Vera Rubin和世界模型Cosmos 构建了“云端训练+车端推理”的完整工具链[21][24]