VLA模型
搜索文档
特斯拉已不是智驾行业“标准答案”
36氪· 2025-10-31 08:25
时隔两年多,特斯拉再次"开麦"。 与此前不同,这次特斯拉对于自家智能辅助驾驶算法进展的分享,并不是在AI Day的舞台上,而是在近 日举办的计算机视觉顶会ICCV(International Conference on Computer Vision)期间。 特斯拉自动驾驶副总裁阿肖克·埃鲁斯瓦米(Ashok Elluswamy)作为嘉宾,在大会上发表了主题演讲。 有可能为了接上2023年6月他们提出端到端架构之后的"闭麦",阿肖克从"特斯拉为何会选择端到 端?"开始分享,但经过多年实践,他们也发现仅通过端到端想要做好智能辅助驾驶,存在一些挑战。 图源Tesla AI 首先就是端到端系统需要解决从极高维到极低维的映射问题,这种映射往往是多对一,因此要保证输出 的正确性,训练难度可想而知。阿肖克的言外之意,或许是在强调端到端模型的"黑箱"问题。 基于特斯拉庞大的用户规模,每日可为他们产生相当于500年驾驶时长的数据,但其中多数是没有太多 价值的常规场景数据,对于算法的长远泛化没有太大帮助。 为了解决这两个问题,特斯拉在架构和算法层面做了一些优化和调整,比如在输出决策控制指令前,还 会输出OCC占用网络和3D高斯 ...
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 12:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
万亿机器人赛道:宇树和figure谁才能代表未来?
36氪· 2025-10-20 17:26
行业商业化进程 - 2024年被视为人形机器人商业化元年,资本从押注通用技术转向布局实体应用场景[1] - 多家公司获得大额订单:优必选Walker系列获近5亿元合同,部分于2025年交付;智元机器人精灵G2获数亿元订单并开启首批商用交付;乐聚机器人获8295万元订单;众擎机器人获三年不少于2000台采购;松延动力N2总订单量突破2500台;银河通用解决方案今年将应用千台左右[3] - 宇树科技今年中标25个公开采购项目,接近2024年全年32次的总量,并以7次直接中标位居第一,其机器人也常作为标准设备被集成入方案[3] 宇树科技行业地位与挑战 - 宇树科技被视为行业领军企业,但在机器人“大脑”和“灵巧手”方面面临拷问,其订单以国企和高校为主[4] - 公司进入IPO进程,面对行业泡沫质疑,创始人认为从未来看现在没有泡沫,对比海外Figure 390亿美元(约2700亿元人民币)估值,国内百亿级估值显得保守[4] - 公司过去三年研发支出总额约3.5亿元,其中80%用于硬件,算法投入不足20%,而竞争对手智元机器人一年大模型研发投入就近4-5亿元[5] - 公司推出UnifoLM-WMA-0世界模型-动作架构,但其创始人批评主流VLA架构数据质量和数量不足,训练成本高,难以实现通用性突破[7] - 公司在硬件性能、成本控制、量产能力上领先,但AI模型研发相对保守,被指缺乏核心壁垒和应用场景,今年二月曾有投资机构按上轮估值急售其股权[4][7] 国际竞争对手动态 - Figure AI发布第三代人形机器人Figure 03,穿上衣服增强“活人感”,其BotQ产线具备年产10万台能力,目标为大规模应用设计,但被质疑模仿1X Technologies产品且进度神秘[8][9] - Figure CEO承认机器人尚未能在家中自主完成大多数任务,目标2026年实现,但公司曾因与宝马合作被《财富》杂志质疑夸大宣传,其机器人仅进行简单零件搬运训练[13] - 特斯拉Optimus项目原定2025年5000台量产目标或延期,面临关节电机过热、灵巧手载重不足、电池续航不足等硬件问题[15] 行业应用场景与挑战 - 人形机器人在工业场景商业模式难跑通,定制化方案缺乏标准化导致投入产出比低,存在数据孤岛效应[15] - 家庭场景需求宽泛非标,扫地机器人行业几十年历史仍存在感知有限、识别错误问题,VLA模型家用机器人任务泛化能力差[16] - 知名机器人企业客户特定,多为高校或有投资合作关系的企业:宇树产品进入全球近千所高校;加速进化机器人成RoboCup高校队伍标配;星海图机器人获李飞飞团队使用[18][21] - 实际应用以试点为主:优必选Walker S在蔚来基地进行门锁检查等任务;亚马逊、DHL测试仓储拣选;智元机器人与上市公司合资建厂,但远未达到遍地开花程度[20] 行业前景与核心竞争 - 行业目前停留在“试点”、“POC验证”阶段,真正稳定运行、创造可观商业价值的人形机器人尚未出现[21] - 国内产业链成熟,电机、传感器、灵巧手等难点硬件正实现标准化通用化,仅少数高端芯片尚存进口依赖,为行业爆发奠定基础[22] - 行业共识认为机器人“大脑”价值占80%,但实现路径如端到端、VLA等架构均未展现出巨大优势,讨论单一公司领先意义不大[23]
UC伯克利大牛预警:留给人类能干的活,只剩5年了
36氪· 2025-10-11 18:18
UC伯克利教授、机器人顶级专家Sergey Levine预言:2030年前,机器人就能像家政阿姨一样,独立打理整个家庭。 这不是炫技演示,而是「自我进化飞轮」即将启动的信号。 家务只是开始,更大的震荡是——蓝领经济、制造业、甚至数据中心建设,都将在机器人潮水中被改写。 五年倒计时:飞轮何时真正启动 五年倒计时已经开始。UC伯克利大牛Sergey Levine直言:机器人很快就会进入真实世界,接手的不只是厨房与客厅,还可能是工厂、仓储, 甚至数据中心建设。真正的革命,是「自我进化飞轮」一旦启动,就不会停下。 折衣、做饭、拖地,五年后可能都不用你亲自动手! 当Sergey Levine在播客中说出「中位数5年」这个预测片时,很多人会觉得这是科幻。 但这并非信口开河,而是建立在近年Robot Foundation Models+真实部署+实操反馈不断累积的基础上。 与此同时,Physical Intelligence的π0.5模型已经在未见过的家居环境中,让机器人完成「清理厨房或卧室」这样复杂且延展性的家务。 π (0.5) 配方中协同训练任务的插图,包括来自多种不同机器人类型的各种机器人数据源,以及包含高级子任务 ...
小鹏智驾一把手换人,蔚来团队大调整,各有各的算盘
36氪· 2025-10-10 20:30
小鹏汽车智驾负责人更迭 - 小鹏汽车自动驾驶中心负责人李力耘因身体原因暂时休息,不再担任该职务 [1][2] - 原世界基座模型负责人刘先明接任自动驾驶中心组织负责人,全面负责中心业务和组织管理工作,向何小鹏汇报 [2][3][9] - 刘先明于2024年3月加入小鹏汽车,担任AI团队负责人,入职仅一年多即晋升为智驾一号位 [6][8] - 刘先明博士毕业于伊利诺伊大学厄巴纳-香槟分校,曾在Facebook和Cruise任职,聚焦机器学习与计算机视觉领域 [6] - 小鹏汽车自动驾驶业务在5年内出现3次掌权人更迭,从吴新宙到李力耘,再到刘先明 [10][11][12] 小鹏汽车技术路线转向 - 公司官方回应指出,自动驾驶VLA大模型只是世界基座模型的应用,核心是让模型具备推演世界的能力 [13] - 刘先明此前为世界基座模型负责人,其晋升信号着小鹏将加速物理世界基座大模型在AI汽车领域的全面应用 [13] - 小鹏汽车于2024年4月提出“世界基座模型”路线,并在6月CVPR顶会上首次对外展示技术细节 [13] - 该世界模型参数规模高达720亿(72B),是行业主流VLA模型的35倍以上,训练数据超过2000万条视频片段(每条30秒) [14] - 公司认为“大算力 + 物理世界大模型 + 大数据”将定义未来AI汽车能力上限,该模型是走向L3、L4的基础 [13][16] 行业竞争与蔚来人事变动 - 蔚来智驾团队同期发生人事变动,世界模型负责人马宁宁、智驾产品负责人黄鑫等多位核心高管离职 [2][19] - 蔚来回应称此为主动组织架构调整,旨在构建新管理模式以全力冲刺世界模型2.0版本的开发与交付 [2][19] - 行业技术路线出现分岔,主流分为VLA(视觉-语言-动作)与世界模型(World Model + Action)两派 [17] - VLA路线的代表企业是理想和小鹏,世界模型路线的代表企业是华为和蔚来 [17] - 理想汽车上月亦调整自动驾驶团队,将智驾团队拆分为11个二级部门以推进AI大模型研发 [19] 小鹏智驾业务进展 - 李力耘在任期间带队完成了城市NGP在国内数百座城市落地,并推动“端到端”智驾方案在行车全功能量产上线 [12] - 刘先明加入小鹏后,其AI研究已同时为芯片、具身团队提供必要软件支持,显示出较强的业务能力 [7][8] - 小鹏世界基座模型未来将全面赋能公司AI体系全图谱,包括AI汽车、AI机器人、飞行汽车 [16]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 08:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
具身智能之心· 2025-09-16 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yang Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在多模态大模型的基座上, 视觉-语言-动作(Visual-Language-Action, VLA) 模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。然而, 现有VLA基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练 (Post-Training),特别是当目标场景本 体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了VLA模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训练阶 段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。 为了解决该问题, 中国电信人工智能研究院(TeleAI)具身智能团队 提出了一种"对齐-引导-泛化"(Align then Stee ...
正式开课!具身大脑和小脑算法与实战教程来啦
具身智能之心· 2025-09-15 08:04
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力[1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度的运动执行)[1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步[3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等合作建设具身智能大脑、小脑关键技术[5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率[5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作加快构建具身智能产业生态[5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发[5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模[6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力[6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力[6] - 2024年进入Vision-Language-Action模型阶段 代表工作包括OpenVLA、RT-2、PI0等 融合视觉感知、语言理解与动作生成模块[7] - VLA模型支持零样本或小样本快速泛化 实现从"感知+控制"向"感知+推理+行动"的范式跃迁[7] - 2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 弥补"只能理解不能反馈"等局限[9] - VLA+强化学习提升机器人在长时任务中的试错能力与自我改进能力[11] - VLA+世界模型引入环境动态预测 使机器人具备"想象未来"能力 助力高效规划与决策[11] - VLA+触觉信息拓展从"看"到"看+触多模态融合"的感知边界 实现更精细安全的操作[12] 应用与人才发展 - 技术演进推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域[14] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多学生转入具身智能领域研究[14] - 产业界重视推动具身智能从"论文"走向"部署" 对工程能力提出更高要求[17] - 需掌握Mujoco/IsaacGym/Pybullet等平台的策略训练与仿真测试能力[17] - 需具备训练部署Diffusion Policy/VLA/力触融合VLA模型的实践能力[17] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[17] - 需掌握从世界建模预测→策略学习→物理执行的一体化具身智能架构[17]