VLA模型
搜索文档
小鹏美女机器人自证“非人扮演”,最懂直男心?
首席商业评论· 2025-11-10 14:51
小鹏IRON机器人发布的市场反响 - 小鹏发布高度类人的"美女机器人"IRON,引发广泛关注,被部分声音誉为"西部世界"现实版,其惊艳感超出市场对国内企业发布的预期[3] - 发布会后相关话题如小鹏机器人等在微博阅读量破2亿,推动公司美股一度大涨14%,市值增长数十亿,机构重新评估其目标价[5] - 为回应机器人内藏真人的质疑,公司在IRON通电运行状态下当众剪开其腿部覆盖件展示内部机械结构,被称作"历史上第一次机器人证明自己不是人"的壮举[7] 小鹏机器人的技术特点与研发背景 - 小鹏并非机器人行业投机分子,其研发始于2018年,历程经历了从四足到双足的根本性转变,最终确定机器人形态必须向"人"靠拢以适应人类环境[11] - IRON机器人采用完全类人结构,具备"骨骼—肌肉—皮肤"层级系统:骨架支持1:1仿生脊椎运动;肌肉层首次采用晶格材料;柔性皮肤结合触觉传感器实现近似人类皮肤的反馈[14] - 机器人EEA架构由汽车EEA架构而来,机器人的关节、大小脑脊椎等技术与汽车团队同源,技术复用使公司相比专注人形机器人的创新型企业拥有更低的研发和试错成本[18] 车企布局机器人赛道的行业趋势 - 多家车企布局自研人形机器人赛道:小米于2022年推出CyberOne;一汽在2025年车展亮相"旗小智";广汽计划其GoMate机器人在2026年完成小批量生产[16] - 车企涉足机器人源于智能驾驶算法、电动化技术、AI交互及制造能力的垂直整合,汽车和人形机器人之间可实现技术的高度复用[18] - 理想汽车暂未布局,其CEO认为需先解决L4级自动驾驶汽车问题,但未来做人形机器人的概率是100%[18] 小鹏汽车的业务现状与挑战 - 公司上半年净亏损达11.4亿元,单车平均收入从2024年的25.39万元骤降至15.29万元,陷入"高配低价"的不利局面[22] - 高端化进程受阻,全新P7发布3个月未达预期大爆,公司指望发布增程版X9打开市场[24] - 公司召回47490辆小鹏P7+,被指出现方向盘突然卡滞"抱死"的严重故障,且召回处理方式被指存在"按闹分配"差异化,引发车主不满[25] 小鹏的技术战略与未来规划 - 发布会重点强调第二代VLA模型,该模型是公司首个量产物理世界大模型,可运用在汽车、Robotaxi、机器人和飞行汽车等多个领域[19] - 第二代VLA创新性地尝试从视觉信号到动作指令的端到端直接生成,去掉了"语言转译"环节,但传统VLA模型依旧会同步探索研发[21] - 为克服缺乏高质量真实训练数据和具体场景锻炼的挑战,公司已在广州建立首个具身智能数据工厂,IRON机器人将入驻宝钢在工业领域迭代进化[21]
人形机器人,如何跨越规模交付瓶颈?
财联社· 2025-11-08 13:06
行业前景与落地时间表 - 明年将是人形机器人落地的关键年 [1][2] - 工业场景将率先落地实现全自主工作 商业场景已有真正应用如导览讲解 家庭场景因标准和安全问题预计需8-10年 [2] - 未来三年有希望最先突破标准化场景如工业场景和物流分拣 [4] - 小型人形机器人在娱乐和教育领域已具备大量落地能力 走进工厂可能在五年内 [4] - 人形机器人在工业领域明年有望出现采购交付数量过万的企业 相关技术预计未来五年迈过“基本可用”门槛 [9] 当前应用场景与挑战 - 人形机器人已在一定范围内应用于表演、交互、展厅导览等场景 [1] - 无人物流车正迎来快速普及契机 可应用于前置仓、闪购仓等标准化程度高数量庞大的场景 [4] - 人形机器人大规模交付仍存在瓶颈 距离真正产业化尚有差距 [1][6] - 无人物流车大规模应用面临核心挑战是如何精准识别和处理数千甚至上万个SKU [4] - 制造企业核心挑战在于过度依赖自动化易引发刚性生产 过度依赖人工则易造成效率瓶颈与质量一致性差 [2] 技术发展趋势 - 具身智能核心点是“类人” 需要拥有感知-决策-执行整套闭环控制 [6] - 机器人产业正从基础本体制造向更细分高难度领域探索 未来将持续向上游延伸朝更精细化技术密集度更高方向发展 [1][6] - 今年趋势是手的自由度越来越高越来越灵活 [6] - 在硬件本体层面核心在于整合上下游生态资源实现灵活任务切换 在软件算法层面关键在于通过算法数据沉淀复制人类工艺经验 [9] - 世界模型和VLA模型代表两条并行互补技术路线 中短期内VLA是补充 长远看大概率走向世界模型但依赖大量数据训练 [9] 产业链与市场机遇 - 中国积累的制造优势与场景优势正转化为出海优势 机器人企业能提供具有国际竞争力的解决方案 [4][6] - 在视触觉传感器等新兴领域中国企业机遇很大 但需要提升参数性能及量产能力 能实现10万百万量级量产的企业还比较稀缺 [6] - 机器人正在大规模走进全球工厂和生活 这为中国机器人企业提供了前所未有的出海窗口期 [4]
特斯拉已不是智驾行业“标准答案”
36氪· 2025-10-31 08:25
技术架构演进 - 特斯拉在计算机视觉顶会ICCV上分享了其端到端智能辅助驾驶架构的最新进展[1] - 端到端架构旨在减少从感知输入到控制输出的信息损失,输入端信息维度相当于20亿token,而输出端仅约2个token,面临极高维到极低维映射的挑战[5] - 为解决端到端模型的"黑箱"问题和训练数据瓶颈,特斯拉在输出决策前引入了OCC占用网络、3D高斯特征等视觉信息以及思维链自然语言信息[3][7][8] - 公司建立了名为"神经世界模拟器"的闭环仿真系统,用于训练算法、验证正确性及生成难例数据[3][11][12] 行业竞争格局 - 特斯拉的技术路线已与理想、小鹏、华为、地平线等中国公司趋同,均涉及VLA模型和世界模型的探索[3][15] - 国内主流玩家如理想、小鹏、华为乾崑等已布局云端世界模型,部分还在车端部署世界模型,形成端到端、VLA和世界模型三种技术路线[15] - 特斯拉此次技术分享的热度相比之前的AI Day显著降低,反映出行业对其关注度下降[18] - 小鹏汽车CEO何小鹏表示,国内有实力的AI玩家已不再关注马斯克的动向[4] 自动驾驶业务现状 - 特斯拉最新财报显示,其全自动驾驶软件FSD的订阅比例仅约12%[4][23] - 公司已将FSD在美国的买断价从12000美元降至8000美元,并推出99美元月度订阅服务,但未能有效提振需求[24] - 市场调研显示,有35%的美国消费者因对FSD技术不成熟、责任界定模糊等的担忧,反而更不愿意购买特斯拉[24] - 美国国家公路交通安全管理局正对约288万辆配备FSD的特斯拉汽车展开调查,涉及58起交通安全违规及事故报告[24] 领导层表态与外部质疑 - 马斯克在财报会上表示,特斯拉有望在2025年底前在8至10个新州展开Robotaxi运营,并覆盖美国50%人口[19] - 特斯拉前人工智能主管安德烈·卡帕西指出,自动驾驶迭代是无限接近100%的过程,特斯拉的进步已不明显[20] - 特斯拉自动驾驶项目首任负责人斯特林·安德森质疑其安全记录,并对比通用汽车Super Cruise系统已实现11亿公里无接管行驶且无技术导致事故[22] - 特斯拉目前在奥斯汀和旧金山运营的Robotaxi仍配备安全员,马斯克计划在2025年底前逐步取消奥斯汀的大部分安全员[22]
HuggingFace联合牛津大学新教程开源SOTA资源库!
具身智能之心· 2025-10-27 08:02
行业技术范式转变 - 机器人学正经历从经典显式建模到现代隐式学习的根本性变革,基于学习的方法成为现代机器人学的中流砥柱[3] - 传统机器人技术依赖模块化流水线,而基于学习的方法通过统一高层控制器直接处理高维感知-运动信息,简化了从感知到动作的过程[15][33] - 基于学习的方法优势在于紧密整合感知和控制、减少专家建模干预,并能随着数据规模扩大而提升性能[26][33] 核心学习方法与技术 - 强化学习通过试错法让机器人自主学习最优策略,但面临安全、效率和高昂试错成本的瓶颈[28][34] - 教程介绍了通过模拟器训练结合域随机化技术来规避物理风险,并利用离线到在线强化学习框架提升样本效率和安全性[34][36] - 模仿学习通过行为克隆复现专家操作,规避了复杂的奖励函数设计,但面临复合误差和多模态行为挑战[41] - 先进模仿学习方法如ACT和Diffusion Policy利用生成模型有效建模多模态数据,后者仅需50-150个演示即可完成训练[42][43][45] 通用机器人策略与开源生态 - 构建跨任务、跨设备的通用机器人策略是未来方向,得益于大规模开放机器人数据集和视觉-语言模型的发展[52][53] - 前沿VLA模型如π₀和SmolVLA采用混合专家架构,π₀基于超过1000万条轨迹数据集预训练,展现强大泛化能力[53][54] - SmolVLA作为开源模型,参数量仅为π₀的约七分之一,内存消耗降低6倍,显著降低了应用门槛[56][58] - HuggingFace与牛津大学提供的LeRobot开源库包含预训练模型、数据集和模拟环境,用户无需实体机器人即可上手[6][7][8] 教程价值与内容覆盖 - 教程从经典机器人学概念出发,逐步介绍强化学习、模仿学习、生成模型理念以及通用机器人策略[4][11] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库LeRobot,收录了许多当前SOTA方法[6][10] - 该教程是踏入机器人学习领域的一份有价值的起点,全面探索了现代机器人学习的全景[3][12]
手把手带你入门机器人学习,HuggingFace联合牛津大学新教程开源SOTA资源库
机器之心· 2025-10-26 15:00
文章核心观点 - 现代机器人学习领域正经历从经典显式建模到基于学习的隐式建模的范式转变,强化学习、模仿学习及视觉-语言-动作模型是主要驱动力 [2] - HuggingFace与牛津大学联合发布了一份全面的机器人学习教程,并配套开源了数据集、模型和代码库LeRobot,旨在降低该领域的学习和应用门槛 [3][6][10] - 教程系统性地介绍了从经典机器人学到前沿通用机器人策略的技术演进,重点涵盖了强化学习、模仿学习及VLA模型等关键方法 [4][11][52] 教程内容概述 - 教程从经典机器人学概念入手,阐述了其从依赖正向/逆向运动学的显式建模,向基于深度强化学习和专家示范的隐式建模的演化过程 [14][15] - 经典模块化流水线存在感知与控制整合不紧密、可扩展性差、物理模型简化过度及忽视数据规模趋势等多方面局限 [16][26][30] 机器人强化学习 - 强化学习通过试错法让机器人自主学习最优策略,但其在现实世界中面临安全效率问题和高昂试错成本等瓶颈 [28][34] - 采用模拟器训练结合域随机化技术可提升对环境动态的鲁棒性,离线到在线强化学习框架利用专家数据引导学习,显著提升样本效率和安全性 [35][36] - HIL-SERL方法通过引入人类监督,使机器人能在1-2小时内掌握复杂真实世界操作任务,成功率接近100% [36][39] 机器人模仿学习 - 模仿学习通过行为克隆复现专家操作,规避了复杂奖励函数设计并确保训练安全,但面临复合误差和难以处理多模态行为的挑战 [41] - 基于生成模型的先进方法如ACT和Diffusion Policy能有效建模多模态数据,后者仅需50-150个演示即可完成训练 [42][43][45] - Diffusion Policy架构利用扩散模型生成动作序列,仅需T=10步去噪即可获得完整动作块,并通过异步推理优化部署效率 [47][48][50] 通用机器人策略 - 通用机器人策略是构建跨任务、跨设备的机器人基础模型,其发展得益于大规模开放机器人数据集和视觉-语言模型的进步 [52][53] - π₀模型利用Flow Matching技术,基于超过1000万条轨迹的数据集预训练,展现出强大的少样本和零样本泛化能力 [53][54][56] - SmolVLA作为完全开源的紧凑型混合专家模型,参数量仅为π₀的约七分之一(4.5亿参数 vs 33亿),内存消耗降低6倍,大幅降低了应用门槛 [56][58] 资源与工具 - LeRobot是Hugging Face开发的开源端到端机器人库,提供预训练模型、人工采集数据集及模拟环境,支持真实世界机器人设备的低级控制和高级推理优化 [6][8][10] - 教程附带了基于PyTorch的开源数据集、模型、工具和代码库,收录了许多在模仿学习和强化学习方向上展示良好真实机器人迁移能力的SOTA方法 [6]
从世界模型到VLA再到强化,具身大小脑算法原来是这样的!
具身智能之心· 2025-10-26 12:02
具身智能技术框架 - 行业将具身智能技术框架类比为人类的大脑和小脑,大脑负责思考感知(语义理解和任务规划),小脑负责执行(高精度的运动执行)[3] - 细分领域包含仿真、VLA、Diffusion Policy、VLN、世界模型、强化学习等多个子模块[5] - VLA和世界模型目前是自动驾驶和具身智能领域的两大技术路线[5] 核心技术演进路径 - 第一阶段技术研究聚焦于抓取位姿检测,通过点云或图像预测末端执行器姿态,但策略多为单步决策,缺乏对任务上下文和动作序列的建模[7] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习端到端映射,但暴露出泛化能力弱、误差累积等问题[7] - 第三阶段以2023年兴起的Diffusion Policy为代表,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力;2024年进入VLA模型阶段,融合视觉、语言与动作生成,支持零样本或小样本快速泛化[8] - 第四阶段自2025年以来,行业探索VLA与强化学习、世界模型、触觉感知等模块的融合,以弥补现有模型在反馈、预测和多模态感知方面的局限[9] 当前技术热点与方向 - VLA目前主要研究热点为端到端和分层两种方案,并分别基于大模型和Diffusion技术拓展,VLA+RL方案正成为学者探索方向[5] - Diffusion Policy作为动作模块,负责学习具体动作和执行,主要方向包括状态扩散、动作空间扩散、三维空间扩散等[6] - 仿真技术关注sim2real和real2sim2real,以解决真机泛化差的问题,该方案已获多家具身公司认可[6] - VLN更关注目标导航,与移动操作相关联,map-free方案利于任务泛化[6] - VLA与强化学习结合提升机器人在长时任务中的试错与自我改进能力;与世界模型结合引入环境动态预测,使机器人具备“想象未来”的能力;与触觉信息结合拓展多模态融合的感知边界[10] 行业应用与市场前景 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地,服务于工业、家居、餐饮、医疗康复等领域[10] - 相关产品和融资络绎不绝,岗位呈现爆发式增长,吸引大量人员转入具身智能领域[10] - 随着产业界重视,行业从“论文”走向“部署”,对工程与系统能力需求激增[14]
万亿机器人赛道:宇树和figure谁才能代表未来?
36氪· 2025-10-20 17:26
行业商业化进程 - 2024年被视为人形机器人商业化元年,资本从押注通用技术转向布局实体应用场景[1] - 多家公司获得大额订单:优必选Walker系列获近5亿元合同,部分于2025年交付;智元机器人精灵G2获数亿元订单并开启首批商用交付;乐聚机器人获8295万元订单;众擎机器人获三年不少于2000台采购;松延动力N2总订单量突破2500台;银河通用解决方案今年将应用千台左右[3] - 宇树科技今年中标25个公开采购项目,接近2024年全年32次的总量,并以7次直接中标位居第一,其机器人也常作为标准设备被集成入方案[3] 宇树科技行业地位与挑战 - 宇树科技被视为行业领军企业,但在机器人“大脑”和“灵巧手”方面面临拷问,其订单以国企和高校为主[4] - 公司进入IPO进程,面对行业泡沫质疑,创始人认为从未来看现在没有泡沫,对比海外Figure 390亿美元(约2700亿元人民币)估值,国内百亿级估值显得保守[4] - 公司过去三年研发支出总额约3.5亿元,其中80%用于硬件,算法投入不足20%,而竞争对手智元机器人一年大模型研发投入就近4-5亿元[5] - 公司推出UnifoLM-WMA-0世界模型-动作架构,但其创始人批评主流VLA架构数据质量和数量不足,训练成本高,难以实现通用性突破[7] - 公司在硬件性能、成本控制、量产能力上领先,但AI模型研发相对保守,被指缺乏核心壁垒和应用场景,今年二月曾有投资机构按上轮估值急售其股权[4][7] 国际竞争对手动态 - Figure AI发布第三代人形机器人Figure 03,穿上衣服增强“活人感”,其BotQ产线具备年产10万台能力,目标为大规模应用设计,但被质疑模仿1X Technologies产品且进度神秘[8][9] - Figure CEO承认机器人尚未能在家中自主完成大多数任务,目标2026年实现,但公司曾因与宝马合作被《财富》杂志质疑夸大宣传,其机器人仅进行简单零件搬运训练[13] - 特斯拉Optimus项目原定2025年5000台量产目标或延期,面临关节电机过热、灵巧手载重不足、电池续航不足等硬件问题[15] 行业应用场景与挑战 - 人形机器人在工业场景商业模式难跑通,定制化方案缺乏标准化导致投入产出比低,存在数据孤岛效应[15] - 家庭场景需求宽泛非标,扫地机器人行业几十年历史仍存在感知有限、识别错误问题,VLA模型家用机器人任务泛化能力差[16] - 知名机器人企业客户特定,多为高校或有投资合作关系的企业:宇树产品进入全球近千所高校;加速进化机器人成RoboCup高校队伍标配;星海图机器人获李飞飞团队使用[18][21] - 实际应用以试点为主:优必选Walker S在蔚来基地进行门锁检查等任务;亚马逊、DHL测试仓储拣选;智元机器人与上市公司合资建厂,但远未达到遍地开花程度[20] 行业前景与核心竞争 - 行业目前停留在“试点”、“POC验证”阶段,真正稳定运行、创造可观商业价值的人形机器人尚未出现[21] - 国内产业链成熟,电机、传感器、灵巧手等难点硬件正实现标准化通用化,仅少数高端芯片尚存进口依赖,为行业爆发奠定基础[22] - 行业共识认为机器人“大脑”价值占80%,但实现路径如端到端、VLA等架构均未展现出巨大优势,讨论单一公司领先意义不大[23]
UC伯克利大牛预警:留给人类能干的活,只剩5年了
36氪· 2025-10-11 18:18
核心观点 - UC伯克利教授Sergey Levine预测,机器人将在约5年内(2030年前)进入真实世界,从家务场景开始,逐步扩展至工厂、仓储、数据中心建设等领域,其核心驱动力是“自我进化飞轮”的启动 [1][2][3] 技术进展与能力 - Physical Intelligence的π0.5模型已能在未见过的家居环境中完成清理厨房或卧室等复杂延展性家务,如从洗衣篮取衣、收拾餐桌、叠衣服、搭箱子等 [4][6] - UC Berkeley研究团队展示机器人能在1-2小时真实操作中学会组装主板和拼装IKEA家具,表明“学会做事”的机制已在现实中运作 [9][10] - 视觉-语言-动作模型是关键技术底座,通过视觉捕捉环境、语言理解指令规划、动作解码器实现精细控制,使机器人能处理连续动作序列 [17] - VLA模型展现出涌现能力,如机器人误拿两件衣服时会主动调整,或扶正倒下的购物袋,这些行为未写入训练数据但自然出现 [17] - 斯坦福Vocal Sandbox项目中,机器人可将低层动作拼接完成全新复合任务,如打包礼物袋,体现技能组合应对复杂场景的能力 [18][20] 落地路径与优势 - 家庭场景中机器人“出错-纠正-学习”循环更安全高效,出错可迅速纠正并积累数据,学习速度可能快于自动驾驶 [11][12] - 家务环境相对可控,机器人需处理的常识与直觉感知门槛低于自动驾驶的复杂交通和突发状况 [13][14] - 落地逻辑是让机器人先做好一件人们愿意付费的真实任务,跨过门槛后通过实操数据持续改进,逐步扩展至更多任务 [6][16] - 能力扩张路径从单一任务(如做咖啡)向复杂场景(如开咖啡店)延伸,最终实现“与人搭档”替代重复性体力活 [21] 行业影响与经济效应 - 机器人将逐步渗透仓储、工厂、装配、数据中心建设等领域,硬件成本过去30年降低50%以上,算法精准度提升 [29][30] - 自动化将替代例行性、重复性活动,显著提升效率和良品率,首批被广泛取代的岗位包括仓储、包装、设备巡检等 [24][35] - 家用场景门槛降低使初创团队和中小企业更易参与部署,形成规模效应,短期内人机搭档释放红利,长期可能重塑劳动市场与财富分配格局 [35][36]
小鹏智驾一把手换人,蔚来团队大调整,各有各的算盘
36氪· 2025-10-10 20:30
小鹏汽车智驾负责人更迭 - 小鹏汽车自动驾驶中心负责人李力耘因身体原因暂时休息,不再担任该职务 [1][2] - 原世界基座模型负责人刘先明接任自动驾驶中心组织负责人,全面负责中心业务和组织管理工作,向何小鹏汇报 [2][3][9] - 刘先明于2024年3月加入小鹏汽车,担任AI团队负责人,入职仅一年多即晋升为智驾一号位 [6][8] - 刘先明博士毕业于伊利诺伊大学厄巴纳-香槟分校,曾在Facebook和Cruise任职,聚焦机器学习与计算机视觉领域 [6] - 小鹏汽车自动驾驶业务在5年内出现3次掌权人更迭,从吴新宙到李力耘,再到刘先明 [10][11][12] 小鹏汽车技术路线转向 - 公司官方回应指出,自动驾驶VLA大模型只是世界基座模型的应用,核心是让模型具备推演世界的能力 [13] - 刘先明此前为世界基座模型负责人,其晋升信号着小鹏将加速物理世界基座大模型在AI汽车领域的全面应用 [13] - 小鹏汽车于2024年4月提出“世界基座模型”路线,并在6月CVPR顶会上首次对外展示技术细节 [13] - 该世界模型参数规模高达720亿(72B),是行业主流VLA模型的35倍以上,训练数据超过2000万条视频片段(每条30秒) [14] - 公司认为“大算力 + 物理世界大模型 + 大数据”将定义未来AI汽车能力上限,该模型是走向L3、L4的基础 [13][16] 行业竞争与蔚来人事变动 - 蔚来智驾团队同期发生人事变动,世界模型负责人马宁宁、智驾产品负责人黄鑫等多位核心高管离职 [2][19] - 蔚来回应称此为主动组织架构调整,旨在构建新管理模式以全力冲刺世界模型2.0版本的开发与交付 [2][19] - 行业技术路线出现分岔,主流分为VLA(视觉-语言-动作)与世界模型(World Model + Action)两派 [17] - VLA路线的代表企业是理想和小鹏,世界模型路线的代表企业是华为和蔚来 [17] - 理想汽车上月亦调整自动驾驶团队,将智驾团队拆分为11个二级部门以推进AI大模型研发 [19] 小鹏智驾业务进展 - 李力耘在任期间带队完成了城市NGP在国内数百座城市落地,并推动“端到端”智驾方案在行车全功能量产上线 [12] - 刘先明加入小鹏后,其AI研究已同时为芯片、具身团队提供必要软件支持,显示出较强的业务能力 [7][8] - 小鹏世界基座模型未来将全面赋能公司AI体系全图谱,包括AI汽车、AI机器人、飞行汽车 [16]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 08:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]