Workflow
具身智能之心
icon
搜索文档
最近具身界的一些进展......
具身智能之心· 2025-12-17 11:50
行业动态与趋势 - 融资方面,下半年本体零部件公司融资金额增大、公司数量增多,除明星公司外,创业公司也带着订单来融资 [2] - 量产方面,多家公司试点逐步推进,头部人形机器人开始探索工业级产品部署 [2] - 产品设计方面,机械臂产品设计逐渐收敛,移动操作和人形机器人在结构与尺寸上持续创新,行业普遍在压低成本,供应链管理能力成为后期竞争关键 [2] - 模型泛化方面,基于强化学习的优化思路增强了模型泛化能力,相关工具箱日益完善,真机部署变得更加便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人与移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与内容 - 社区已搭建包含技术路线分享、直播、问答、求职、赛事等多个版块的交流平台,形成了产业、学术、求职的闭环 [6] - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据到算法,探讨行业现状与待解决问题 [8] - 社区为入门者整理了完整的技术学习路线 [10] - 为已从事相关研究的成员提供有价值的产业体系与项目方案 [14] - 社区与多家具身公司建立岗位内推机制,可第一时间对接企业 [16] - 社区汇总了国内外知名高校的具身智能实验室,供深造参考 [19] - 社区汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [22] - 社区汇总了大模型、人形机器人等行业相关研报,以便了解行业发展与工业落地情况 [24][25] - 社区汇总了机器人导航、概率机器人、动力学与运动学等多个方向的PDF书籍供基础学习 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [30] - 社区汇总了机器人仿真、抓取、控制、感知等多个领域的开源项目,助力快速上手 [32] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册与综述 [34] - 社区汇总了数据采集方案与开源数据集,涵盖遥操、动作捕捉、AR等领域 [36][38] - 社区汇总了通用及真实场景机器人仿真平台 [40] - 社区汇总了强化学习、视觉语言模型与强化学习结合等主流方案与应用 [40][43] - 社区汇总了具身感知、交互、导航、多模态大模型理解与生成、模型微调与量化、大模型部署等详细技术路线与资源 [42][45][47][49][51][53][55][57][59][61][63][65][67][70][72][74] - 社区内部成员可自由提问交流,并获得来自产业界和学术界嘉宾的解答 [76] 社区规模与构成 - 社区已有近3000名具身领域成员,包括来自斯坦福大学、加州大学、清华大学、上海交大等国内外知名高校实验室,以及智元机器人、有鹿机器人、优必选、小米等近200家机器人头部公司与机构的成员 [16][86]
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心· 2025-12-17 08:05
文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的统一多模态多任务视频生成模型UnityVideo,通过联合训练多种视觉模态(如深度图、光流、骨骼、分割掩码等),显著提升了模型对物理世界的理解能力、生成视频的质量与可控性,并展现出强大的零样本泛化能力 [1][4][10][13] 模型动机与核心观察 - 现有视频生成模型大多局限于单一RGB视频学习,限制了模型对物理世界的全面理解 [9] - 核心观察:当模型同时学习多种视觉模态时,其在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升 [10] - 不同视觉模态提供了互补的监督信号,联合学习使模型能真正开始“理解”物理世界的运作规律 [12] 技术创新 - **动态任务路由**:在单个架构中无缝统一支持三种训练范式:条件生成、模态估计和联合生成 [16][17][18] - **动态噪声调度策略**:每个训练迭代随机选择一种训练模式并对相应token施加不同噪声,避免了灾难性遗忘,并设置了不同任务的采样概率以平衡学习进度 [20][21] - **模态切换器**:包含两个互补设计 - 上下文学习器:通过为不同模态注入特定文本提示,让模型在语义层面理解当前处理的模态 [23] - 模态自适应切换器:在架构层面为每种模态学习独立的调制参数,实现即插即用的模态选择能力 [25][26][27] - **渐进式课程学习策略**:采用两阶段训练,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据 [29] 数据集与评估基准 - 构建了包含130万个多模态视频样本的OpenUni数据集以支持统一训练范式 [31] - 构建了包含3万个样本的UniBench评估基准,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流 [31] 实验结果:定量性能 - **文本生成视频**:在所有指标上均获得最佳结果,背景一致性达97.44%,美学质量达64.12% [33][35] - **可控生成**:在动态程度上表现卓越,达到64.42%,远超其他方法 [33][35] - **模态估计**:在视频分割任务上mIoU达到68.82%,在深度估计上Abs Rel仅为0.022,显著优于专门的单任务模型 [33][35] 实验结果:定性优势与消融验证 - **定性优势**:在物理现象理解、可控生成质量、模态估计精度和泛化能力上均展现出优势 [38][39][40] - **多模态互补性验证**:相比单模态训练,统一多模态训练在成像质量和整体一致性上获得更大增益,证明了互补监督信号的相互增强作用 [41][42][43] - **多任务训练必要性**:统一多任务训练能够恢复并超越单独训练可控生成任务导致的性能下降,证实了任务间的协同效应 [44][46] - **架构设计有效性**:上下文学习器和模态切换器各自都能有效提升性能,结合使用时能获得额外的显著增益 [47] 用户研究与泛化能力 - **用户研究**:在物理质量、语义质量和整体偏好三个维度上均获得最高评分,物理质量得分达到38.50%,显著超过商业模型Kling1.6的10.15%和HunyuanVideo的24.15% [49][50] - **零样本泛化**:模型在“two persons”的分割任务上训练后,能够自然地泛化到未见过的“two objects”场景 [52][55] - **跨模态知识迁移**:随着模型学习更多模态,RGB视频中的运动理解和语义响应都得到了改善,跨模态注意力交互逐渐增强 [56][58][62] 行业意义与启示 - 提升模型能力不仅仅依赖于增大参数量和数据量,更重要的是如何组织和利用多样化的学习信号 [62] - 视觉模型可以通过统一多种模态和任务来涌现更强的世界理解能力,正如LLMs通过统一多种文本任务涌现出推理能力 [62] - 简单堆叠不同模态不够,需要精心设计的机制来让不同模态真正互相促进 [63] - 评估需要多维度,更关键的是模型获得了跨任务、跨模态的泛化能力和更深层的世界理解 [63] - 为构建真正理解物理世界的视觉大模型奠定了坚实基础,展示了AI向通用智能演进的清晰路径 [64][65]
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 08:05
文章核心观点 - 该综述对视觉-语言-动作模型进行了全面剖析,指出VLA模型正推动机器人技术变革,其发展遵循“基础模块→历史里程碑→核心挑战”的逻辑,五大核心挑战是当前研究的关键突破口 [1] 基础模块与架构趋势 - VLA系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势 [3] - 感知模块正从传统视觉骨干网络转向语言对齐Transformer,并新增几何表征以提升操作精度 [10] - 大脑模块向预训练视觉语言模型收敛,利用互联网级知识实现零样本泛化 [10] - 动作模块从离散令牌化转向连续生成建模,追求平滑的多模态分布建模 [10] - 机器人感知编码器以CNN和ViT为主,语言编码器从Transformer演进至LLM和VLM [10] - 机器人大脑主流架构包括Transformer、扩散Transformer、混合架构和VLM [10] - 机器人动作表征分离散、连续、混合三类,解码方式包括自回归、非自回归和混合解码 [10] 发展里程碑 - **2017-2019年**:奠定基础,VLN、EmbodiedQA等基准推动语言与视觉环境对齐 [13] - **2020-2021年**:转向长时推理,ALFRED、CLIPort实现语言引导的机器人操作零样本泛化 [13] - **2022年**:大模型时代开启,RT-1、RT-2构建统一VLA框架,实现端到端视觉-语言-动作学习 [13] - **2023年**:技术突破集中,PaLM-E统一多模态输入空间,Diffusion Policy革新动作建模范式,Open X-Embodiment提供大规模跨机器人数据 [13] - **2024年**:开源与泛化推进,OpenVLA降低研究门槛,Octo实现跨平台多任务控制,3D-VLA转向全3D世界建模 [13] - **2025年**:多元进化,Humanoid-VLA拓展至人形机器人,Cosmos-Reason1标准化物理推理 [13] 核心挑战与解决方案 - **多模态对齐与物理世界建模**:核心问题是弥合语义、感知与物理交互的鸿沟,实现从2D图像到时空表征的升级,解决方案包括通过对比学习实现模态对齐,引入点云、体素等提升空间推理能力 [18] - **复杂指令理解与高效执行**:核心问题是解析复杂/模糊指令,分解长时任务,实现错误自修复与低延迟执行,解决方案包括采用多模态序列建模处理混合指令,通过分层规划拆解任务 [24] - **从泛化到持续适应**:核心问题是实现开放世界泛化,避免持续学习中的遗忘,缩小仿真到现实的差距,解决方案包括利用多任务预训练、互联网视频迁移知识,通过参数隔离缓解遗忘 [25] - **安全、可解释性与可靠交互**:核心问题是保障物理安全,提升决策透明度,建立人机信任,解决方案包括注入安全约束、通过Constitutional AI对齐人类价值观,输出中间推理过程增强可解释性 [26] - **数据构建与基准测试标准**:核心问题是获取大规模异质数据,建立统一的评估体系,解决方案包括通过表征统一、数据增强整合多源数据,开发覆盖复杂任务与泛化能力的基准测试 [27] 数据集与评估基准 - **模拟数据集**:例如ALFRED包含8,055个专家演示和约120个室内场景,LIBERO包含约6,500个演示和130项技能,VLA-3D包含970万对参考数据和11.5千个重建的3D房间 [6] - **真实世界机器人操作数据集**:例如BridgeData V2包含60,096条轨迹,DROID包含约76千条轨迹,Open X-Embodiment包含超过100万条轨迹和527项技能,AgiBot World包含超过100万条轨迹和217项任务 [6] - **以人为中心及第一人称数据集**:例如Ego4D包含约3,700小时视频,HOI4D包含约4,000个序列,HD-EPIC包含约4,881个物体行程 [6] - **评估基准**:包括用于语言条件操作的RLBench、ManiSkill系列,用于长时任务完成的ALFRED、CALVIN、TEACh,用于高级认知能力的LIBERO、RoboCAS,以及用于评估基础模型的EmbodiedBench、EWM Bench、RoboTwin [30] 应用场景与未来方向 - 主要应用场景包括家庭机器人和工业与野外机器人,前者需处理非结构化环境和长时任务,后者需实现高精度操作与安全合规 [29] - 未来趋势包括发展原生多模态架构、形态无关表征,构建自监督探索与在线强化学习的闭环进化体系,推动评估从二元成功率转向综合诊断测试 [30]
56倍加速生成式策略:EfficientFlow,迈向高效具身智能
具身智能之心· 2025-12-17 08:05
文章核心观点 - 西安交通大学研究团队提出了一种名为EfficientFlow的全新生成式策略学习方法,旨在解决当前生成式模型在机器人及具身智能领域面临的两大核心瓶颈:训练依赖大规模演示数据以及推理迭代步数多、速度慢的问题 [1] - 该方法通过深度融合等变建模与高效流匹配技术,在显著提升数据效率的同时,大幅压缩了推理所需的迭代步数,从而将推理速度提升了一个数量级以上,并在多个机器人操作基准上实现了SOTA性能 [1] 技术亮点:用物理直觉重塑生成式策略 - **加速度正则化**:通过引入加速度正则项到损失函数中,鼓励样本从噪声分布向数据分布的演化过程平滑且接近匀速,从而让生成的轨迹更直、更快,解决了传统流匹配中流场曲率过大导致推理需多步迭代的问题 [5] - 为克服加速度项难以直接计算的困难,该方法引入了易于计算且有效的代理损失——流加速度上界,该上界与原式的差值等效于对雅可比矩阵的正则化,使生成的策略更稳定、更鲁棒 [7][8] - **等变网络**:基于物理直觉设计,确保当输入的视觉场景旋转一定角度时,机器人输出的动作也跟随旋转相同角度,这带来了巨大的数据优势,使模型能够从单一角度的数据学习泛化到多个旋转角度,实现“举一反三” [9] - 该方法基于escnn库构建,将机器人的动作表示为一个10维向量,并通过等变表示确保生成的动作遵循任务的对称性,从而在场景进行平面旋转时保持行为一致性 [10][11] - **时间一致性策略**:采用时间重叠策略与批量轨迹选择及周期性重置策略,以解决独立预测相邻动作片段可能导致的行为模式切换和不连贯问题,从而在保持多模态表达能力的同时,实现了长期执行的连贯性 [15] 实验效果 - 在MimicGen等多个机器人操作基准测试中,EfficientFlow在有限数据条件下展现出的成功率媲美甚至超过了现有的SOTA方法 [17] - 在推理效率方面,EfficientFlow仅需1步推理就能接近EquiDiff模型100步推理的平均性能,其单步推理速度提升了56倍,5步推理也有近20倍的加速 [17] - 消融实验表明,加速度正则化与等变建模两者缺一不可,共同构成了实现高效生成式策略的关键 [17] 论文与代码 - 相关论文《EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI》已被AAAI 2026接收,且代码已开源 [3] - 项目主页与GitHub仓库地址已公开,可供进一步查阅 [13]
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 08:05
行业研究方向与选择 - 具身智能领域当前的研究方向包括视觉语言导航、视觉语言操作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的从业者,视觉语言导航和视觉语言操作被视为较好的切入方向[1] - 拥有机械臂硬件的研究者适合展开视觉语言操作研究,而无硬件的研究者可利用仿真环境或低成本硬件平台进行实验[1] - 四足机器人和人形机器人更适合采用强化学习方法进行研究,而视觉语言操作的研究难度相对较高[1] 研究方法与资源 - 研究过程中,拥有优秀的创新想法至关重要,但新人研究者往往需要经历多次试错才能获得[1] - 行业存在多种低成本的科研平台可供选择,例如移动操作平台[1] - 仿真方法是解决预算有限问题的可行方案之一[1] 专业辅导服务内容 - 提供的论文辅导服务覆盖从CCF-A到CCF-C级别的会议,以及SCI一区到四区的期刊[2] - 服务范围包括EI、中文核心期刊论文、毕业论文以及博士申请辅导等[2] - 辅导团队由来自国内外名校的博士及头部企业研究员组成,具备在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验[2] - 辅导流程为全闭环服务,涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略[2] - 辅导服务兼具工业界与学术界双重视角,不仅关注论文发表,也重视研究的落地价值[3] - 公司为前10名咨询者提供免费匹配专属导师的机会[5]
具身的半壁江山都在VLA了......
具身智能之心· 2025-12-16 17:25
行业技术趋势与需求 - 视觉语言动作模型是当前具身智能领域最急需的算法方向之一,这一点从大量职位需求和论文产出中得到体现 [1] - 近两年来,从ACT到OpenVLA,再到π0、π0.5、π0.6,各类新方法层出不穷,性能持续提升 [5] - 基于强化学习的优化方案正使视觉语言动作模型的表现越来越流畅 [5] 技术发展面临的挑战 - 视觉语言动作模型调试困难、数据采集过程繁琐,是行业从业者普遍反映的痛点 [2] - 具身智能领域高度依赖硬件本体,仅通过仿真环境进行研究难以保证算法的泛化性能,许多公司坚持采用真机数据路线 [3] - 真实数据采集需借助遥操作、VR、全身动作捕捉等方式,过程耗时且采集到的数据往往难以直接使用 [3] - 许多初学者在尝试打通数据、模型、训练、部署全流程时遇到巨大困难,有人甚至耗费半年时间仍无法有效入门 [7] - 像π0、π0.5、GR00T这类先进模型,在数据采集和模型训练环节存在大量需要经验积累的技巧 [7] - 训练完成的模型参数量庞大,即使是2B规模的模型,在边缘芯片上的部署也面临巨大挑战,需要进行量化、蒸馏等轻量化操作 [10] 技术实施的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕,以及基于强化学习的方法,如何保证数据质量和实现真实到仿真再到真实的闭环是关键 [8] - **模型训练**:在真机数据不足时,仿真和仿真到真实迁移技术至关重要,Mujoco、Isaac Gym等是常用框架,不同模型的训练难度差异大,ACT相对简单易出效果,而π0、π0.5则对细节和技巧要求极高 [9] - **模型部署**:涉及模型“瘦身”,通过量化、蒸馏等技术在保证性能的同时最小化参数量,以适应边缘计算环境 [10] 开源生态与硬件支持 - 已有团队开源了如LeRobot等技术框架,非常适合入门学习 [5] - 开源硬件本体多样化,能满足不同研究需求,例如机械臂有SO-100、双臂操作有openarm、移动操作有XLeRobot等 [5] - 行业存在主流仿真平台,如Isaac Lab,用于环境配置、场景搭建以及仿真与真机的联动 [22] 行业人才培养与课程内容 - 为应对技术快速更新带来的学习挑战,业内推出了系统性的实战课程,内容涵盖机械臂硬件、数据采集、视觉语言动作算法、评测、仿真、主流模型部署、与世界模型融合、真机实验及产业分析 [16] - 课程设计软硬结合,旨在帮助学习者节省“踩坑”时间,积累可写入简历的项目经验,掌握面试所需的技巧 [14] - 课程大纲全面,共分九章,包括:视觉语言动作基础与概述、机械臂及训练平台、数据集获取、模型部署与真机、仿真环境与工具链搭建、模型轻量化与蒸馏、视觉语言动作与世界模型融合、评测及能力提升、趋势与产业落地 [18][19][20][21][22][23][24][25] - 课程包含对多种主流模型的详解与部署实战,如ACT、GR00T N1/N1.5系列、π0/π0.5/π0-fast等 [22][26] - 课程提供了具体的模型能力提升方向,包括陈述性知识能力、运动行为知识、定向数据合成等,并涉及Libero、Robo Challenge、Robo Twins等主流评测基准 [27] - 课程对产业趋势进行分析,涵盖当前技术瓶颈、未来发展方向预测,以及主流具身公司的战略布局和产业落地生态 [27]
NBA球星,成为英伟达副总裁
具身智能之心· 2025-12-16 08:02
文章核心观点 - 英伟达首席执行官黄仁勋采用了一种极致的扁平化管理模式,直接管理36位核心高管,其规模远超硅谷常规,旨在通过减少层级、加速信息流动来提升决策与创新效率 [4][8][13][14] - 这种“信息即权力”的管理逻辑,通过让高管直接获取一手信息并充分授权,塑造了公司内部高度透明、快速响应的文化,被认为是英伟达在AI时代保持敏捷和战斗力的关键因素 [5][15][23][26] - 由创业元老、顶尖技术专家、资深运营管理者和新业务拓荒者构成的36人高管团队,在黄仁勋的信任和授权下,各自成为领域内的“小CEO”,共同支撑了公司在GPU、AI、汽车、云计算等领域的全面成功 [25][26][29][71] 黄仁勋的管理逻辑与组织架构 - 黄仁勋直接管理的高管团队规模从鼎盛时期的55人缩减至目前的36人,但仍远超同行,例如Meta首席执行官扎克伯格的核心军团约30人且非全部直接汇报,特斯拉首席执行官马斯克在特斯拉仅有19名直管下属 [4][8][9][11] - 其管理哲学的核心是“减少层级,让信息流动”,认为CEO直管下属越多,公司层级就越少,这能保证信息流动并授权给每个人,从而避免层层汇报导致的信息稀释和决策延迟 [13][14][15] - 在实践中,黄仁勋很少安排例行的一对一会议,更偏好集体讨论,让信息在高管团队中自由传播,并立下规矩不主动单独开会,但只要属下提出便会立刻沟通,以此防止信息孤岛 [5][20] - 这种扁平化结构使得整个管理层犹如一张高速传递信息的神经网络,黄仁勋甚至笑称其直管将领“薪酬都差不多”,体现了在其麾下获取信息和资源的机会相对均等 [22][23] 核心高管团队构成与分工 元老与创始功臣 - **克里斯·马拉科斯基**:公司联合创始人,英伟达院士,专注于核心技术战略,拥有40余年从业经验和几十项集成电路专利,是GPU架构和并行计算领域的传奇人物 [35][37][40] - **德怀特·迪尔克斯**:公司第22号员工,服务超过30年,现任软件工程高级副总裁,是英伟达软件生态的奠基者,负责从CUDA到自动驾驶平台软件栈的开发 [45][47][49][50] - **杰夫·费舍尔**:公司第一位正式销售,现任GeForce业务部门高级副总裁,是英伟达在游戏市场商业成功的开拓者,将GeForce打造成玩家家喻户晓的品牌 [51][53][54][55] - **乔纳·阿尔本**:1997年加入,现任GPU工程高级副总裁,领导团队推出了从“费米”到“安培”等一系列划时代的GPU架构,拥有34项专利 [60][65][66] 硬核技术阵容 - **比尔·达利**:首席科学家,著名计算机科学家,斯坦福大学前计算机系主任,2009年加盟,负责制定公司长期技术愿景并领导前沿技术攻关,拥有120多项美国专利 [76][78][79][83] - **迈克尔·卡根**:首席技术官,Mellanox公司联合创始人,2019年英伟达以近70亿美元收购Mellanox后于2020年出任CTO,主导将GPU、CPU、DPU融合的加速计算平台 [86][90][91][94] - **伊恩·巴克**:加速计算部门副总裁兼总经理,GPU通用计算的开创者,CUDA平台的奠基人,目前负责英伟达整个数据中心业务 [96][98][100][101] - **雷夫·勒布拉丁**:负责Omniverse平台和仿真技术,拥有22年工龄,是好莱坞视觉特效背景,致力于推动工业元宇宙和数字孪生应用 [106][108][110] - **阿米特·克里格与德罗尔·戈登伯格**:均来自被收购的Mellanox,负责网络及DPU产品线的软件与架构,推动了BlueField DPU和DOCA软件架构等创新 [115][117][119][121][123] 商业与运营中坚 - **科莱特·克雷斯**:执行副总裁兼首席财务官,2013年加入,当时公司年营收不到40亿美元,如今已迈向数百亿美元,她平衡研发投入与盈利增长,是公司跨入万亿美元市值俱乐部的关键推手 [156][158][162][164] - **杰伊·普里**:执行副总裁,主管全球业务拓展和销售运营,2005年加入,将英伟达的销售版图从PC拓展至游戏、数据中心、汽车等多行业,其持有的股票身家已跻身10亿美元俱乐部 [167][169][171][178] - **黛博拉·舒奎斯特**:执行副总裁,负责端到端运营,包括供应链、制造和质量管理,在近年芯片产能紧缺潮中保障了GPU的海量交付 [180][182][186][189] - **蒂姆·蒂特**:执行副总裁、总法律顾问,2017年加入,负责公司所有法律事务,在收购Mellanox和尝试收购ARM等重大交易中扮演了重要角色 [193][195] 新战线的拓荒者 - **霍华德·赖特**:副总裁,负责Inception创业加速计划,扶持全球1.9万家初创公司,背景独特,曾是NBA职业篮球运动员,后在高通、英特尔、AWS从事投资与生态建设工作 [2][247][252][254] - **吴新宙**:副总裁,负责汽车业务,2023年加入,此前在小鹏汽车担任自动驾驶副总裁5年,在高通领导自动驾驶研发,拥有超过250项美国专利,助力英伟达自动驾驶平台落地中国市场 [262][264][268][272] - **亚历克西斯·比乔林**:副总裁兼DGX Cloud云服务总经理,2022年前后加盟,曾任Meta基础架构副总裁,领导打造将英伟达AI算力通过云端提供服务的DGX Cloud平台 [276][278][279][281] - **迪普·塔拉**:副总裁兼Autonomous Machines事业部总经理,负责Jetson边缘AI平台和Isaac机器人平台,将英伟达的AI技术拓展到机器人、物联网等边缘计算领域 [305][307][309][310]
UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架
具身智能之心· 2025-12-16 08:02
研究背景与核心问题 - 在具身智能领域,从人类演示中学习机器人操作是主流范式,但人类手部与不同形态机器人手(如2指、3指、5指)之间的形态差异鸿沟,成为技术落地的核心障碍 [3] - UniBYD的核心目标是构建一种学习范式,突破单纯的人类动作模仿,让机器人自主发现与自身物理特性匹配的操作策略,实现跨形态机器人手的高效泛化 [3] 核心创新:UniBYD框架设计 - UniBYD是一套统一的强化学习框架,通过统一形态表示、动态强化学习机制、精细模仿引导三大核心组件,实现从模仿到探索的平滑过渡,最终学到适配机器人形态的操作策略 [5] 统一形态表示(UMR):跨形态建模的基础 - 为解决不同机器人手形态(自由度、手指数量、刚体数量)的建模差异,UMR将动态状态与静态属性统一为固定维度表示 [7] - 动态状态处理中,手腕状态固定为13维(位置、姿态、速度);关节状态(角度、速度)通过零填充至最大自由度,并对关节角度进行三角函数编码以避免环绕问题 [8] - 静态属性补充从URDF模型提取手指数量、自由度、刚体数量,构成静态描述符 [11] - 最终观测向量是手腕状态、填充后关节状态与静态描述符的拼接,使政策网络能处理任意形态的机器人手 [11] 动态PPO:从模仿到探索的渐进式学习 - 基于动作重定向的方法仅映射运动学姿态,忽略动态信息 [10] - 传统模仿学习局限于复制人类动作,因手指数量、自由度等物理差异,任务性能远低于人类水平 [10] - 现有强化学习方法存在两难:要么依赖人类轨迹导致策略无法适配机器人自身形态,要么完全脱离人类先验陷入局部最优 [10] - 缺乏统一框架,多数方法仅针对特定机器人手设计,无法泛化到多样化形态 [10] - 基于UMR提供的统一观测空间,动态PPO通过奖励退火机制和损失协同平衡,实现从模仿人类到自主探索的平滑过渡 [12] - 奖励退火机制设计了两类核心奖励,并通过权重动态变化引导学习阶段过渡 [13] - 模仿奖励是稠密奖励,量化当前状态与人类演示状态的相似度,涵盖手腕姿态、指尖位置、关节运动、物体状态等多维度差异,同时加入动作能耗惩罚 [13] - 目标奖励是稀疏奖励,仅当任务成功完成时给予固定奖励,引导策略关注任务目标而非单纯模仿 [14] - 总奖励为两类奖励的加权和,权重随训练进程、模仿质量和成功率动态变化 [15] - 权重变化分为三阶段:早期模仿阶段完全依赖模仿奖励;混合阶段模仿权重随成功率衰减,逐步转向目标奖励;探索阶段策略完全以任务成功为导向自主探索 [20] - 损失协同平衡在PPO目标中加入熵正则化和边界损失,以保证探索有效性与物理可行性 [16] - 熵正则化鼓励策略探索,系数随训练线性衰减,早期探索充分,后期逐步收敛 [16] - 边界损失通过可微软边界惩罚,避免动作均值超出物理范围,解决硬裁剪破坏梯度的问题 [17] - 最终PPO目标函数整合了裁剪损失、价值函数损失、熵正则化和边界损失 [18] - 熵正则化与边界损失形成协同,前者促进探索,后者约束探索在物理可行范围内 [19] 混合马尔可夫影子引擎:早期模仿的精细引导 - 早期训练中,政策网络较弱,微小动作偏差会累积导致任务失败,影子引擎通过动作混合和对象辅助控制解决这一问题 [20] - 灵巧手控制中,执行动作是政策动作与人类专家动作的加权混合,权重随训练epoch线性调整 [22] - 早期完全依赖专家动作,政策学习单步操作,避免误差累积;中期逐步增加政策动作权重,让政策在专家引导下学习状态转移逻辑;后期完全依赖政策动作,过渡到纯马尔可夫决策过程 [26] - 对象控制通过PD控制器对操作对象施加动态支撑力,约束对象沿专家轨迹运动,避免掉落或大幅偏离,支撑力增益随训练同步衰减 [23] 实验验证与性能评估 - 为全面验证框架性能,设计了UniManip基准和多维度实验,涵盖模拟与真实世界场景 [24] - UniManip基准是首个跨形态机器人操作基准,任务覆盖29类单/双手操作任务,适配2指、3指、5指机器人手 [25][27] - 评价指标包括成功率、位置误差、姿态误差和适配分数 [27] - 在模拟实验中,UniBYD是唯一在所有手形态(2指、3指、5指单/双手)上均实现高成功率的框架 [28] - 整体成功率比ManipTrans方法高67.9%,5指单任务成功率从29.75%提升至87.47%,5指双手任务达到78.07%(其他方法均失败) [28] - 操作精度方面,位置误差和姿态误差分别降低81.65%和58.77%,适配分数达到8.83,远超ManipTrans的6.69 [28] - 可视化结果显示,ManipTrans机械复制人类三指抓握马克杯的动作,因机器人手指过宽导致滑落;而UniBYD适配机器人形态,采用两指穿柄加小指支撑的策略,成功完成任务 [28] - 消融实验通过逐步添加核心组件(影子引擎SE、目标奖励GR、损失协同平衡LSC),验证各模块贡献 [29] - 基础模型(仅模仿奖励)成功率较低,无法适配形态;添加影子引擎后成功率提升10.33%,解决了早期训练稳定性问题;再添加目标奖励后成功率再提升20.14%,适配分数达7.80;添加所有组件后性能最优,避免过早收敛,发现更优策略 [30] - 训练过程可视化显示,基础模型快速陷入局部最优,而UniBYD通过组件协同,后期成功率持续上升并稳定在高值 [30] - 策略进化过程显示,训练从单纯模仿逐步过渡到适配机器人形态的自主探索,最终形成高效操作策略 [30][32] - 在真实世界迁移实验中,在X-Arm 2指、Casia Hand-G 3指、OHandT M 5指机器人上验证,任务成功率分别达到52%(26/50)、64%(32/50)、70%(35/50) [34] - 可视化结果显示,UniBYD针对不同手形态调整策略:2指斜向夹紧烧杯,3指环绕包裹烧杯,充分适配硬件特性 [34] 核心结论与意义 - UniBYD实现了范式突破,跳出“复制人类动作”的局限,提出“形态适配策略”学习范式,通过动态强化学习实现从模仿到探索的平滑过渡 [39] - 框架具备强大的泛化能力,UMR统一了不同形态机器人手的表示,使框架能直接适配2指、3指、5指单/双手,解决了跨形态泛化的核心难题 [39] - 框架在性能和实用性上表现突出,在UniManip基准上大幅超越现有最佳方法,且成功迁移至真实世界机器人,为多样化机器人操作任务提供了通用解决方案 [39] - UniManip基准作为首个跨形态操作基准,填补了现有评估体系的空白,为该领域研究提供了统一的对比标准 [39]
许华哲,抓紧时间慢慢等具身的未来......
具身智能之心· 2025-12-16 08:02
文章核心观点 - 行业观察到具身智能领域在2025年存在发展速率与落地现实不协调的现象 具体表现为技术演示与真实世界应用之间存在差距 [6][7][8] - 行业认为中美在具身智能的发展路径上出现分野 中国公司侧重量产与商业化 美国公司侧重探索AI技术上限 行业担忧过度关注确定性量产可能错过最根本的AI技术突破 [9][10][11] - 行业主张具身智能应类比大模型 不应局限于简单、重复的落地场景 而应挑战需要强操作和高泛化能力的困难任务 以训练出高质量的通用模型 [12] - 行业指出具身智能面临数据瓶颈 其发展路径将是预训练与基于真实交互的持续学习螺旋上升 而非一次性完成数据训练 [15] 两个世界的机器梦 - 自2022年、2023年同步起步后 中美具身智能发展路径在2025年出现明显分野 [9] - 中国公司投入更多精力在量产和商业化上 而美国公司如1X Technologies(展示Gen0精细操作)、Figure(展示长程任务能力)、Sanctuary AI(展示持续工作能力)等则致力于展示AI技术上限 [9] - 行业认为机器人本质不同于汽车 AI能力是核心驱动力 需要由AI技术领跑 而非单纯追求量产 [9] - 行业呼吁在具身智能领域应建立原始创新的信心 而非仅采用跟随策略 需要容忍高失败率的探索性研发 [10] 落地简单场景还是挑战困难场景 - 行业观察发现 高价值、高重复性的场景往往已被传统自动化设备解决(例如解决90%的问题) 剩余未自动化场景通常因单价低或重复度低而不具经济性 [12] - 基于此 行业认为具身智能的定位应更接近大模型 不应将资源耗费在简单任务上 而应致力于挑战需要“强操作”和“高泛化”能力的困难场景 [12] - 挑战困难场景有助于训练出高质量的通用模型 从而更广泛地解决问题 尽管向具体场景的早期落地有其价值 可为未来积累迁移经验 [12][13] “预训练”配合“先验学习” - 具身智能面临天然的数据瓶颈 包括仿真数据不足和真机数据缺乏 这一问题将持续存在 [15] - 因此 行业发展不能遵循“先穷尽数据预训练,再探索模型”的线性路径 而需采用“预训练”与“真实世界交互学习”螺旋上升的模式 [15] - 行业认为 足够好的世界模型无法仅从人类采集的数据中训练获得 必须让机器人自主与世界交互才能构建其独有的世界模型 [15] - 行业对未来探索使用统一强化学习目标函数贯穿预训练与后训练的模式表示兴趣 [15]
新国大团队首创!当VLA具备4D感知能力后会怎么样?
具身智能之心· 2025-12-15 11:17
文章核心观点 - 文章介绍了一款名为VLA-4D的新型通用机器人模型,该模型通过引入4D感知能力,旨在解决现有视觉-语言-动作模型在需要细粒度表征的时空一致机器人操作任务中面临的挑战,从而实现更精准、流畅且时序一致的动作规划与执行 [2] 模型技术架构 - VLA-4D模型的核心设计包含两大关键模块:4D感知视觉表征和时空动作表征 [2] - 4D感知视觉表征模块首先提取视觉特征,然后将一维时间信息嵌入三维位置信息以生成4D嵌入特征,最后通过交叉注意力机制融合为统一的视觉表征 [2] - 时空动作表征模块为传统的空间动作表征拓展了时序信息维度,支持时空层面的动作规划,并将多模态表征与大语言模型进行对齐以完成动作预测 [2] - 在这一统一框架下,特殊设计的视觉与动作表征协同作用,使机器人操作兼具空间流畅性与时序一致性 [2] 研究背景与数据 - 现有视觉-语言-动作模型在通用机器人任务中展现出潜力,但在需要细粒度表征的时空一致机器人操作任务中仍面临挑战 [2] - 现有方法通常将三维位置信息嵌入视觉表征以提升动作空间精度,但难以实现对动作执行过程的时序一致性控制 [2] - 该研究工作为现有VLA数据集补充了时序动作标注,用于模型的微调训练 [2] 相关技术生态 - 物理世界是动态变化的四维场景,感知和理解其时空知识极具挑战 [6] - 技术生态中,4D-VGGT模型用于实现动态几何感知,LLaVA-4D模型用于增强动态场景推理,而VLA-4D模型则赋能动态时空规划 [6][7] - 相关深度内容在知识星球「具身智能之心」中涵盖,包括灵巧手技术、Agent定义、VLA与强化学习方案的真机部署探讨,以及跨实体世界模型等话题 [9]