具身智能之心
搜索文档
复旦&港大等团队!WholeBodyVLA:面向全身移动操作控制的VLA框架
具身智能之心· 2025-12-18 08:07
文章核心观点 - 由复旦、港大等团队提出的WholeBodyVLA框架,是首个实现大范围人形机器人端到端移动-操作的系统之一,通过统一潜在动作学习和面向移动-操作的强化学习策略,解决了现有方法在“操作感知型移动”方面的不足,在AgiBot X2机器人上的实验表明,其性能比现有基线方法提升21.3% [4][5][12] 现有方法的不足与核心挑战 - 现有模块化或端到端方法无法规划和执行能主动创造操作前提条件(如接近、调整姿态)的移动,而是将移动和操作视为独立阶段,限制了机器人的工作空间 [2][3] - 核心挑战在于“操作感知型移动”,以及两个根本问题:人形机器人遥操作数据稀缺,以及现有强化学习控制器的精度和稳定性有限 [4][6] WholeBodyVLA提出的解决方案 - **统一潜在动作学习**:设计了一个学习框架,使视觉语言动作系统能够从低成本、无动作标签的第一视角人类视频中学习移动-操作知识,以缓解数据稀缺问题 [4][6][8] - **面向移动-操作的强化学习策略**:提出采用简化离散指令接口的LMO策略,专门优化前进、转弯、下蹲等核心移动-操作动作的准确性和稳定性,以解决低层执行不可靠的问题 [4][10] - **高效数据采集**:设计了仅需单操作员和单目相机的低成本、高效人类第一视角数据采集流程,以扩充数据集 [4][19] WholeBodyVLA方法细节 - **分离的潜在动作模型**:由于移动和操作视频的视觉变化模式不同,分别训练了用于操作的LAM和用于移动的LAM,再联合监督VLA训练,以避免性能不佳 [17][18] - **VLA训练与执行**:VLA基于视觉和语言指令,通过交叉熵损失联合预测两种潜在动作,轻量级解码器将其映射为机器人特定的上肢关节角度和移动指令,再由LMO策略转换为下肢力矩执行 [19] - **LMO策略设计**:采用仅依赖本体感受状态的紧凑观测空间,以及明确启停语义的离散指令接口,并通过两阶段课程学习和参考塑形来优化精度与稳定性 [20][21][22][24] 实验验证与性能 - **任务设置**:在AgiBot X2机器人上评估了三个综合任务:装袋、装箱和推车,以评估双臂协同、下蹲精度、转弯准确性和重载稳定性 [26][27] - **性能对比**:在三个任务的平均得分上,WholeBodyVLA达到78.0%,显著高于模块化设计的64.0%、GR00T w/ LMO的42.0%和OpenVLA-OFT w/ LMO的56.7% [31] - **消融实验**:移除统一潜在学习会导致成功率下降38.7%;使用基于速度的RL控制器变体成功率低24%;分离LAM设计优于共享单一LAM [31][32][36] 技术贡献验证 - **无标签视频的贡献**:使用人类第一视角视频进行潜在预训练能显著提升性能并减少对遥操作数据的依赖,使用超过50%人类视频预训练的模型,仅用25条遥操作轨迹微调即可匹配使用较少视频但需200条轨迹微调的模型性能 [35] - **LMO的贡献**:LMO策略有效解决了基于速度控制器常见的绊倒、路径偏移等问题,在扩展任务(如不平坦地形、长多步序列)中表现出更高的可靠性 [36] - **泛化能力**:框架在更具挑战性的场景中(如不平坦地形遍历、长时程多步序列、日常移动-操作活动)均保持性能优势,展现出强大的泛化能力和可扩展性 [38]
SIGGRAPH 2025:摩尔线程赢3DGS挑战赛大奖,LiteGS全面开源
具身智能之心· 2025-12-18 08:07
文章核心观点 - 摩尔线程在SIGGRAPH Asia 2025的3DGS重建挑战赛中凭借自研的LiteGS技术获得银奖,证明了其在下一代图形渲染技术3D Gaussian Splatting领域的算法实力和软硬件协同优化能力 [1] - 3DGS是一项革命性的3D场景表示与渲染技术,相比传统NeRF,能在保持画质的同时将渲染效率提升数百至上千倍,并成为具身智能等前沿领域的关键基础技术 [4][7] - 摩尔线程通过开源其3DGS基础库LiteGS,展示了从底层GPU系统到高层算法的全栈优化能力,在训练效率和重建质量上树立了新的性能标杆,并计划在开发者大会上进一步探讨该技术如何赋能未来 [20][24][28] 3DGS技术概述与行业意义 - 3D Gaussian Splatting是2023年提出的革命性3D场景表示与渲染技术,以可参数化的3D高斯分布为核心,实现了画质、效率与资源占用的卓越平衡 [4] - 与传统NeRF相比,3DGS在保持逼真渲染质量的前提下,将渲染效率提升数百至上千倍 [4] - 该技术在光线追踪、VR/AR实时渲染、多模态融合等方向展现出极强的适应性与扩展性 [4] - 3DGS以其高保真、快速优化和轻量级结构,为具身智能构建准确的世界模型提供了可靠支撑,正逐渐成为该领域的关键基础技术之一 [7] - 3DGS已成为全球学术界与产业界竞相投入的研究方向,受到SIGGRAPH Asia等权威机构的高度关注 [8] SIGGRAPH Asia 2025 3DGS挑战赛详情 - 挑战赛要求参赛团队在60秒内,基于提供的真实终端视频序列、存在误差的相机轨迹及终端SLAM点云,完成高质量的3DGS重建 [10] - 比赛以PSNR(重建质量)与重建速度为综合评价指标 [12] - 比赛结果及数据集已向全球公开 [14] 摩尔线程参赛表现与技术成果 - 摩尔线程AI团队以“MT-AI”参赛,在重建精度与效率上取得均衡表现,最终获得二等奖(银牌) [17] - 根据成绩表,摩尔线程(MT-Al)的平均PSNR为27.58,重建耗时为34秒 [18] - 公司自主研发了3DGS基础库LiteGS,首次实现了从底层GPU系统、中层数据管理到高层算法设计的全链路协同优化 [21] - 在GPU系统层面,创新提出基于“One Warp Per Tile”原则的“Warp-Based Raster”新范式,大幅降低梯度计算开销 [22] - 在数据管理层,引入“聚类-剔除-压缩”流水线,显著提升数据局部性 [22] - 在算法设计层,采用像素不透明度梯度方差作为致密化核心判据,精准识别欠拟合区域 [22] - 通过协同优化,LiteGS在达到与当前质量最优方案同等水平时,可获得高达10.8倍的训练加速,且参数量减少一半以上 [25] - 在相同参数量下,LiteGS在PSNR指标上超出主流方案0.2–0.4 dB,训练时间缩短3.8至7倍 [31] - 针对轻量化模型,LiteGS仅需原版3DGS约10%的训练时间与20%的参数量,即可实现同等质量 [31] 开源与未来展望 - 摩尔线程已将LiteGS在GitHub平台全面开源,以推动三维重建与渲染技术的开放协作与持续演进 [27] - 公司此次获奖被视作准确把握全球技术发展趋势并引领未来图形计算技术方向的战略体现 [28] - 摩尔线程计划于2025年12月20日-21日在首届MUSA开发者大会上设立技术专题,深入探讨3DGS等图形智能技术如何塑造未来,赋能具身智能等前沿领域 [28]
VGGT4D:无需训练,实现4D动态场景重建
具身智能之心· 2025-12-18 08:07
研究背景与问题 - 以VGGT、DUSt3R为代表的3D基础模型在静态场景重建中表现出色,但在处理包含移动物体(如行人、车辆)的动态4D场景时,性能显著下降,动态物体的运动会干扰背景几何建模并导致严重的相机位姿漂移 [6] - 现有解决方案面临两类挑战:一是计算或训练成本高,依赖繁重的测试时优化或需要在大规模4D数据集上进行微调;二是依赖外部先验,需要引入光流、深度估计或语义分割等额外模块,增加了系统复杂性 [14] 核心洞察与方法论 - 研究团队提出核心设想:能否在不进行额外训练的前提下,直接从预训练的3D基础模型中挖掘出4D感知能力 [7] - 通过对VGGT注意力机制的可视化分析,发现VGGT的不同网络层对动态区域表现出截然不同的响应模式,表明VGGT虽然是基于静态假设训练的,但其内部实际上已经隐式编码了丰富的动态线索 [8][10] - VGGT4D的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制,该方法深入特征流形内部,利用Gram矩阵和梯度流实现了高精度的动静分离 [12] 技术细节:潜在运动线索的挖掘与解耦 - 研究团队分析了标准注意力图的局限性,由于Query和Key向量来自异构的投影头,其特征分布存在天然的分布间隙,导致Cross-Attention主要响应语义对齐,而运动引起的微小特征扰动容易被掩盖 [15] - 为解决此问题,VGGT4D引入了自相似性Gram矩阵来替代,通过在同构潜在分布内计算相似度,使运动引起的方差成为主导信号,模型通过在时间窗口内聚合不同层级的统计矩(均值S与方差V),构建了动态显著性场 [15] - 为了解决Attention Map分辨率不足导致的边界模糊问题,VGGT4D引入了投影梯度感知精修,该方法利用3D点几何投影残差关于3D坐标的梯度(依赖于投影雅可比矩阵和深度图的空间梯度)所包含的强边界信息,在动态物体边缘处呈现显著高频响应,从而实现对动态掩膜的亚像素级锐化 [17] - 在推理阶段,VGGT4D提出了一种分布内早期掩膜策略:仅在浅层抑制动态Token的Key向量,这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层Transformer Block依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性 [19] 实验验证:动态物体分割性能 - 在动态物体分割任务上,VGGT4D在DAVIS-2016和DAVIS-2017数据集上均达到了最优性能,即使没有经过任何4D特定的训练,仅基于预训练的VGGT模型即可取得优异结果 [21] - 具体数据:在DAVIS-2016数据集上,VGGT4D的JM指标为62.12,JR指标为76.80,FM指标为56.04,FR指标为67.49;在DAVIS-2017数据集上,JM为56.45,JR为65.62,FM为51.09,FR为56.85 [22] - 定性分析表明,基线方法如Easi3R的掩码较为粗糙且遗漏细节,DAS3R倾向于过度分割并渗入静态背景,MonST3R则常常分割不足,而VGGT4D生成的掩码更加准确且边界更加清晰 [23] 实验验证:相机位姿估计 - 原始VGGT已经是一个非常强大的基线,其自身就优于MonST3R、DAS3R等许多专门的4D重建方法,表明VGGT的预训练隐式地使其对动态物体具有一定的鲁棒性,但这种鲁棒性并不完美 [25] - VGGT4D在所有数据集上均持续改进了VGGT基线,例如在VKITTI数据集上,VGGT4D的ATE(绝对轨迹误差)仅为0.164,而MonST3R高达2.272 [25] - 在极具挑战性的长序列Point Odyssey基准测试中,VGGT4D在所有指标上均取得了最佳结果,同时保持了高度效率,许多其他4D方法由于内存不足错误甚至无法在该500帧序列上运行 [26] - 具体数据:在Point Odyssey上,VGGT4D的ATE为0.019,RTE为0.009,RRE为0.290,均优于FastVGGT(0.026, 0.017, 0.380)和原始VGGT(0.022, 0.015, 0.344) [27] 实验验证:4D点云重建质量 - 在DyCheck数据集上的评估显示,VGGT4D在所有重建指标(准确度、完整度和距离)上均取得了最佳性能 [28] - 与VGGT基线相比,中位准确度误差从0.009降低到0.004,平均距离从0.150降低到0.123,这证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量 [28] - 具体数据:VGGT4D的位姿估计ATE为0.010,RTE为0.007,RRE为0.374;重建准确度均值为0.022,中位数为0.004;完整度均值为0.051,中位数为0.012;距离均值为0.123,中位数为0.050 [29] 研究结论与意义 - VGGT4D提出了一种无需训练的新范式,成功将3D基础模型的能力扩展至4D动态场景 [32] - 该工作证明了通过合理挖掘模型内部的Gram相似度统计特性,可以有效解耦动态与静态信息,这不仅为低成本的4D重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力 [32]
具身智能的数据困境?简智正以闭环飞轮推进解决
具身智能之心· 2025-12-17 18:00
行业核心痛点与共识 - 高质量真机数据是决定具身智能模型能力上限的关键,但当前行业面临高质量真机数据极度匮乏的困境[3] - 模仿学习(如看视频)必要,但真正掌握技能,真机数据是关键[3] - 仿真、人类视频等替代数据存在核心能力妥协,唯有真实、海量的物理世界交互数据才是通往通用机器人智能的必经之路[6] - 传统数据采集方案存在显著短板:Aloha设备两班倒每天仅产生4-5小时有效数据,要达到规模化数据集(如Gen-0)规模需500套同类设备同时运转,实操难度大[6] - 视频数据训练的模型缺乏真实场景实操经验,传统遥操和UMI数采方案则存在成本高、部署难或数据质量参差不齐的问题[6] 公司核心理念与战略 - 公司核心理念是“具身智能源于人、回归人”[3] - 公司采用全栈自研的“产品+产线”双轨战略,搭建“人类技能数字化 - 云端AI数据治理 - 机器人应用”的完整闭环[3] - 公司推出Gen Data 1+x产品矩阵,旨在从源头打通物理世界与数字世界的数据壁垒[7] 数据采集解决方案:Gen Das - Gen Das是一款无感可穿戴采集设备,以“头+手”为核心交互触点,瞄准“夹抓类”核心技能[9] - 设备重量仅470g,开机即用,贴合人体自然曲线设计,便于长时间操作以捕捉真实动作反馈[9] - 设备性能参数针对解决采集难题:指尖、指腹覆盖超过30000个触觉检测点,最小压感仅7g[12];搭配毫秒级、亚毫米级的关节追踪[17];采用全栈自研优化的ISP图像处理与CMOS传感器[17];具备“双手协同”“手眼协同”高精度坐标对齐技术,时间误差小于1ms,轨迹误差小于1cm[17];具备将数据体积压缩至原大小2%的超强压缩能力,可实现分钟级快速上传[17] 技能落地与硬件闭环:Gen Controller - Gen Controller作为技能落地端,与Gen Das采用同构设计,理论上可实现人类技能向机器人终端的快速迁移[14] - 该设计旨在构建“源于人的采集”到“回归人的应用”的硬件闭环,解决数据与应用脱节的行业通病[14] 数据处理与治理体系 - 具身智能领域存在Scaling Law(数据规模与模型能力正相关),需要高效的数据治理体系[15] - 公司通过两大核心引擎(Gen Matrix与Gen ADP)解决海量数据转化为模型“优质燃料”的难题[15] 数据智能平台:Gen Matrix - Gen Matrix是数据智能平台中枢,承担“迭代发动机”角色[18] - 功能包括:根据模型需求对海量数据进行定制化清洗、自动切片标注、环境重建;对模型结果进行评测并自动生成二次数据需求,形成“采集-处理-评测-再采集”的智能循环[18] - 具备高精准还原能力,轨迹真值误差小于1cm[18] 数据产线:Gen ADP - Gen ADP是具身智能数据产线,旨在实现千万人员技能数据化,部署灵活,可快速在家庭、工厂、医疗等场所落地[19] - 目标为实现“低成本、高效、高保真、自动闭环”的数据生产[19] - 从效率看,采集后2小时内即可向模型提供新鲜、高质量的加工数据,大幅短于传统几天甚至几周的周期[23] - 目前该产线每日高质量数据产出量超过10万clips,数据时长增长超1万小时且仍在持续加速[23] - 数据显示,平均3-6秒即可从真实家庭中完成一条高质量数据的收集[22] 公司融资与数据资产 - 公司成立仅4个月,已累计完成3轮融资,融资金额超2亿元,是细分赛道融资进展最快的企业之一[24] - 融资历程:种子轮由BV百度风投领投,Momenta、九识智能、星海图跟投;种子+轮由速腾聚创领投,BV百度风投跟投;天使轮由顺为资本领投,初心资本、BV百度风投超额跟投[24] - 公司已积累超百万小时真实场景数据,覆盖家庭、工业、医疗等领域的500余种技能场景[24] 团队与技术壁垒 - 核心成员多来自Momenta、理想汽车、华为、斯坦福、Deepmind等头部企业与科研机构,在数据处理、算法研发、硬件工程等领域具备深厚积累[26] - 不少成员曾在智驾领域取得过行业突破性成果,其经验可为具身智能数据技术研发提供参考[26] 市场前景与商业化 - 具身智能整体市场预计从2025年的44亿美元飙升至2030年的230亿美元,年复合增长率高达39%[27] - 具身数据服务市场增速更快,预计到2031年全球市场规模将达到67亿美元[27] - 公司已与30余家行业头部具身智能企业建立深度合作关系,业务覆盖全球市场[28] - 公司海外收入占比超70%[28]
支持pi0与pi0.5部署!现在又适配了Lerobot框架了
具身智能之心· 2025-12-17 11:50
产品定位与目标市场 - 公司推出一款名为Imeta-Y1的轻量级高性价比机械臂,专门面向具身智能科研领域,旨在解决该领域硬件选择中价格高昂或难以使用的问题 [2][3] - 该产品主要目标用户为学生、教育工作者以及刚踏入机器人领域的开发者,旨在帮助他们以低成本、高效率的方式完成算法验证与项目开发 [3] 核心功能与近期进展 - 该机械臂近期成功适配Lerobot,实现了夹取方块并精准放入胶带圈的流畅操作,配套代码将正式开源 [1] - 产品提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架,实现端到端智能算法落地 [4][18][37] - 产品支持Python和C++双语言接口,并兼容ROS1与ROS2,提供URDF模型,可实现仿真与真机的无缝切换 [4][19][20] 硬件性能参数 - 机械臂本体重量为4.2公斤,额定负载为3公斤,拥有6个自由度,工作半径为612.5毫米,重复定位精度为±0.1毫米 [9][20][21] - 供电电压为24V,采用CAN通讯方式,控制方式支持轨迹跟踪、示教和API [9][20] - 各关节运动范围与最大速度详细:J1轴为-165°至165°,速度180°/s;J2轴为-180°至0°,速度180°/s;J3轴为0°至180°,速度180°/s;J4轴为-95°至86°,速度220°/s;J5轴为-90°至90°,速度220°/s;J6轴为-150°至150°,速度220°/s [9][22] 软件与开发生态 - 公司提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [30][31] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,用户可在仿真中验证算法后一键部署至物理设备,以降低开发风险与调试成本 [18][23] - 后期计划陆续升级更新VLA、VA相关的源码,新老客户均可享受升级 [20] 配套服务与支持 - 公司提供24小时快速售后响应服务 [4][20] - 产品交付周期为1至2周,提供半年质保(非人为损坏),质保期后按市场价支付售后费用 [49][50] - 支持批量采购,并提供基于该产品的项目开发与教学培训支持 [20] 适配与兼容性信息 - 机械臂已适配的相机包括Realsense D435系列和奥比中光DCW2 [51] - 目前已开源适配的算法模型有Lerobot和ACT,Robotwin、pi0等模型将逐步适配并开源给用户 [51] - 对于硬件配置要求,运行SDK和MoveIt等工具对电脑配置要求不高,但适配的ALOHA ACT算法在NVIDIA GeForce RTX 4060显卡上即可进行训练和推理 [51]
最近具身界的一些进展......
具身智能之心· 2025-12-17 11:50
行业动态与趋势 - 融资方面,下半年本体零部件公司融资金额增大、公司数量增多,除明星公司外,创业公司也带着订单来融资 [2] - 量产方面,多家公司试点逐步推进,头部人形机器人开始探索工业级产品部署 [2] - 产品设计方面,机械臂产品设计逐渐收敛,移动操作和人形机器人在结构与尺寸上持续创新,行业普遍在压低成本,供应链管理能力成为后期竞争关键 [2] - 模型泛化方面,基于强化学习的优化思路增强了模型泛化能力,相关工具箱日益完善,真机部署变得更加便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人与移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与内容 - 社区已搭建包含技术路线分享、直播、问答、求职、赛事等多个版块的交流平台,形成了产业、学术、求职的闭环 [6] - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据到算法,探讨行业现状与待解决问题 [8] - 社区为入门者整理了完整的技术学习路线 [10] - 为已从事相关研究的成员提供有价值的产业体系与项目方案 [14] - 社区与多家具身公司建立岗位内推机制,可第一时间对接企业 [16] - 社区汇总了国内外知名高校的具身智能实验室,供深造参考 [19] - 社区汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向 [22] - 社区汇总了大模型、人形机器人等行业相关研报,以便了解行业发展与工业落地情况 [24][25] - 社区汇总了机器人导航、概率机器人、动力学与运动学等多个方向的PDF书籍供基础学习 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [30] - 社区汇总了机器人仿真、抓取、控制、感知等多个领域的开源项目,助力快速上手 [32] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册与综述 [34] - 社区汇总了数据采集方案与开源数据集,涵盖遥操、动作捕捉、AR等领域 [36][38] - 社区汇总了通用及真实场景机器人仿真平台 [40] - 社区汇总了强化学习、视觉语言模型与强化学习结合等主流方案与应用 [40][43] - 社区汇总了具身感知、交互、导航、多模态大模型理解与生成、模型微调与量化、大模型部署等详细技术路线与资源 [42][45][47][49][51][53][55][57][59][61][63][65][67][70][72][74] - 社区内部成员可自由提问交流,并获得来自产业界和学术界嘉宾的解答 [76] 社区规模与构成 - 社区已有近3000名具身领域成员,包括来自斯坦福大学、加州大学、清华大学、上海交大等国内外知名高校实验室,以及智元机器人、有鹿机器人、优必选、小米等近200家机器人头部公司与机构的成员 [16][86]
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心· 2025-12-17 08:05
文章核心观点 - 由港科大、港中文、清华大学和快手可灵团队提出的统一多模态多任务视频生成模型UnityVideo,通过联合训练多种视觉模态(如深度图、光流、骨骼、分割掩码等),显著提升了模型对物理世界的理解能力、生成视频的质量与可控性,并展现出强大的零样本泛化能力 [1][4][10][13] 模型动机与核心观察 - 现有视频生成模型大多局限于单一RGB视频学习,限制了模型对物理世界的全面理解 [9] - 核心观察:当模型同时学习多种视觉模态时,其在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升 [10] - 不同视觉模态提供了互补的监督信号,联合学习使模型能真正开始“理解”物理世界的运作规律 [12] 技术创新 - **动态任务路由**:在单个架构中无缝统一支持三种训练范式:条件生成、模态估计和联合生成 [16][17][18] - **动态噪声调度策略**:每个训练迭代随机选择一种训练模式并对相应token施加不同噪声,避免了灾难性遗忘,并设置了不同任务的采样概率以平衡学习进度 [20][21] - **模态切换器**:包含两个互补设计 - 上下文学习器:通过为不同模态注入特定文本提示,让模型在语义层面理解当前处理的模态 [23] - 模态自适应切换器:在架构层面为每种模态学习独立的调制参数,实现即插即用的模态选择能力 [25][26][27] - **渐进式课程学习策略**:采用两阶段训练,先在单人场景数据上训练像素对齐的模态建立基础,再引入所有模态和多样化场景数据 [29] 数据集与评估基准 - 构建了包含130万个多模态视频样本的OpenUni数据集以支持统一训练范式 [31] - 构建了包含3万个样本的UniBench评估基准,其中200个高质量样本来自Unreal Engine渲染,提供了ground truth深度和光流 [31] 实验结果:定量性能 - **文本生成视频**:在所有指标上均获得最佳结果,背景一致性达97.44%,美学质量达64.12% [33][35] - **可控生成**:在动态程度上表现卓越,达到64.42%,远超其他方法 [33][35] - **模态估计**:在视频分割任务上mIoU达到68.82%,在深度估计上Abs Rel仅为0.022,显著优于专门的单任务模型 [33][35] 实验结果:定性优势与消融验证 - **定性优势**:在物理现象理解、可控生成质量、模态估计精度和泛化能力上均展现出优势 [38][39][40] - **多模态互补性验证**:相比单模态训练,统一多模态训练在成像质量和整体一致性上获得更大增益,证明了互补监督信号的相互增强作用 [41][42][43] - **多任务训练必要性**:统一多任务训练能够恢复并超越单独训练可控生成任务导致的性能下降,证实了任务间的协同效应 [44][46] - **架构设计有效性**:上下文学习器和模态切换器各自都能有效提升性能,结合使用时能获得额外的显著增益 [47] 用户研究与泛化能力 - **用户研究**:在物理质量、语义质量和整体偏好三个维度上均获得最高评分,物理质量得分达到38.50%,显著超过商业模型Kling1.6的10.15%和HunyuanVideo的24.15% [49][50] - **零样本泛化**:模型在“two persons”的分割任务上训练后,能够自然地泛化到未见过的“two objects”场景 [52][55] - **跨模态知识迁移**:随着模型学习更多模态,RGB视频中的运动理解和语义响应都得到了改善,跨模态注意力交互逐渐增强 [56][58][62] 行业意义与启示 - 提升模型能力不仅仅依赖于增大参数量和数据量,更重要的是如何组织和利用多样化的学习信号 [62] - 视觉模型可以通过统一多种模态和任务来涌现更强的世界理解能力,正如LLMs通过统一多种文本任务涌现出推理能力 [62] - 简单堆叠不同模态不够,需要精心设计的机制来让不同模态真正互相促进 [63] - 评估需要多维度,更关键的是模型获得了跨任务、跨模态的泛化能力和更深层的世界理解 [63] - 为构建真正理解物理世界的视觉大模型奠定了坚实基础,展示了AI向通用智能演进的清晰路径 [64][65]
近300篇工作!伦敦国王学院x港理工全面解构VLA模型,一份清晰系统的导航图
具身智能之心· 2025-12-17 08:05
文章核心观点 - 该综述对视觉-语言-动作模型进行了全面剖析,指出VLA模型正推动机器人技术变革,其发展遵循“基础模块→历史里程碑→核心挑战”的逻辑,五大核心挑战是当前研究的关键突破口 [1] 基础模块与架构趋势 - VLA系统由感知、大脑、动作三大核心模块组成,近年呈现明显技术迭代趋势 [3] - 感知模块正从传统视觉骨干网络转向语言对齐Transformer,并新增几何表征以提升操作精度 [10] - 大脑模块向预训练视觉语言模型收敛,利用互联网级知识实现零样本泛化 [10] - 动作模块从离散令牌化转向连续生成建模,追求平滑的多模态分布建模 [10] - 机器人感知编码器以CNN和ViT为主,语言编码器从Transformer演进至LLM和VLM [10] - 机器人大脑主流架构包括Transformer、扩散Transformer、混合架构和VLM [10] - 机器人动作表征分离散、连续、混合三类,解码方式包括自回归、非自回归和混合解码 [10] 发展里程碑 - **2017-2019年**:奠定基础,VLN、EmbodiedQA等基准推动语言与视觉环境对齐 [13] - **2020-2021年**:转向长时推理,ALFRED、CLIPort实现语言引导的机器人操作零样本泛化 [13] - **2022年**:大模型时代开启,RT-1、RT-2构建统一VLA框架,实现端到端视觉-语言-动作学习 [13] - **2023年**:技术突破集中,PaLM-E统一多模态输入空间,Diffusion Policy革新动作建模范式,Open X-Embodiment提供大规模跨机器人数据 [13] - **2024年**:开源与泛化推进,OpenVLA降低研究门槛,Octo实现跨平台多任务控制,3D-VLA转向全3D世界建模 [13] - **2025年**:多元进化,Humanoid-VLA拓展至人形机器人,Cosmos-Reason1标准化物理推理 [13] 核心挑战与解决方案 - **多模态对齐与物理世界建模**:核心问题是弥合语义、感知与物理交互的鸿沟,实现从2D图像到时空表征的升级,解决方案包括通过对比学习实现模态对齐,引入点云、体素等提升空间推理能力 [18] - **复杂指令理解与高效执行**:核心问题是解析复杂/模糊指令,分解长时任务,实现错误自修复与低延迟执行,解决方案包括采用多模态序列建模处理混合指令,通过分层规划拆解任务 [24] - **从泛化到持续适应**:核心问题是实现开放世界泛化,避免持续学习中的遗忘,缩小仿真到现实的差距,解决方案包括利用多任务预训练、互联网视频迁移知识,通过参数隔离缓解遗忘 [25] - **安全、可解释性与可靠交互**:核心问题是保障物理安全,提升决策透明度,建立人机信任,解决方案包括注入安全约束、通过Constitutional AI对齐人类价值观,输出中间推理过程增强可解释性 [26] - **数据构建与基准测试标准**:核心问题是获取大规模异质数据,建立统一的评估体系,解决方案包括通过表征统一、数据增强整合多源数据,开发覆盖复杂任务与泛化能力的基准测试 [27] 数据集与评估基准 - **模拟数据集**:例如ALFRED包含8,055个专家演示和约120个室内场景,LIBERO包含约6,500个演示和130项技能,VLA-3D包含970万对参考数据和11.5千个重建的3D房间 [6] - **真实世界机器人操作数据集**:例如BridgeData V2包含60,096条轨迹,DROID包含约76千条轨迹,Open X-Embodiment包含超过100万条轨迹和527项技能,AgiBot World包含超过100万条轨迹和217项任务 [6] - **以人为中心及第一人称数据集**:例如Ego4D包含约3,700小时视频,HOI4D包含约4,000个序列,HD-EPIC包含约4,881个物体行程 [6] - **评估基准**:包括用于语言条件操作的RLBench、ManiSkill系列,用于长时任务完成的ALFRED、CALVIN、TEACh,用于高级认知能力的LIBERO、RoboCAS,以及用于评估基础模型的EmbodiedBench、EWM Bench、RoboTwin [30] 应用场景与未来方向 - 主要应用场景包括家庭机器人和工业与野外机器人,前者需处理非结构化环境和长时任务,后者需实现高精度操作与安全合规 [29] - 未来趋势包括发展原生多模态架构、形态无关表征,构建自监督探索与在线强化学习的闭环进化体系,推动评估从二元成功率转向综合诊断测试 [30]
56倍加速生成式策略:EfficientFlow,迈向高效具身智能
具身智能之心· 2025-12-17 08:05
文章核心观点 - 西安交通大学研究团队提出了一种名为EfficientFlow的全新生成式策略学习方法,旨在解决当前生成式模型在机器人及具身智能领域面临的两大核心瓶颈:训练依赖大规模演示数据以及推理迭代步数多、速度慢的问题 [1] - 该方法通过深度融合等变建模与高效流匹配技术,在显著提升数据效率的同时,大幅压缩了推理所需的迭代步数,从而将推理速度提升了一个数量级以上,并在多个机器人操作基准上实现了SOTA性能 [1] 技术亮点:用物理直觉重塑生成式策略 - **加速度正则化**:通过引入加速度正则项到损失函数中,鼓励样本从噪声分布向数据分布的演化过程平滑且接近匀速,从而让生成的轨迹更直、更快,解决了传统流匹配中流场曲率过大导致推理需多步迭代的问题 [5] - 为克服加速度项难以直接计算的困难,该方法引入了易于计算且有效的代理损失——流加速度上界,该上界与原式的差值等效于对雅可比矩阵的正则化,使生成的策略更稳定、更鲁棒 [7][8] - **等变网络**:基于物理直觉设计,确保当输入的视觉场景旋转一定角度时,机器人输出的动作也跟随旋转相同角度,这带来了巨大的数据优势,使模型能够从单一角度的数据学习泛化到多个旋转角度,实现“举一反三” [9] - 该方法基于escnn库构建,将机器人的动作表示为一个10维向量,并通过等变表示确保生成的动作遵循任务的对称性,从而在场景进行平面旋转时保持行为一致性 [10][11] - **时间一致性策略**:采用时间重叠策略与批量轨迹选择及周期性重置策略,以解决独立预测相邻动作片段可能导致的行为模式切换和不连贯问题,从而在保持多模态表达能力的同时,实现了长期执行的连贯性 [15] 实验效果 - 在MimicGen等多个机器人操作基准测试中,EfficientFlow在有限数据条件下展现出的成功率媲美甚至超过了现有的SOTA方法 [17] - 在推理效率方面,EfficientFlow仅需1步推理就能接近EquiDiff模型100步推理的平均性能,其单步推理速度提升了56倍,5步推理也有近20倍的加速 [17] - 消融实验表明,加速度正则化与等变建模两者缺一不可,共同构成了实现高效生成式策略的关键 [17] 论文与代码 - 相关论文《EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI》已被AAAI 2026接收,且代码已开源 [3] - 项目主页与GitHub仓库地址已公开,可供进一步查阅 [13]
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 08:05
行业研究方向与选择 - 具身智能领域当前的研究方向包括视觉语言导航、视觉语言操作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的从业者,视觉语言导航和视觉语言操作被视为较好的切入方向[1] - 拥有机械臂硬件的研究者适合展开视觉语言操作研究,而无硬件的研究者可利用仿真环境或低成本硬件平台进行实验[1] - 四足机器人和人形机器人更适合采用强化学习方法进行研究,而视觉语言操作的研究难度相对较高[1] 研究方法与资源 - 研究过程中,拥有优秀的创新想法至关重要,但新人研究者往往需要经历多次试错才能获得[1] - 行业存在多种低成本的科研平台可供选择,例如移动操作平台[1] - 仿真方法是解决预算有限问题的可行方案之一[1] 专业辅导服务内容 - 提供的论文辅导服务覆盖从CCF-A到CCF-C级别的会议,以及SCI一区到四区的期刊[2] - 服务范围包括EI、中文核心期刊论文、毕业论文以及博士申请辅导等[2] - 辅导团队由来自国内外名校的博士及头部企业研究员组成,具备在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验[2] - 辅导流程为全闭环服务,涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略[2] - 辅导服务兼具工业界与学术界双重视角,不仅关注论文发表,也重视研究的落地价值[3] - 公司为前10名咨询者提供免费匹配专属导师的机会[5]