Workflow
具身智能论文速递 | VLA、3DGS、扩散模型等、RoboBrain~
具身智能之心·2025-07-06 19:58

ArtGS框架 - 提出ArtGS框架,通过动态可微3D高斯溅射与视觉-物理闭环优化,显著提升关节目标建模与操作精度 [2] - 在7类100个关节目标上,关节轴平均误差(AE)降至4.27°7.03°,比最优基线降低约5°,关节原点误差(OE)降至3.265.84 cm [2] - 在洗碗机、冰箱等任务中,操作成功率高达62.4%~90.3%,比最优基线GAMMA提升最高33.5% [2][10] - 整合静态3D高斯溅射重建与微调的视觉-语言模型,将物理建模注入视觉感知过程,实现对关节骨骼参数的交互式优化 [2] - 利用改进的Denavit-Hartenberg正向运动学将机器人转化为3DGS数字孪生,结合动态3DGS的时空一致性和可微分渲染,优化关节参数 [2] cVLA模型 - 提出轻量级cVLA模型,通过图像坐标系轨迹关键点预测实现训练效率提升10倍 [15] - 仿真成功率最高达54%(Objaverse-hard场景),单次模仿成功率70%(CLEVR-easy) [15] - 真实机器人任务零样本迁移成功(15种桌面操作任务) [15] - 基于PaliGemma架构,通过预测图像坐标系下的末端执行器关键位姿实现轨迹生成 [15] - 提出新的解码算法beam-search-NMS,通过非极大值抑制在光束搜索中寻找分布峰值 [15] RoboBrain 2.0 - 提出轻量级(7B)与全尺寸(32B)双模型架构,通过三阶段渐进训练策略解决具身AI的三大瓶颈 [21][23] - 在RefSpatial-Bench定位准确率达54%,超越GPT-4o 45个百分点 [21] - 多机器人规划任务平均分80.33%,在12个基准测试中6项达到SOTA [21] - 32B变体在多个基准上超越现有开源和专有模型,如BLINK、CV-Bench等 [23][27] - 构建大规模高质量训练数据,涵盖通用多模态理解、空间感知、时间建模三类 [23] SE(3)-等变扩散策略 - 提出SE(3)-等变扩散策略(Spherical Diffusion Policy),在3D场景中实现机器人操作的鲁棒泛化 [32][37] - 在20个模拟任务中平均成功率提升至49%(15°倾斜场景),在5个物理机器人任务中平均成功率提升至78% [32][41] - 通过将状态、动作和去噪过程嵌入球形傅里叶空间,实现对3D场景变换的轨迹自适应 [37] - 设计球形FiLM层,实现动作去噪过程对等变场景嵌入的条件约束 [37] - 提出球形去噪temporal U-net,在保证时空等变性的同时兼顾计算效率 [37]