Workflow
具身智能之心
icon
搜索文档
首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速
具身智能之心· 2025-11-07 08:05
核心观点 - 提出了一种名为UD-VLA的Diffusion Large Language Model (DLLM)模型 该模型是首个全面开源的Diffusion VLA模型 在性能上达到SOTA水平 同时相比自回归模型实现了四倍的加速 [3] - 模型的核心创新在于提出了联合离散去噪过程 (Joint Discrete Denoising Diffusion Process, JD3P) 将未来帧生成和动作预测统一在一个框架内 实现了图像生成和动作预测的相互裨益 [3] - 在主流基准测试CALVIN LIBERO SIMPLER上进行了全面评测 结果显示UD-VLA在多项任务中表现优异 例如在CALVIN基准的连续任务完成指标上达到4.64 优于其他对比模型 [15] 模型架构与方法 - 采用统一标记化 (Unified Tokenization) 将文本、图像和动作使用不同的标记器离散化为标记 并拼接成单一多模态序列 序列结构为[文本标记 ; 当前图像标记 ; 未来图像标记 ; 动作标记] [7] - 设计了混合注意力机制 (Hybrid Attention Mechanism) 保持不同模态间和文本模态内的因果性 而视觉和动作模态内保持双向 使动作在去噪过程中持续受益于图像的去噪过程 [7] - 提出了联合离散去噪过程 (JD3P) 动作与图像在同一个去噪步骤中并行生成 采用单步掩码预测目标 仅对被掩码位置计算交叉熵损失 [9] 训练与推理 - 训练分为两个阶段 第一阶段在大规模视频数据集上进行后训练以注入未来图像生成能力 第二阶段共同优化图像和动作生成 并将自回归解码重构为扩散过程 [10] - 推理时采用并行解码与自适应掩码 初始化所有位置为掩码并进行少量迭代 同时使用前缀KV缓存与预填充机制 复用前缀标记的KV缓存以引导去噪 [11][12] - 引入了基于置信度的解码机制 通过置信度对掩码位置进行排序 并使用温度化的Gumbel采样进行更新 以提升推理速度并保证动作质量 [13] 性能评测 - 在CALVIN基准的长周期机器人操作任务中 UD-VLA在连续完成5项任务的成功率上达到0.840 平均任务长度达到4.64 优于包括MODE MDT UP-VLA在内的多个先进模型 [15] - 在LIBERO基准测试中 UD-VLA在空间、物体、目标和长周期任务上的平均成功率为92.7% 与DreamVLA的92.6%相当 在长周期任务上达到89.6% [16] - 在具体任务如放置勺子、放置胡萝卜、堆叠积木和放置茄子中 UD-VLA的整体成功率为62.5% 高于F1模型的59.4%和To-FAST模型的48.3% [16]
清北推出Motion Transfer,机器人直接从人类数据中端到端学习技能
具身智能之心· 2025-11-07 08:05
MotionTrans框架核心创新 - 提出业界首个纯端到端、零样本、多任务的人类→机器人技能迁移框架MotionTrans,实现从“看人会”到“我会做”的直接转化[4] - 核心能力包括零样本迁移(无需同任务机器人演示)和小样本精进(仅需5-20条机器人数据微调即可将成功率提升至80%)[7] - 框架采用架构无关设计,已在Diffusion Policy与VLA两大主流范式上验证即插即用特性[7] 技术实现细节 - 自研基于VR设备的人类数据采集系统,可便携式采集第一人称视频、头部运动、腕部位姿和手部动作[9] - 通过坐标系变换和手部重定向将人类数据转换为机器人格式,并使用统一动作归一化与加权联合训练算法优化迁移效果[10] - 采用相对腕部动作表征与Dex-Retargeting工具缩小人机动作差距,提升迁移精度[11] 数据集与实验表现 - 构建大规模人类-机器人数据集,包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实生活场景[10] - 零样本迁移在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务实现100%成功率[14] - 小样本微调后平均成功率从20%跃升至50%(5条数据)和80%(20条数据),显著优于基线方法[17][18] 行业影响与开源贡献 - 证明人类VR数据可独立作为机器人技能学习主菜,改变人类数据仅作为辅助工具的认知[22] - 框架采用模块化设计,支持横向扩容,具备应对大规模数据集与参数量级模型的扩展性[22] - 团队全面开源技术报告、训练代码、权重及数据集,推动相关研究发展[6][23]
从转型和研究来看,什么方向更适合第一篇论文?
具身智能之心· 2025-11-06 19:47
研究方向选择 - 具身智能领域的研究方向包括视觉语言导航、视觉语言动作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的同学,视觉语言导航和视觉语言动作是较好的切入方向[1] - 拥有机械臂硬件的研究者可选择展开视觉语言动作研究,预算不足的研究者可利用仿真环境或低成本硬件如so-100进行实验[1] - 四足机器人和人形机器人更适合强化学习方向,而视觉语言动作的研究难度较高[1] 研究方法与支持 - 产生优秀的研究想法对新人研究者至关重要,但往往需要经历多次尝试[1] - 公司提供从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导服务[2] - 辅导服务覆盖中国计算机学会推荐A类到C类国际学术会议以及科学引文索引一区到四区期刊[2] - 导师团队由来自国内外名校的博士及头部企业研究员组成,具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的投稿和审稿经验[2] - 公司提供工业界与学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[3]
创办了一个具身论文复现的交流群
具身智能之心· 2025-11-06 19:47
技术交流平台 - 平台旨在为论文复现提供技术交流服务 解决复现VLA VLN DP等开源项目指标及数据采集的困难 [1] - 平台名称为具身智能之心 目标是为用户创造交流平台 分享经验以减少踩坑 [1] - 用户可通过添加指定微信账号并备注姓名和复现信息加入技术交流群 [2]
需要撕衣验证?全网都吵疯了!小鹏的人形机器人,是不是真人
具身智能之心· 2025-11-06 13:28
公司战略转型与产品发布 - 小鹏汽车在AI Day 2025上正式宣布从造车公司转型为AI公司 [10] - 公司基于自研的Xpeng VLA 2.0大模型衍生出一整套AI定义的应用 [10] - 最新一代人形机器人IRON的发布引发了广泛讨论 [5][10] IRON机器人技术规格 - 机器人身高约1.78米,体重70公斤,比1X的NEO等机器人更高 [12] - 双手拥有22个自由度,仅比人类少5个,能完成叠衣服、擦桌子等精细任务 [14] - 全身共有65个自由度,具备类人脊柱运动能力,比NEO多出10个 [15] - 由三颗图灵AI芯片驱动,总算力高达2,250 TOPS [25] - 整合了VLT、VLA、VLM三大认知模型,实现视觉感知、语言理解与动作决策一体化 [25] - 使用全固态电池,但容量和续航未公布 [28] 机器人设计与交互 - IRON拥有全新的类人骨骼结构、仿生肌肉系统以及全覆盖柔性皮肤,机械感大幅降低 [11] - 外观可定制男性或女性特征,通过柔性3D网格结构与软质皮肤材料实现拟人身体曲线与触感 [21] - 采用3D打印的蜂窝网格织物,兼具结构强度、柔韧性和温柔触感 [22] - 头部采用3D曲面显示屏作为交互界面,实现更自然的人机交流 [27] 商业化路径与市场展望 - 官方计划于2026年实现IRON量产,但仅限在自有商业场景中使用,如展厅导览员、接待员或销售顾问 [32] - 公司认为人形机器人进入工厂大约需要3-5年,家庭普及约需5-10年 [33] - 明年将在全球小鹏展厅部署IRON作为门店员工 [34] - 公司将推出IRON SDK,开放开发接口,并与宝钢集团等大型企业合作 [34] 研发历史与性能表现 - 小鹏在机器人领域已深耕7年,从四足形态进化至完全类人阶段 [11] - 新一代IRON行走更稳、更自然,非预编程也非远程操控 [11] - 机器人具备背后运动小脑,运控实力不俗 [17]
小鹏AI Day昨日发布 | 颜值、算法、算力均拉满!“IRON:最拟人的人形机器人来了?!”
具身智能之心· 2025-11-06 11:27
内部机械感也是十足! 整体面部还是3D曲面大屏,没有仿生脸,看着还不算"恐怖"。 作者丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 就在昨天,小鹏发布全新一代人形机器人IRON,是一个面向真实世界场景、易泛化、数据容易获取 的平台。 IRON配置如何? 1)电池 首个全固态电池,重量降低30%,续航提升30%; 2)芯片 站、坐、蹲、躺、爬样样精通,柔软材料作为皮肤,仿人类。当机器人拥有了类人的骨骼、肌肉、 皮肤,想想空间会大很多。 单手22个自由度,灵巧手也非常给力。 小鹏的人形机器人布局 小鹏在发展自驾的同时,也一直在布局机器人场景,期望能够建立"车-Robotaxi-人形机器人"的生 态。在2024年的时候,IRON就已经亮相,今年则是全新一代。 搭载3颗图灵AI芯片,2250TFLOPs算力; 3)物理世界大模型 VLT+VLA+VLM高阶大小脑能力组合! 小鹏定于2026年实现量产,重点突破家居、工业场景。 更多内容 更多产业信息,欢迎加入具身智能之心知识星球获取,国内最大的具身全栈社区,和近2000名同 学,200家具身公司与机构一 ...
都在研究具身,但相当一部分同学卡在了这些地方.......
具身智能之心· 2025-11-06 08:03
老学员续费优惠也来了! 都在研究具身,但相当一部分同学卡在了这些地方....... 昨晚开了一个小范围的线上会,和大家唠了一会儿近期的状态。一些同学能抓到关键的部分,跟着社区里 面的路线进步较快。即使用低成本的硬件方案,也能做出不错的效果,有的同学甚至已经把act和pi0部署上 去了。 但还有相当多的同学卡住了,比如算力的问题,数据采集的问题,还有模型优化、项目实战的问题等。关 于算力,前面分享过很多轻量化的方法,也能做出不错的性能,甚至SOTA,这能够适配一些算力不足的同 学。 数据采集部分,建议大家先从基础的遥操作尝试,重点关注数据的质量,噪声数据,可能导致模型训不出 效果,特别是大多数数据都是噪声数据。数据量不够,可以尝试real2sim2real系列方法。 模型优化部分,对一些使用机械臂的同学,可以尝试RL+VLA方案,但人形和自由度多的本体,建议不要 轻易入坑,效果难做出。关于一些好的开源项目,已经汇总到社区内部,大家可以照着教程复现。 以上为我们的具身社区: 具身智能之心知识星球 的分享,也欢迎更多需要入门进阶的同学加入我们的社 区。近一年的搭建,社区内已经完成了技术路线分享、直播、问答、求职、赛 ...
智源具身框架Thor开源:迈向类人级全身控制,在强对抗中“站稳脚跟”
具身智能之心· 2025-11-06 08:03
文章核心观点 - 智源研究院联合北京理工大学提出名为BAAI Thor的具身智能框架,旨在解决人形机器人在高强度、接触丰富的环境中实现类人级全身协同反应与控制的关键技术瓶颈 [6][7][8] - 该框架通过结合生物力学控制原理与创新的解耦式网络结构,使机器人能自主学习人类在物理对抗中的全身协调策略,显著提升了在真实复杂环境中的作业潜力与动态稳定能力 [8][12][13] - 实验验证显示,搭载Thor框架的宇树G1机器人能拉动重约1400kg的汽车,并在多项力交互任务中性能显著优于基线算法,峰值拉力达到167.7N,约为机器人自重的48%,较最佳基线算法性能提升68.9% [18][26] 人形机器人全身控制的技术挑战 - 类人反应机制缺失:现有控制策略多通过增大关节力矩刚性对抗外力,易导致关节输出饱和、姿态不稳,且依赖精确动力学模型或外力传感器,限制了在非结构化环境中的自适应交互能力 [9] - 高维协调控制复杂性:人形机器人具有高维状态空间(数十个自由度关节角度、速度、IMU等构成数百至上千维状态向量)、高维动作空间(数十维连续动作空间)以及高维动力学耦合(各关节强耦合的非线性系统),导致强化学习采样稀疏、优化难度大、学习复杂度急剧上升 [10] BAAI Thor框架的核心技术创新 - 力自适应躯干倾斜奖励(FAT2):基于考虑外部作用力的零力矩点(ZMP)准则,引导机器人学习通过自适应倾斜身体调整质心位置的类人姿态策略,以增强末端执行器有效作用力,胜任高强度力交互任务 [13] - 解耦式网络结构:将全身控制器分解为上半身、腰部、下半身三个独立的Actor-Critic模块,共享全身观测输入但独立输出控制指令并同步更新,通过降低单一策略网络优化复杂度应对高维动作空间挑战 [17] - 消融实验表明FAT2奖励函数是提升力交互能力的核心驱动力,贡献约80%-90%的性能增益,而解耦式网络结构则确保核心能力在极限条件下的稳定发挥 [30] 实验验证与性能表现 - 在真实物理交互任务中,搭载Thor的宇树G1机器人(重约35kg)成功拉动重约1400kg的汽车,展示了极限负载下的全身协调与动态平衡能力 [18] - 在单手开启消防门(需约60N稳定拉力)、拖拽约85kg轮式吊架、擦拭白板等持续接触任务中表现出卓越的泛化能力与鲁棒性 [20][22][27] - 定量分析显示Thor在双手向后拉动任务中实现167.7N峰值拉力,较最佳基线算法性能提升68.9%,且躯干倾斜角度与所受拉力正相关,验证了类人自适应姿态调节策略的有效性 [25][26] 行业应用前景与意义 - 该技术突破使人形机器人能从“表演者”转变为“劳动者”,在家庭陪护、工业装卸、应急救援等需高强度、不可预测物理交互的场景中替代人类成为可能 [7][31] - 通过生物力学原理与强化学习的深度融合,为机器人全身智能控制开辟新路径,推动具身智能在工业、服务业、特种作业等更广泛场景中的演进与落地 [31]
北大&智源研究院最新!RoboOS-NeXT:“记忆 + 分层架构” 实现通用多机器人协作
具身智能之心· 2025-11-06 08:03
文章核心观点 - RoboOS-NeXT 提出了一种创新的多机器人协作框架,通过“时空-实体统一记忆(STEM)”和“大脑-小脑分层架构”,解决了现有方案在终身适应性、协作扩展性和调度鲁棒性方面的核心缺陷 [1] - 该框架实现了跨任务、跨机器人、跨环境的全能协作,在餐厅、超市、家庭等场景中表现出色,为多机器人协作技术的产业化提供了新范本 [1][26] 现有方案困境 - 端到端视觉-语言-动作模型依赖大规模数据集,新场景或新机器人泛化能力差,且无长期记忆,无法复用历史经验 [2] - 分层控制框架以单机器人为中心,异构团队协作效率低,策略与机器人形态强绑定,更换设备需重新调试 [2] - 传统多机器人协作方案仅适配同构机器人与结构化环境,动态场景适应性差,缺乏高层语义推理与低层执行的衔接 [2] RoboOS-NeXT 核心设计 - 系统核心是时空-实体统一记忆,整合了空间场景几何、时间事件历史和机器人实体属性三大维度信息,为所有机器人提供统一信息接口 [6] - 采用大脑-小脑分层架构,大脑模型负责全局任务分解与规划,小脑模型负责局部执行与容错,形成规划-执行-记忆更新的闭环 [9] STEM统一记忆组件 - 空间记忆采用树形场景与图结构物体的分层设计,通过场景树与SLAM地图对齐以及物体关系图更新,精准描述全局场景与局部物体关系 [6] - 时间记忆是一个仅追加、按时间排序的事件队列,为长序列任务提供历史上下文,避免重复操作 [7] - 实体记忆为每个机器人建立能力-状态档案,实时同步机器人位置、技能库、资源状态等信息,确保任务分配时选对机器人、用对技能 [8] 系统执行流程 - 任务分解阶段通过检索增强生成从STEM中提取场景信息、历史反馈和机器人状态,生成结构化任务流图 [10][12] - 动态调度阶段实时监控任务进度与机器人状态,若某机器人离线,立即从STEM查询空闲且有对应技能的机器人重新分配任务 [10] - 分布式子任务执行阶段每个机器人代理调用小脑技能库工具,结合STEM记忆动态调整动作 [12] - 动态记忆更新阶段机器人执行动作时实时更新STEM的空间、时间、实体记忆,为后续任务提供最新信息 [12] 实验性能表现 - 在终身适应性测试中,RoboOS-NeXT在长序列任务下保持75%以上成功率,而无记忆基线完全失效,证明记忆能维持长期任务能力 [13] - 复杂任务执行步数比基线降低20%-70%,例如家庭中等难度任务从41.4步降至15.5步,效率提升61% [13][17] - 协作扩展性测试显示,同构机器人从1个增至5个时,任务平均执行步数从34.8步降至8.5步,降低76%,每步成功率从2.20%/步升至8.20%/步,提升373% [14][18] - 在故障场景下,系统表现出强容错能力,如机器人离线时任务成功率仅从81.6%降至87.6%,而基线降至44.5% [19] 技术优势与价值 - 统一记忆是协作的基石,STEM整合空间-时间-实体信息,彻底打破单机器人的信息壁垒,为终身适应、弹性协作、鲁棒调度提供数据支撑 [23] - 分层架构平衡全局与局部规划,大脑模型确保任务分解合理,小脑模型确保动作精准容错,实现规划-执行-记忆的闭环 [23] - 鲁棒性源于记忆与动态调度结合,通过STEM实时同步状态,大脑模型动态调整任务分配,快速应对机器人离线、工具失效等故障 [23]
多任务、全场景、跨本体通用移动:银河通用发布环视导航基座大模型
具身智能之心· 2025-11-06 08:03
核心观点 - 公司联合多所高校发布全球首个跨本体全域环视导航基座大模型NavFoM,实现导航技术从碎片化任务模型到统一智能基座的跨越 [3][8][9] - 该模型通过统一范式、多任务支持、跨本体适配等创新,使机器人具备自主感知与决策能力,推动具身智能规模化商业落地 [9][11][29] - 基于NavFoM衍生的应用模型矩阵已在复杂场景中验证实效,标志公司完成从单一功能创新到智能基础设施建设的升级 [27][28][30] 技术架构创新 - 提出TVI Tokens机制,为视觉数据添加时间与视角标记,使模型理解空间连续变化并兼容多类视觉输入方式 [14] - 采用BATS策略动态采样关键帧,在7B参数规模下实现毫秒级响应,兼顾算力限制与决策精度 [17] - 构建1,200万条跨任务数据集(800万条导航数据+400万条问答数据),训练量达以往工作的两倍,覆盖多机器人形态与场景 [21][23] 性能与泛化能力 - 在VLN-CE、HM3D-OVON、NavSim等国际基准中达到或刷新SOTA水平,展现零样本导航与跨任务泛化能力 [25] - 实测支持四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划等任务,无需微调即可直接部署 [25] 应用模型衍生 - TrackVLA++实现30分钟以上稳定长程跟随,适应室内外多地形复杂路况 [27] - MM-Nav突破360°厘米级纯视觉避障,解决玻璃、细线等传统方案难以处理的极限场景 [28] - UrbanVLA与第三方地图软件打通,实现街道、天桥等室外环境自主路径规划,复杂度超越汽车自动驾驶 [30]