具身智能之心
搜索文档
复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]
超越π0.5,MiVLA通过人机相互模仿预训练,破解 VLA 模型泛化与数据瓶颈
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由同济大学、电子科技大学等团队提出的MiVLA模型,通过“人机相互模仿预训练”范式,首次实现了无需真实机器人数据,仅融合模拟机器人数据与人类视频数据进行训练,就能在机器人视觉-语言-动作模型领域取得超越现有顶尖模型的泛化能力,为通用机器人策略学习提供了低成本、高可扩展的新路径 [2][19] 当前VLA模型训练的困境与MiVLA的解决方案 - 当前VLA模型训练面临双重困境:依赖真实机器人数据受限于高昂的采集成本、有限的场景与机器人形态覆盖,导致数据规模难以扩大;依赖单一模拟数据或人类数据则分别受限于“模拟-现实鸿沟”和人机形态差异导致的动作知识迁移难题 [3] - 现有方案无法同时解决“数据稀缺”与“跨模态迁移”的核心矛盾,而优质的VLA预训练需要“数据规模、行为保真、跨模态适配”三者的统一 [3] - MiVLA模型通过“人机双向动作映射消除形态鸿沟,相互模仿预训练融合双源数据优势”,构建了兼顾通用性与实用性的VLA模型 [3] MiVLA模型的核心设计特性 - **核心特性1:双向人机动作空间映射**:通过选取人类拇指指节姿态与机器人末端执行器姿态作为核心参考点,结合逆运动学或解剖学先验,实现人类与机器人动作坐标系的双向精准转换,并将人机专属关节空间与通用末端执行器空间统一对齐 [7] - **核心特性2:人机相互模仿预训练**:采用“预测-模仿”双任务预训练范式,模型从单一模态数据中学习双模态动作知识,利用L2损失函数同时优化“模态内动作预测”与“跨模态动作模仿”,实现了模拟机器人数据的操控多样性与人类视频数据的行为保真度的优势互补 [8][9] - **核心特性3:扩散Transformer架构**:采用“多模态编码器+扩散解码器”的统一架构,通过流匹配迭代去噪生成连续动作序列,兼顾多模态信息融合与连续动作生成精度,支持长序列任务的精准控制 [8] - **核心特性4:轻量化高效训练**:预训练仅需4块A100 GPU,批量大小为128,使用约900小时混合数据(模拟机器人+人类视频)的训练效果,即可比肩需要10000+小时真实机器人数据训练的π系列模型 [8][9] 关键实验结果 - **模拟环境性能领先**:在RoboTwin-2.0基准的20项代表性任务中,MiVLA在Easy模式下的平均成功率为69%,在Hard模式(含域随机化)下为66%,大幅超越ACT、H-RDT等基线模型 [9][10] - **真实机器人跨形态泛化能力突出**:在3类异构机器人(单臂PiPER、单臂ARX-5、双足+双臂LocoMan)的真实任务测试中,MiVLA以中等规模混合数据实现了平均55%的成功率,比肩使用大规模真实数据预训练的基线模型 [11][13] - **对未知形态的适配性**:在双足+双臂复合机器人LocoMan上,MiVLA成功完成了长序列双臂协同任务,而所有基线模型均未见过此全新架构,证明了其强大的跨模态泛化能力 [13] - **数据效率与泛化能力**:仅需20条演示数据,MiVLA即可实现对未知位置、物体的有效适配,全量训练后平均泛化成功率达54% [15][17] 核心组件有效性与未来方向 - **消融实验验证核心组件**:实验表明,完整的人机相互模仿预训练是性能提升的关键,仅使用人类数据预训练或单向模仿,性能均不及双向模仿的完整模型 [14] - **未来优化方向**:计划融合视觉语言模型的语义推理能力以提升对抽象指令和未知物体的适配性;扩展融入触觉、声音等多模态数据以强化复杂物理交互的控制精度;扩大数据覆盖范围至高精度灵巧任务及更多人形机器人形态,以提升通用化水平 [18]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]
这个近3000人的具身社区近期又分享了很多内容~
具身智能之心· 2025-12-22 09:22
行业动态与趋势 - 融资方面,下半年本体零部件公司融资金额增大、公司数量增多,除明星公司外,许多创业公司带着订单来融资 [2] - 量产方面,多家公司试点逐步推进,头部人形机器人开始探索工业级产品的部署 [2] - 产品设计方面,机械臂产品逐渐收敛,移动操作和人形机器人在结构和尺寸上持续创新,各公司均在压低成本,供应链管理能力成为后期关键竞争力 [2] - 模型泛化方面,基于强化学习的优化思路使模型泛化能力增强,相关工具箱完善,真机部署逐渐便利 [3] - 部署方面,地瓜机器人推出S600助力边缘侧部署,Thor开始应用于人形机器人和移动操作,2000T以上算力逐渐成为参考配置 [4] 社区资源与活动 - 社区提供持续的直播分享,包括圆桌论坛,内容涵盖本体、数据、算法,探讨行业动态与待解决问题 [8][9] - 社区整理了完整的技术路线,为入门者提供技术栈和学习路径 [13] - 社区为已从事相关研究的成员提供有价值的产业体系和项目方案 [15][16] - 社区与多家具身公司建立岗位内推机制,可第一时间将简历送达目标公司 [18] - 社区邀请了数十位活跃在一线产业界和工业界的具身领域嘉宾,可为成员答疑解惑 [18] - 社区汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台以及各类技术学习路线 [19] - 社区汇总了具身智能多个研究方向的国内外知名实验室,供成员读研、申博、博后参考 [21][22] - 社区汇总了国内外各类具身相关机器人公司,涉及教育、宠物、工业、救援、物流、交互、医疗等方向 [24] - 社区汇总了大模型、人形机器人等行业相关的研报,帮助了解行业发展与工业落地情况 [25] - 社区汇总了机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍 [27][28] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [29] - 社区汇总了机器人仿真、抓取、控制、具身交互、感知等多个领域的开源项目 [30] - 社区汇总了国内外知名ToF厂家、相关产品、技术手册、综述等内容 [31] - 社区汇总了遥操方案、动作捕捉、AR等数据采集方案,以及具身感知、触觉感知、导航、大模型等多个领域的开源数据集 [32][34] - 社区汇总了通用机器人仿真平台和真实场景仿真平台 [35] - 社区汇总了基于LLM的强化学习、可解释强化学习、深度强化学习主流方案,以及VLA+RL相关工作 [35][46] - 社区针对主动视觉感知、3D视觉感知定位、视觉语言导航、触觉感知等多个任务进行了汇总 [36] - 社区汇总了具身智能与环境交互相关工作,涉及抓取、检测、视觉语言模型、具身问答等 [38][39] - 社区针对视觉语言导航、规划等应用内容进行了详细汇总,关注自动驾驶与机器人应用 [41] - 社区汇总了触觉感知最新综述、传感器应用、多模态算法集成、数据集等内容 [42] - 社区汇总了大量多模态大模型理解相关内容,包括Image/Video/Audio/3D+Text到Text等 [43] - 社区汇总了大量多模态大模型生成相关内容,包括Image/Video/Audio+Text到Image/Video/Audio+Text等 [44] - 社区汇总了扩散模型设计、Diffusion Policy具体任务应用、Diffusion Generation等内容 [47] - 社区针对大模型部署框架、轻量化方法进行了汇总 [48] - 社区针对机械臂抓取、任务数据表示、位姿估计、策略学习多个部分展开了汇总 [50] - 社区对开源的双足与四足机器人项目、仿真、源码、硬件等部分进行了详细汇总 [50] - 社区针对移动+执行硬件方案进行了汇总 [51] 社区概况与成员 - 社区是国内首个具身全栈社区,旨在提供技术交流平台,交流学术和工程问题 [18] - 社区成员近3000名,来自国内外知名高校实验室和具身相关机器人头部公司 [18][56] - 高校和科研机构成员包括斯坦福大学、加州大学、清华大学、西湖大学、上海交大、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学等 [18] - 公司成员包括智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用、星尘智能、逐际动力等 [18] - 社区与近200家具身公司与机构有交流 [56]
和我们一起创造价值!具身智能之心招募编辑、运营和销售的同学啦(实习 or 全职)
具身智能之心· 2025-12-21 18:05
公司业务与平台定位 - 公司运营一个名为“具身智能之心”的技术创作平台 专注于具身智能领域 [2] - 平台核心业务是为行业输出前沿技术、课程、行业概况、融资、产品、政策等内容 [2] - 平台目前正处于业务上升期 正在招募新成员以共同创造价值 [2] 人才招聘需求 - 公司正在面向粉丝招募编辑、运营、销售岗位 提供全职和实习机会 [2] - 编辑岗位负责公众号内容创作与编辑 要求具备专业基础和内容创作经验 [2] - 销售岗位负责课程、硬件等产品的销售推广 要求具备销售基础并了解具身用户需求与市场 [3] - 运营岗位负责公众号、小红书、社群运营以提升粉丝粘性和关注度 要求具备运营能力并了解自媒体平台玩法 [4] - 实习岗位中除编辑岗外均要求线下办公 [2]
机器人学习现状!Physical Intelligence内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-21 00:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流技术栈是基于人类专家演示的纯粹行为克隆系统,但其存在分布外状态、误差累积、速度上限等固有局限 [5] - 为提升行为克隆策略的鲁棒性,行业普遍采用DAgger风格的方法,通过迭代收集失败恢复数据来修正策略,但该过程高度依赖人工、耗时且难以规模化 [26][29][31] - 强化学习被视为实现机器人自我改进的理想路径,但由于无法像大语言模型那样从同一状态无限探索,且缺乏强大的基础策略,在真实机器人应用中尚未成功 [40][41][54] - 未来突破的关键在于发展能够高质量模拟通用开放世界交互的“世界模型”,并结合专家示范与真实机器人运行数据,以实现超人性能 [58][73] 现代机器人学习技术栈剖析 - **数据收集方案**:主要依赖三种方式获取人类演示数据 [7] - **主从控制方案**:如GELLO、ALOHA,使用控制器直接远程操控机器人,数据运动学可行但采集速度比人类徒手慢可达10倍,且规模化成本高 [8][9][10] - **智能演示手套**:如通用操作接口,人类手持设备完成任务,通过SLAM和逆运动学重建状态与动作,部署成本更低但会引入严重的域差距和运动学可行性问题 [11][12][18] - **直接人类示范**:利用YouTube或工厂工人佩戴摄像头记录的数据,规模巨大且多样,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行 [12][13][19] 行为克隆系统的核心挑战与应对 - **根本难题**:行为克隆策略在执行时会因环境微小变化、任务不确定性及动作预测误差的递归累积而逐渐偏离,进入训练分布之外的状态 [16][17][23] - **关键应对方法**:采用DAgger方法,通过迭代收集策略在失败状态下的恢复数据,并将这些数据纳入训练,以将策略“拉回”到已知分布 [25][26] - **DAgger的实施痛点**: - 是一个高度迭代、依赖人工判断的繁琐过程,需要与各种失败模式“打地鼠” [29][31] - 通常在预训练好的基础策略上进行,但更新基础模型会清空之前迭代形成的“手感” [32] - 随着策略变鲁棒,评估其性能所需的时间急剧增加,离线指标与真实性能相关性弱 [33][34] 当前技术的能力边界与尝试 - **速度瓶颈**:行为克隆策略的最理想执行速度无法超过人类示范本身,尝试对速度进行条件化建模或高频执行均效果有限或带来新问题 [36][37][47] - **强化学习的应用困境**: - **与大语言模型的差异**:机器人无法从同一物理状态无限次执行探索,也缺乏一个非零成功率的基础策略,使得在线强化学习不可行 [45][46][54] - **仿真中的强化学习**:受限于仿真器与真实世界的巨大差距,除运动控制等特定任务外,在操作任务中收效有限 [56][57] - **真实世界中的强化学习**:核心障碍是无法回答反事实问题,即比较同一状态下不同动作的后果,需要依赖难以学习的Q/V函数或世界模型来“想象” [63][65][70] - **近期进展示例**:Physical Intelligence发布的pi*0.6方法使用优势加权回归变体,相比纯行为克隆仅有小幅提升,且许多任务仍依赖人工DAgger数据 [71] 对未来发展的预测与行业建议 - **技术发展预测**: - 2年内:视觉语言动作模型将被视频模型骨干取代 [73] - 10年内:世界模型将能很好模拟通用开放世界交互,策略可通过在世界模型中“抽取”获得 [73] - 接近专家级的示范数据对微调世界模型仍至关重要,但实现超人性能仍需真实机器人运行数据 [73] - **创业与商业建议**: - 构建能有效降低痛点的软硬件一体人类示范系统是可靠且有价值的路径 [74] - 数据标注是高度商品化的人力成本套利业务,预训练数据售卖需证明能提升模型性能,且并非所有机器人数据都有用 [75] - 评估是模型改进的关键闭环,必须在公司内部完成,无法外包 [73] - 在具身AGI领域,不可能存在通用的“一统天下”的数据平台 [73]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
具身智能之心· 2025-12-21 00:03
文章核心观点 - 一项由多所高校及研究机构合作的研究表明,强化学习能够有效提升文本到3D生成模型的质量与推理能力,研究通过系统性探索,提出了新的奖励设计方法、算法范式和评测基准,并实现了首个RL加持的自回归3D生成模型AR3D-R1 [4][5][18] 奖励设计 - 研究发现,对齐人类偏好信号是提升整体3D质量的关键,其他奖励维度单独使用提升有限,但叠加到偏好奖励上能持续带来增益 [10] - 对于同一奖励维度,专门化的奖励模型通常比大型多模态模型表现出更强的鲁棒性,但通用多模态模型在3D相关属性上出乎意料地鲁棒,为低成本奖励提供了可能 [10] 算法适配与训练 - 在3D自回归生成中,强化学习更偏好token级策略而非序列级操作,在相同奖励模型配置下,token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法 [11] - 简单的技巧即可稳定训练,尤其是动态采样,只要策略更新受控,完全移除KL惩罚会导致性能下降,而鼓励对低概率token探索的方法仍能带来性能增益 [12] - 扩大量级的训练数据能够有效缓解偏好奖励带来的偏差并提升整体表现,适度增加RL迭代能进一步优化模型,但过度训练可能损害泛化能力 [13] 评测基准 - 研究构建了首个针对3D推理场景的系统评测基准MME-3DR,该基准由空间与结构几何、机械可供性与物理合理性、生物或有机形态、长尾稀有实体和风格化或抽象形态五类组成 [15] - MME-3DR更关注在困难约束下是否还能保持一致、合理、可解释,而非只展示多样性 [16] - 近期Text-to-3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足,而RL训练在所有五类任务上都带来了显著提升 [16] - MME-3DR能同时评估隐式推理与通用3D生成能力,在随机采样的Toys4K测试集上,Trellis模型明显优于ShapeLLM-Omni,这一性能差距在MME-3DR中依然保持 [16] 强化学习范式与模型 - 研究将3D生成视为从粗到细的过程:第一步由高层语义决定整体几何骨架,第二步在几何稳定的前提下细化纹理与局部结构 [18] - 基于此,研究提出了层次化RL范式Hi-GRPO,并对两个步骤单独设计专有奖励模型进行监督 [18] - 研究实现了首个RL加持的Text-to-3D自回归模型AR3D-R1 [18] 关键发现与影响 - RL训练不仅提升美观度,更增强了模型的隐式3D推理能力,在MME-3DR基准上,模型在空间几何、一致性和物理可行性等维度均有显著提升 [19] - 尊重“先几何、后纹理”的层次结构设计比简单在最终图像上打分更有效,也更可解释 [20] - 奖励过于稀疏或RL迭代数过大会导致训练不稳定和模式坍缩,而高质量人类偏好或强多模态奖励能在同等训练预算下取得更高回报 [21] - 当前模型对极复杂几何、长尾概念和强风格化场景的处理能力仍有边界,真正可扩展的3D RL仍受限于算力与奖励获取成本 [22]
VLA工作正在呈现爆发式增长.......
具身智能之心· 2025-12-21 00:03
行业趋势与VLA技术发展现状 - 视觉语言动作模型领域正经历爆发式增长 新算法和框架不断涌现 推动模型性能更加泛化 [2] - 开源数据规模已达百万级 数据采集设备日益多元化 行业评测标准逐渐统一 预示着产业化进程可能加速 [2] - VLA作为核心模块 其应用场景将不断扩展 吸引更多下游合作伙伴和优秀人才加入 [2] VLA技术落地面临的挑战与痛点 - VLA模型调试难度大 数据采集过程复杂且耗时 成为从业者普遍面临的难题 [3][5] - 具身智能领域高度依赖硬件本体 仅依靠论文和仿真难以评估真实性能 导致学习与实践存在鸿沟 [4] - 真实数据采集依赖遥操、VR、动捕等方式 但采集的数据质量不佳 而仿真数据又存在泛化性问题 形成数据困境 [5] - 从数据采集、模型训练优化到部署的全流程打通 对初学者而言极为困难 许多人长期无法有效入门 [10] - 部分先进模型如π0、π0.5、GR00T 在数据采集和模型训练中存在大量未公开的技巧 增加了应用门槛 [11] VLA技术落地的关键模块 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕 以及强化学习 如何获取高质量数据及实现real2sim2real是关键 [13] - **模型训练**:在真机数据不足时 仿真和sim2real技术至关重要 训练技巧直接影响效果 不同算法难度差异大 [14] - **模型部署**:大参数量模型对边缘部署构成挑战 需通过量化、蒸馏等轻量化技术压缩模型 以平衡性能与资源消耗 [15] 行业解决方案与生态建设 - 开源技术框架如LeRobot为入门学习提供了支持 近两年涌现出ACT、OpenVLA、π系列等多种新方法 性能持续提升 [7] - 开源机器人本体日益丰富 如SO-100机械臂、openarm双臂操作平台、XLeRobot移动操作平台 支持多样化研究需求 [7] - 行业内出现了面向实战的培训课程 旨在系统化解决学习难题 内容涵盖硬件、算法、仿真、部署及产业认知 [17][20]
破解具身仿真瓶颈!地瓜机器人一键生成高保真3D桌面场景!
具身智能之心· 2025-12-21 00:03
编辑丨 RoboX 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 近年来,具身智能提出了新的仿真数据需求——既要求3D场景不仅要具有照片级的真实感,还要求场景中的每个实例都能在物理层面上进行交 互,以支持在仿真环境中训练机器人策略。 在这其中,核心的桌面场景(Tabletops)是此类环境的「最后一步」,也是大多数精细交互和复杂机器人操作任务的基础舞台。 因此,自动化、大规模地生成高保真、可交互的桌面场景,对于推进具身操作策略学习至关重要。 在此背景下,地瓜机器人联合中国科学院大学、地平线、 中科院自动化所等发布了今年的关键研发成果—— TabletopGen :一个统一的、无 需训练的桌面场景生成框架。 3D仿仍存严重不足 据介绍,现有的仿真方法仍存在严重不足: 1、文本驱动方法的局限性 : 例如Holodeck[1],它利用大语言模型(LLM)直接生成 3D 布局,或者通过生成场景图或空间约束,再进行 布局可行性的优化。 然而,这两类路径通常都只是从固 ...
首创ACE具身研发范式,大晓机器人构建具身智能开放新生态
具身智能之心· 2025-12-20 09:02
公司发布与核心观点 - 大晓机器人于12月18日正式发布行业首创的ACE具身研发范式、首个开源且商业应用的开悟世界模型3.0(Kairos 3.0)、以及具身超级大脑模组A1 [1] - 公司旨在通过突破性技术创新,推动机器人自主理解和探索物理世界,加速具身智能的商业化场景落地 [33] - 公司定位为生态共建者,通过与产业链伙伴合作,共同构建全链自主可控、开放共赢的产业级生态体系 [1][34] 公司核心团队 - 董事长由商汤科技联合创始人、执行董事王晓刚出任 [3][33] - 首席科学家由澳大利亚科学院院士、IEEE计算机学会技术成就奖获得者陶大程担任,其曾任京东探索研究院创始院长、优必选人工智能首席科学家 [5][33] - 公司汇集了来自南洋理工大学、香港大学和香港中文大学等全球稀缺的AI领域前沿科学家,他们是环境智能、世界模型、具身模型领域的开拓者 [6] 行业挑战与研发范式革新 - 当前具身智能领域面临数据量级的断崖式缺口,真机数据量级仅为10万小时,而智能驾驶领域特斯拉FSD V14每日训练量相当于人类驾驶员400万小时(约500年驾驶经验)[7] - 传统“以机器为中心”的研发范式依赖真机遥操,数据采集成本高昂、效率低下,且技能模型严重绑定特定硬件,无法通用 [8] - 纯视觉学习方案(如特斯拉、Figure AI探索的路径)缺乏对三维物理世界力学规律的理解,存在“现实鸿沟” [8] - 大晓机器人提出“以人为中心”的ACE具身研发范式,将人类与物理世界的互动规律作为核心起点,通过环境式数据采集一年可实现千万小时的数据收集 [12] ACE范式核心技术:环境式数据采集 - 该技术通过跨视角多模态设备,融合视觉、触觉、语音、力学规律等多维度数据,为模型训练提供“人—物—场”全要素精准数据支撑 [14] - 实现四大核心数据价值:1) 数据维度更全面,完成超10个视角、8种模态、4大类物品属性的多模态数据升级;2) 任务覆盖更长程,支撑分钟级、数百种原子动作的复杂任务;3) 交互精度达亚像素级;4) 采集效率可实现从十万小时到千万小时的海量数据积累 [16] - 在即时零售仓储场景中,已实现多视角数据采集,覆盖数万种SKU,完成涵盖五大阶段13个原子动作的全流程 [16] 核心产品:开悟世界模型3.0 - 这是首个开源且商业化应用的“多模态理解—生成—预测”世界模型,于12月18日面向全行业开源 [16][23] - 模型通过视觉、3D轨迹、触觉、摩擦力等多维度信息输入,深度理解真实世界的物理规律与人类行为逻辑 [18] - 模型可生成长时动态交互场景视频,并具备跨本体一键生成、多本体泛化、预测演化路径等特性,提供高保真、可泛化的虚拟训练环境 [20] - 基于模型打造的开悟具身智能世界模型产品平台,内置支持11大类、54细类,累计328个标签,覆盖115个垂类具身场景,大幅降低开发门槛 [22] - 开悟世界模型3.0已与沐曦股份、壁仞科技、中科曙光等多款国产芯片完成适配,极大提升了芯片性能 [23] 核心产品:具身超级大脑模组A1 - 该模组基于领先的纯视觉无图端到端VLA模型,使机器狗无需预采高精地图即可适应复杂、动态、陌生环境,实现自主路径规划 [25] - 具备云端交互能力,能实时解析自然语言指令与图像语义的意图关系,生成可执行的中间指令,使机器狗能根据自然语言指令精准完成任务 [27] - 结合Insta360全景感知与商汤方舟通用视觉平台,构建的环境感知体系可覆盖超10个行业,实现超150个智能化应用场景适配 [27] - 在安防、能源、交通、文旅等高可靠性要求场景中,可实现长期稳定工作,具备产业一线实用价值 [29] 生态合作与产业布局 - 在具身本体领域,公司与智元机器人、银河通用、钛虎机器人、国地中心等多家头部企业达成合作,打通新技术范式、世界模型与机器人硬件的适配链路 [30] - 在芯片领域,与沐曦、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产厂商芯片完成适配 [32] - 在硬件领域,与Insta360、卧龙电驱、帕西尼等伙伴深度绑定,强化信息采集能力 [32] - 在云服务与数据层面,联合商汤大装置、腾讯云、火山引擎、算丰信息等平台构建全流程支持体系,并依托库帕思、中建西南院的数据资源优化模型泛化能力 [32]