具身智能之心
搜索文档
ICCV 2025 Highlight | 大规模具身仿真平台UnrealZoo
具身智能之心· 2025-11-13 10:05
文章核心观点 - 联合研究团队发布了名为UnrealZoo的高保真具身智能仿真平台,旨在通过提供大规模、多样化的近真实虚拟环境,解决当前具身智能研究在环境复杂性和智能体泛化能力方面的短板 [1][2][8] - 该平台基于虚幻引擎构建,包含超过100个高质量3D场景和66个可交互实体,并提供了优化的编程接口,以支持算法验证、数据合成和智能体训练等多种研究需求 [5][13][16] - 平台相关论文已被ICCV 2025接收并入选Highlight Award,占录用论文总数的10% [2] 平台核心特性与优势 - UnrealZoo收录了100余个高质量、高逼真、大尺度3D场景,覆盖从室内家居、城市街道到自然景观和大型工业工厂等多种环境,最大场景达16平方公里 [2][15] - 平台内置了7种类型共66个具身实体,包括人类、动物、汽车、无人机、机器人等,各具不同的动作空间和视点 [5][31] - 相较于现有模拟器如Habitat、AI2-THOR等,UnrealZoo在场景多样性、风格覆盖(古代、现代、科幻、东方、西方等)和智能体形态多变性方面具有明显优势 [11] 技术创新与系统优化 - 平台对开源工具UnrealCV进行了优化,推出UnrealCV+,显著提升了通信效率和渲染性能,例如物体掩码捕获帧率从70 FPS提升至154 FPS(提升120%),深度图捕获从52 FPS提升至97 FPS(提升86%) [48][53] - 提供了易于使用的Python API和Gym接口,支持环境增强、演示收集和分布式训练/测试,降低了使用门槛 [5][48] - 智能体运动系统基于Smart Locomotion,支持跑、跳、攀爬等复杂三维空间探索;导航系统基于NavMesh,支持自主路径规划和避障 [36][38][39] 实验验证与应用潜力 - 在视觉导航任务中,实验揭示了当前智能体(包括基于RL和GPT-4o的模型)在复杂开放3D世界中面临巨大挑战,与人类玩家表现存在显著差距 [56][60] - 在主动视觉跟踪任务中,实验表明,随着训练环境数量从1个增加到8个,智能体的泛化能力显著提升,尤其是在野外环境中成功率提高明显 [64][68] - 研究同时发现,高控制频率(如30 FPS)对智能体在动态环境中的性能至关重要,当频率低于10 FPS时性能会显著下降 [70] 行业意义与发展方向 - UnrealZoo填补了现有具身智能模拟器在开放世界复杂性和多变性方面的空白,为智能体从虚拟世界走向现实世界的广泛应用奠定了基础 [7][8][72] - 平台的开放下载(通过Modelscope)有助于推动整个具身智能行业在导航、主动追踪、社会交互等任务上的研究进程 [5][9] - 未来的工作将继续丰富虚拟世界的场景、实体和交互任务,以进一步提升智能体的空间感知和泛化能力 [72]
首款人形机器人,摔了个“狗啃泥”
具身智能之心· 2025-11-12 17:30
点击下方 卡片 ,关注" 具身智能 之心 "公众号 但发布会上却出现非常滑稽的一幕。平衡没控制好,直接摔倒,更有意思的是还搭了一块小黑布hhh,算是 谢幕了。 不得不说,国内的这些厂家的相比于他们还是遥遥领先的,从关注运控到如今的仿人化,逐步在接近具身 的定义。 更多内容 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 当地时间11月10日,在莫斯科举行的一场科技活动上,俄罗斯发布了首款国产人工智能(AI)人形机器 人。 这款名为"艾多尔"(Aidol)的机器人基本采用俄罗斯国产零部件打造,是拟人机器人的先进范例。这款机 器人具备对话、情绪识别及并能够离线工作。所有语音处理均在设备端独立完成。 更多具身产业与学术相关内容,欢迎加入我们的具身智能社区,和近200家具身公司与机构一起交流。 ...
轻量级VLA模型Evo-1:仅凭0.77b参数取得SOTA,解决低成本训练与实时部署
具身智能之心· 2025-11-12 12:00
文章核心观点 - 上海交大、CMU、剑桥大学团队提出轻量级视觉-语言-动作模型Evo-1,该模型仅含0.77b参数,在无需机器人数据预训练的前提下,实现了低成本训练与高效率部署,并在多项基准测试中取得最先进成果 [3] - Evo-1通过创新的交叉调制扩散变换器与优化集成模块构建高效架构,并采用两阶段训练范式,在保持视觉语言模型强大表征能力的同时,显著提升了在机器人操作任务中的性能与泛化能力 [3][5] - 该模型在模拟与真实世界评估中均展现出卓越性能,其低内存占用和高推理频率使其非常适合在消费级GPU上进行实时部署,为轻量高效视觉学习代理模型的研究提供了新方向 [3][6][22] 行业痛点 - 现有视觉-语言-动作模型通常包含数十亿级参数,导致训练与推理阶段GPU内存消耗巨大且计算成本高昂 [4] - 高计算开销导致模型控制频率低下,严重限制了其在交互式机器人任务中的实时响应能力 [4] - 广泛采用的端到端训练范式会退化视觉-语言骨干模型的表征空间,导致下游任务泛化能力差且易过拟合 [4] - 多数模型依赖大规模机器人数据集的长期预训练,而此类数据集的收集过程耗费人力且成本高昂 [4] Evo-1方法及效果 - Evo-1采用统一的视觉-语言骨干模型,该模型在单阶段多模态范式下预训练而成,通过联合学习感知与语言表征实现了强大的多模态理解能力,显著缩减了整体模型规模 [5] - 模型设计了交叉调制扩散变换器来建模连续动作轨迹,实现高效的时间推理以生成连贯运动,同时大幅提高了推理频率,支持实时交互 [5] - 引入优化集成模块,将融合的视觉-语言表征与机器人的本体感知信息对齐,实现多模态特征在后续控制中的无缝整合 [5] - 提出两阶段训练范式,通过逐步对齐感知与控制模块,显著减轻了视觉语言模型语义空间的畸变,使其在无需机器人数据预训练下即展现强泛化能力 [5] 仿真测试结果 - 在Meta-World基准测试上取得80.6%的平均成功率,超越了先前最佳成绩68.2% [6][18] - 在RoboTwin套件上取得37.8%的平均成功率,超越了先前最佳成绩30.9% [6][18] - 在LIBERO测试上达到94.8%的平均成功率,展现出其在单臂与双臂操作任务中的良好适应性 [3][18] - 与基线模型对比显示,Evo-1在多项任务上的成功率均领先,例如在Meta-World的“Hard”和“Very Hard”任务中分别达到77.2%和79.2%的成功率 [19] 真机部署消耗 - Evo-1在真实世界四个典型机器人任务中的整体成功率达到78%,持续超越其他基线模型 [6][20] - 模型仅占用2.3 GB的GPU内存,并达到16.4 Hz的最高推理频率,在效率与性能之间实现了最佳平衡 [22][23] - 与参数量为3.5B的π0模型相比,Evo-1参数量仅为0.77B(约为其四分之一),但成功率(78%)超越了π0模型(73%)[20][23] 方法详解 视觉-语言骨干 - Evo-1采用InternVL3-1B模型作为其视觉语言融合的骨干架构,该模型通过大规模多模态与文本语料库协同学习语言与视觉理解能力,实现了紧密的跨模态对齐 [10] 交叉调制扩散变换器 - 采用条件去噪模块作为动作专家,从视觉-语言骨干生成的多模态嵌入中预测连续控制动作,该模块以扩散变换器形式实现,仅依赖堆叠的交叉注意力层 [11] 集成模块 - 采用基于交叉注意力的集成模块,在对扩散变换器进行条件处理前,有效融合多模态与本体感觉信息,采用特征拼接而非投影的方式处理信息,为动作生成提供全局性上下文 [12] 两阶段训练流程 - 第一阶段冻结整个视觉-语言骨干,仅训练动作专家与集成模块,使动作专家权重逐步与多模态嵌入空间对齐 [13] - 第二阶段解冻视觉语言模型骨干,并对整个架构进行全局微调,实现预训练骨干与动作专家的协同优化,确保更深度的融合 [14] - 该训练流程有效保留了原始语义空间,注意力可视化显示,经过训练后模型仍能保持清晰的语义关注点,而单阶段训练则会导致语义漂移 [14][25]
VLA方向,招募几个辅导的同学~
具身智能之心· 2025-11-12 12:00
公司活动与研究方向 - 公司近期指导多名学生完成论文并已投稿CVPR等会议[1] - 公司正面向全网招募3名视觉语言动作模型方向学生进行论文辅导[1] - 论文辅导主要研究方向包括VLA模型、轻量化、VLA+触觉、VLA+世界模型、VLA+强化学习[1] 业务拓展与联系方式 - 对论文辅导感兴趣的学生可通过联系指定微信账号进行咨询[2] - 联系时需备注特定信息“具身论文辅导咨询”以明确来意[2]
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-11-12 08:03
研究团队与平台 - 实验室为人工智能控制与决策实验室,是深度融合控制论、人工智能、机器人学、高性能计算、大数据等基础科学的学科交叉平台[11] - 团队导师冀晓强教授为香港中文大学(深圳)理工学院助理教授、博士生导师,并担任广东省具身智能机器人工程技术研究中心副主任等职务[10] - 导师在IEEE Transactions on Automatic Control、Automatica等顶尖国际期刊及会议发表论文五十余篇,是非最小相位系统领域学习控制设计的推动者之一[10] 研究方向与内容 - 核心研究方向包括深度学习以及人工智能理论及算法[2] - 研究需要深度融合控制论、人工智能、机器人学、高性能计算、大数据等基础科学,致力于开展人工智能与智能系统领域的基础理论与原创性研究[11] 任职要求与技能 - 博士后及博士研究生申请人需已获得或即将获得国内外知名高校相关专业的博士学位,并在相关领域国际顶级期刊或会议上发表过研究论文[8] - 硕士研究生申请人需已获得或即将获得相关专业的硕士学位或优秀学士学位,并对控制理论、人工智能、机器人学有浓厚科研兴趣及扎实的数学和编程基础[8] - 通用技能要求熟悉CLIP、BLIP、LLaVA等多模态大模型,以及VAE、Transformer、BERT等经典模型,并具备实现与调试能力[3][4] - 加分项包括了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验,或在IJRR、ICRA、IROS、RSS、ICML、NeurIPS等顶会发表论文[6][9] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元(总额不超过42万元),大学提供博士后专项补贴每人每年5万元(总额不超过10万元),合作导师另提供面议薪酬[12] - 符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[12] - 博士生可获全奖/半奖(学费全覆盖并额外提供生活津贴),优秀者可申请学校校长奖学金,金额为税后18万/年[13] - 研究型硕士毕业后有转PhD机会,优秀者可额外获得生活津贴[14]
NVIDIA最新|Isaac Gym 继任者来啦!解决传统仿真在效率、保真度上的痛点(GPU 加速)
具身智能之心· 2025-11-12 08:03
文章核心观点 - Isaac Lab是NVIDIA推出的新一代GPU原生机器人仿真平台,旨在解决传统仿真工具在效率、保真度和扩展性上的痛点 [2] - 该平台通过整合USD场景描述、PhysX物理引擎和RTX渲染三大底层技术,构建了覆盖资产建模、感知仿真、控制执行到数据生成的全链路工具链 [4] - 其核心优势在于GPU全流程加速,支持大规模多模态机器人学习,在locomotion、操作、导航等多个领域已验证其通用性与高效性 [2][38] 新一代机器人仿真框架的需求背景 - 传统机器人研发面临真实场景数据获取难、极端情况测试风险高、算法迭代效率低三大核心问题 [3] - 现有仿真工具难以同时满足高保真、大规模、多模态的需求,CPU基仿真器扩展需依赖昂贵的多核CPU集群,入门门槛高 [5] - 早期GPU仿真工具缺乏多模态感知整合和标准化学习流程,游戏引擎适配方案与机器人研发工作流存在隔阂 [5] 核心架构与关键技术 三大底层技术支柱 - 采用OpenUSD作为统一数据层,支持层级场景图组织、跨领域兼容和多团队协作开发,解决传统格式的灵活性与兼容性问题 [9] - 基于NVIDIA PhysX 5引擎,提供刚体、柔性体、流体等多物理类型支持,并通过Direct-GPU API避免CPU-GPU数据传输瓶颈,训练效率提升数倍 [7][9] - 依托Omniverse RTX渲染器,提供照片级视觉感知输出,支持材质与光照保真以及3D高斯渲染集成,实现仿真与真实环境的视觉对齐 [12][14][15] 模块化工具链 - 提供多样化资产支持,涵盖刚体、关节机器人、柔性体等类型,并支持批量生成与属性随机化 [16] - 传感器仿真覆盖物理基、渲染基、几何基三类,包括IMU、相机、LiDAR等,满足多模态感知需求 [18][19][21] - 内置多种控制器与规划工具,支持逆运动学、力控与阻抗控制以及GPU加速的运动规划,适配从低阶动作控制到高阶任务规划 [24][27] 性能表现与核心优势 - 状态基任务吞吐量方面,单GPU可支持数千个并行环境,复杂操作任务训练FPS达160万+ [38] - 感知基任务采用tiled渲染时,单GPU可并行处理数千个相机,视觉-动作训练FPS较传统CPU仿真提升10-100倍 [38] - 支持跨GPU分布式训练,吞吐量近似线性增长,8 GPU集群可支持16384个并行环境 [38] 典型应用场景 - 在locomotion领域,支持四足机器人崎岖地形导航、人形机器人敏捷运动以及多模态移动平台训练 [41] - 在操作领域,应用于工业装配、灵巧操作等接触丰富的任务,如螺栓拧紧、多手指手物体重定向等 [44][46] - 在导航领域,支持基于视觉的长距离导航、动态环境避障以及跨机器人形态的政策迁移 [46] 未来发展方向 - 物理保真度提升方面,计划集成新一代GPU加速物理引擎Newton,支持自动微分和更灵活的求解器扩展 [52] - 功能扩展方向包括深化3D高斯渲染集成、扩展多模态传感器以及新增复杂场景和多智能体协作工具 [52] - 生态完善举措包括推出Isaac Lab-Arena平台,提供统一的政策评估框架与基准任务,促进算法对比与复现 [52]
从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-12 08:03
面向具身科研领域打造的轻量级高性价比机械臂 还在为具身智能领域的硬件选择发愁吗? 支持pi0部署了~ 最近刚把pi0任务打通,代码也会对客户正式开源,助力大家加速具身科研落地。感兴趣的同学可以关注下 ~ 太贵的机械臂买不起,太便宜的又难用、难上手? 别担心,Imeta-Y1 来了——这是一款专为新手和科研初学者设计的轻量级高性价比机械臂。 无论你是学生、教育工作者,还是刚踏入机器人领域的开发者,Imeta-Y1 都能帮你低成本、高效率地完成 算法验证与项目开发。 对小白尤其友好的是: ✅ 提供全流程开源工具链+代码示例,从数据采集到模型部署一气呵成; ✅ 支持 Python / C++ 双语言接口,无论你擅长哪种语言都能快速上手; ✅ 兼容 ROS1 / ROS2,并提供 URDF 模型,仿真与真机无缝切换; ✅ 24小时快速售后响应,遇到问题不卡壳,学习路上有保障! 该机械臂融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调,并提供全 流程开源SDK与工具链,助力用户快速实现算法验证、数据采集、模型训练与部署应用。 其紧凑型结构与模块化接口,尤其适用于嵌入式AI与机器人学习平台的开发 ...
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-12 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Feng Yan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,"通用性" 始终是难以攻克的难关——现有方案要么局限于 2D 视觉理解,无法适配物理世界的 3D 空间交互;要么依赖单一数据集训练,面 对不同机器人、不同场景就 "水土不服"。 而美团团队提出的 RoboTron-Mani ,以 "3D 感知增强 + 多模态融合架构" 为核心,搭配涵盖多平台数据的 RoboData 数据集,实现了 "跨数据集、跨机器人、跨 场景" 的全能操作:既通过相机参数与占用率监督强化 3D 空间理解,又借助模态隔离掩码提升多模态融合精度,最终在模拟与真实场景中,成为首个超越专家 模型的通用型机器人操作策略。 RoboTron-Mani 官方项目页 :https://github.com/EmbodiedAI-RoboTron/RoboTron-Mani 为什么要重构机器人操作的模 ...
美团 “全能突破”:RoboTron-Mani +RoboData实现通用机器人操作
具身智能之心· 2025-11-11 11:48
文章核心观点 - 美团团队提出的RoboTron-Mani模型与RoboData数据集协同设计,通过“3D感知增强+多模态融合架构”解决了机器人操作领域“通用性”难题 [1] - 该方案突破了传统方案在3D空间感知和数据利用效率上的双重瓶颈,实现了跨数据集、跨机器人、跨场景的通用操作能力 [2][3] - 在多个主流数据集上的实验表明,RoboTron-Mani作为首个通用型策略,其性能超越了一系列专家模型 [17] 机器人操作行业现状与瓶颈 - 现有方案存在核心缺陷:传统多模态模型缺乏3D空间感知能力,物理世界交互精度低且模态融合灵活性差 [2] - 单数据集训练模型泛化能力弱,更换机器人或场景需重新训练,数据收集成本高昂,例如RT-1数据集的13万段数据收集耗时17个月 [2] - 多数据集融合方案存在模态缺失和空间错位问题,导致训练冲突和性能下降 [2] RoboTron-Mani模型架构 - 模型采用四层架构:视觉编码器提取多视角时空特征,为3D感知与模态融合提供基础 [7] - 3D感知适配器采用UVFormer模型,融合图像特征、相机参数与可学习查询,生成统一的3D视图表示以理解物体三维位置与姿态关系 [8] - 特征融合解码器基于OpenFlamingo的交叉注意力机制,引入模态隔离掩码实现多模态的灵活融合与监督 [9] - 多模态解码器针对动作、图像、占用率输出设计专用解码器,确保结果精准性 [10][14] RoboData数据集设计 - 数据集整合了CALVIN、Meta-World、RT-1等9个主流公开数据集,包含7万段任务序列、700万个样本,涵盖多种任务类型 [11] - 通过重新渲染和重建数据,补充了传统数据集缺失的深度图、相机参数等3D相关关键模态 [11] - 实现了3D空间对齐,将所有数据集的坐标系和工作空间范围统一,并采用复合旋转矩阵法统一动作表示 [12][15] - 提供标准化输入输出接口,支持模型在多个数据集上同时评估,为通用模型提供公平的评估基准 [16] 实验性能表现 - 在LIBERO数据集上取得91.7%的成功率,超过当前最佳专家模型QueST的89.8% [17][18] - 在CALVIN数据集上成功率达93.8%,任务平均序列长度从1.7提升至3.5,大幅提升长序列任务能力 [18] - 在RT-1数据集上平均成功率达60%,显著优于同参数规模的其他模型 [18] - 相较于通用模型RoboFlamingo,在4个模拟数据集上的成功率平均提升14.8%-19.6% [18] 关键技术模块价值验证 - 消融实验表明,无3D感知适配器会使CALVIN数据集首任务成功率从94.2%降至85.0% [19] - 无模态隔离掩码会导致跨数据集泛化性能下降12%-15% [22] - 无占用率监督会使长序列任务成功率明显下降,后续任务成功率从56.5%降至48.1% [22] - 使用RoboData对齐数据训练后,LIBERO数据集成功率从64.2%提升至90.7%,CALVIN数据集从74.7%提升至91.0% [20] 方案优势与产业意义 - 该方案兼顾通用性与实用性,为仓储分拣、家庭保洁等追求规模化落地的工业和服务场景提供了重要参考 [21] - 通过全链路设计打破了“机器人操作要么3D感知弱,要么泛化能力差”的僵局 [21] - 未来方向包括加入触觉、力反馈等多模态扩展,优化模型效率以适配边缘计算,以及整合更多真实世界数据集 [23]
招募VLA+RL方向的合伙人!
具身智能之心· 2025-11-11 11:48
招聘背景与目的 - 社区收到大量关于视觉语言动作与强化学习方向的咨询 希望进行更深入讲解[1] - 公司计划招募1名该方向的课程讲师共同开发在线课程[1] - 具身智能之心是国内首个具身全栈技术交流社区 聚集大量视觉语言动作与强化学习方向人才[3] 招聘要求 - 研究方向需为视觉语言动作与强化学习结合领域[2] - 学术界应聘者需博士及以上学历(含在读)且拥有相关顶会成果[2] - 工业界应聘者需具备实战经验与真机调试经验[2] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬待遇[4] - 应聘者可获得丰富的行业资源支持[4] 咨询方式 - 详细招聘内容可通过添加指定微信号进行咨询[5]