具身智能之心
搜索文档
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
具身智能之心· 2025-08-07 08:03
谷歌DeepMind Genie 3技术突破 - 新一代通用世界模型Genie 3支持720P画质、每秒24帧实时导航及分钟级一致性保持,性能显著优于Genie 2的360P画质和非实时交互 [3][4][12] - 生成内容具备3D空间一致性,可逐帧创建动态丰富的世界,支持长达57秒的连续场景生成 [5][13] - 能够模拟物理特性(如水面效果)和复杂环境相互作用,并可构建虚拟场景(如童话世界、魔法森林) [14][16][18][20][21] 技术对比与优势 - 横向对比显示Genie 3在分辨率(720P)、交互时长(分钟级)、控制方式(支持文本提示事件)上超越GameNGen、Genie 2等同类模型 [13] - 长期环境一致性表现突出:物体在几分钟内保持物理一致性,视觉记忆可追溯至一分钟前(如雅典建筑场景中树木的一致性) [25][26][28][29] - 支持基于文本提示动态生成事件(如草原背景中替换拖拉机为棕熊,或伦敦河畔添加恐龙) [31][33] 应用与行业影响 - 推动具身智能体研究:与SIMA智能体兼容,可模拟未来事件以支持复杂目标训练(如面包店、农贸市场场景交互) [35][37][38][39][41] - 被行业评价为“通往AGI的关键拼图”,潜在应用包括开放式学习、机器人技术及虚拟环境开发 [9][44] - 目前以研究预览形式开放测试,主要面向专业研究者和创作者 [11] (注:社群推广、论文辅导等非技术内容已按规则跳过)
这个2000人的具身社区,帮助大家解决了各种各样的难题!
具身智能之心· 2025-08-07 08:03
具身智能社区核心价值 - 提供具身智能全栈技术交流平台,覆盖产业、学术、求职等多领域闭环 [3] - 解决实际问题如机器人调试、数据采集、VA/VLA模型部署等痛点 [1][3] - 汇聚30+技术路线与60+数据集,缩短检索时间 [5][17] 社区资源体系 学术与产业资源 - 链接斯坦福、清华等高校及优必选、小米等40+头部企业资源 [17] - 汇总40+开源项目、60+数据集及主流仿真平台 [17][31][39] - 梳理30家具身机器人公司研报与零部件品牌 [22][24][29] 技术学习路线 - 提供20+专项学习路径,包括强化学习、VLA、Diffusion Policy等 [17][41][61] - 覆盖感知、交互、导航等方向,如触觉感知路线提升3D视觉能力 [45][51] - 整合多模态大模型理解与生成技术,涵盖Image/Video/Audio+Text应用 [53][55] 职业发展支持 - 建立企业内推机制,直通智元机器人等头部公司岗位 [11][18] - 针对SLAM/自动驾驶从业者提供转岗具身智能的技术过渡方案 [81][83] - 汇总国内外高校实验室信息,助力升学与科研规划 [19][21] 行业前沿动态 - 定期举办圆桌论坛与直播,解析本体、算法等最新进展 [5][77] - 跟踪VLA+RL、sim2real等热点技术落地案例 [43][67] - 分析具身智能发展阶段,对标自动驾驶2017-2018年窗口期 [83] 典型用户案例 - 自动驾驶工程师转型视觉语言导航,衔接DL与Transformer技术栈 [81] - SLAM从业者通过强化学习路线切入人形机器人高薪岗位 [82][83] - 学生利用Isaac Sim仿真环境快速构建具身项目经验 [80]
XRoboToolkit:延迟低、可扩展、质量高的数据采集框架
具身智能之心· 2025-08-07 08:03
核心背景与目标 - 视觉-语言-动作模型(VLAs)快速发展,对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准,通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案:延迟低但依赖定制硬件,可扩展性受限 [5] - 视觉基遥操作系统:硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案:跨平台通用但配置复杂,缺乏标准化数据格式,新设备集成工作量大 [5] XRoboToolkit的核心设计 整体架构 - 三层结构:XR端(Unity-Client)、服务端(PC-Service)、机器人端(模块化接口) [4] - 支持多种机器人平台(UR5、ARX R5机械臂等)和模拟器(MuJoCo) [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式:6自由度位姿数据以7个浮点数表示,90Hz频率传输,封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器,具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解:基于二次规划(QP)的IK solver,优化目标函数生成平滑运动 [8] - 灵巧手重定向:将OpenXR手模型26个关节点映射到机器人手关节,优化函数实现平滑运动 [10] - 移动基座控制:XR控制器摇杆实现全向移动平台控制,左摇杆线速度,右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板(Network、Tracking、Remote Vision等),支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini,自定义着色器调整瞳距,优化深度感知 [16] 应用场景与验证 多平台适配 - 双臂系统完成地毯折叠,移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔(公差±0.5mm) [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束,实现类人化运动 [16] 性能评估 - 延迟对比:XRoboToolkit(ZED Mini-PICO 4 Ultra)平均延迟82ms,显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms,稳定性最优(标准差3.12ms) [11] - 数据质量验证:ARX R5双臂折叠地毯数据微调模型后,30分钟连续运行成功率100% [13]
成功率提高57%,VLA+RL最新!CO-RFT:实现VLA模型的高效微调(北航&清华等)
具身智能之心· 2025-08-07 08:03
核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力 但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法 通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练 先通过模仿学习初始化网络 再用离线RL优化策略 在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力 在未见过的位置上达到44 3%成功率 显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习 采用自注意力和因果掩码设计 仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习 第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法 其保守正则化器可防止Q值高估 并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干 并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率 显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率 展示处理复杂场景能力[29] - 数据多样性对性能影响显著 随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题 提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调 大幅降低数据需求 提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证 展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战 包括样本效率 训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路 结合离线RL和动作分块技术突破性能瓶颈[34]
VLA和VLN技术交流群来啦!
具身智能之心· 2025-08-06 16:30
社群信息 - 具身智能之心建立多个VLA和VLN技术交流群 旨在促进学术界和工业界相关领域的讨论 [1] - 社群聚焦VLA和VLN技术发展动态及产品落地情况 涵盖学术研究与产业应用方向 [1] - 加入社群需通过微信小助理AIDriver005 备注格式为VLA/VLN+昵称+加群 [2]
具身智能之心招募科研辅导老师了!学术圈的大佬看过来~
具身智能之心· 2025-08-06 16:30
招募科研辅导老师 - 具身智能方向招募科研辅导老师 旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等 [2] - 要求博士及以上学历 包含在读 需有2篇A会或一区以上期刊/会议 有辅导经验者优先 [3] - 提供行业资源共享 论文署名与现金激励 [4]
ICCV 2025具身研讨会&挑战赛征稿来啦!人机场景交互与协作多个方向
具身智能之心· 2025-08-06 11:37
研讨会概述 - ICCV 2025 "人机场景交互与协作"研讨会将于2025年10月20日在夏威夷檀香山举行 [1] - 研讨会聚焦智能机器人在家庭、医院、工厂和学校等场景中的安全、智能、自然协作与环境适应能力 [3] - 研讨会主页链接提供详细信息 [5] 前沿研究方向 - 知识迁移创新:从人-人及人-场景交互中转移知识,支持具身智能体开发 [4] - 视觉表征突破:提取与人机协作相关的对象属性、动态和可供性信息 [4] - 意图预测革命:建模人类意图使机器人能预测并安全反应 [4] - 场景融合实践:将机器人集成到交互环境以实现无缝团队合作 [4] - 评估体系构建:建立基准和指标衡量人机交互进步 [4] 论文征稿 - 接受长论文(最多8页)和短论文(最多4页),需遵循ICCV 2025格式规范 [7] - 投稿截止时间为2025年8月15日,录用通知于8月29日发布,最终版本提交截止为9月5日 [7][12] - 录用论文以海报展示,部分优秀论文获口头报告机会 [7] 挑战赛 多地形人形运动挑战赛 - 聚焦复杂非结构化地形下的自主导航算法,推动家庭服务、灾难救援等应用 [15] - 奖项设置:一等奖1000美元、二等奖500美元、三等奖300美元 [17] - 注册截止9月14日,提交截止9月21日,获奖公布9月23日 [17] 人形-物体交互挑战赛 - 要求开发能感知、推理并与日常物体交互的模拟人形智能体,完成复杂室内任务 [20] - 需整合接触操作、交互感知和语义推理能力 [20] - 奖项设置:一等奖1000美元、二等奖500美元、三等奖300美元 [21][22] - 时间安排与多地形挑战赛同步 [22] 资源链接 - 论文格式规范与投稿系统链接 [11] - 多地形挑战赛官网链接 [17] - 人形-物体交互挑战赛官网链接 [22]
具身智能数采方案:全身动捕工作一览
具身智能之心· 2025-08-06 08:19
全身动捕方案技术汇总 - OpenWBC项目实现对Unitree G1机器人的全身控制 结合Apple Vision Pro控制上半身 使用OpenHomie算法控制下半身运动 支持全身数据采集功能 [3] - 主要功能特性包括双模式控制(上半身远程操控+下半身自主行走) 实时低延迟控制 模块化设计 跨平台通信架构 [5] TWIST系统 - 斯坦福大学团队开发全身远程操控人形机器人系统 通过全身运动模仿实现协调控制 结合强化学习与行为克隆提升跟踪精度 [6] - 系统引入特权未来运动帧和真实世界动作捕捉数据 显著提升多任务协调能力 包括全身操作 腿臂协同 移动及富表现力动作 [6] AMO框架 - 加州大学圣迭戈分校团队提出自适应运动优化框架 结合仿真到现实强化学习与轨迹优化 实现29自由度Unitree G1的实时全身控制 [9] - 通过混合型AMO数据集训练网络 解决运动模仿中的分布偏差问题 在仿真和实机验证中展现卓越稳定性及扩展工作空间 [11] 清华大学&银河通用项目 - 基于Apple Vision Pro实现Unitree G1/H1全身遥操作 支持实机与仿真 通过摇杆控制下半身 VR捕捉实现上半手部动作 [14] - 提出R²S²框架构建现实可用技能库 集成至统一潜空间 实现零样本仿真-现实迁移 解决大范围触达的全身协同控制问题 [16] CLONE系统 - 北京理工大学团队开发基于混合专家的闭环纠错系统 仅需MR头显追踪即可实现高保真全身操作 抑制长距离移动的位置漂移 [20] - 系统通过实时反馈机制学习多样化运动技能 完成复杂协调动作如地面拾物 树立长期人机交互的全身遥操作新标杆 [20] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线 开源代码方案 产业学术资源 及一线企业嘉宾答疑 [26] - 建立多家具身公司岗位内推机制 覆盖入门者技术栈与资深研究者产业体系 [32][33][35]
具身智能数采方案:全身动捕工作一览
具身智能之心· 2025-08-05 13:44
全身动捕方案汇总 - OpenWBC项目实现对Unitree G1机器人的全身控制 上半身通过Apple Vision Pro结合avp_teleoperate控制 下半身采用OpenHomie算法控制 支持全身数据采集功能 [3][4] - 项目具备双模式控制(上半身远程操控+下半身自主行走) 实时控制延迟低 采用模块化设计和TCP/IP网络通信架构 [4] - TWIST系统由斯坦福大学团队开发 通过全身运动模仿实现人形机器人远程操控 结合人体动作捕捉数据重定向与强化学习+行为克隆技术 实现前所未有的协调全身运动技能 [5] - AMO框架由加州大学圣迭戈分校团队提出 将仿真到现实的强化学习与轨迹优化结合 解决29自由度Unitree G1人形机器人的非线性动力学控制难题 [8][10] - 清华大学&银河通用团队开发系统支持通过Apple Vision Pro对Unitree G1/H1人形机器人进行全身遥操作 实现蹲、弯、抓、搬等动作 扩展机器人作业空间 [13] - R²S²框架构建现实可用基础技能库 通过技能优化与仿真-现实验证 实现零样本的仿真-现实迁移 解决人形机器人全身协同控制问题 [15] - CLONE系统由北京理工大学等团队开发 基于混合专家(MoE)的闭环纠错机制 仅通过MR头显头手追踪实现高保真全身操作 抑制长距离移动中的位置漂移 [19] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线梳理 包含前沿学术内容、开源代码方案、求职信息等资源 [25][31] - 社区邀请数十位具身领域产业界/学术界专家 提供圆桌论坛、直播和技术答疑 [25] - 建立与多家具身公司的岗位内推机制 为不同阶段从业者提供针对性学习路线和产业项目方案 [31][32][34]
哈工大提出UAV-ON:面向空中智能体的开放世界目标导航基准测试
具身智能之心· 2025-08-05 08:03
研究背景与动机 - 无人机在货物运输、紧急救援、环境监测等领域的应用日益广泛,随着智慧城市和低空空域管理的发展,无人机需要在复杂、动态的开放环境中实现自主导航 [2] - 现有研究多依赖视觉-语言导航(VLN)范式,这类方法需要详细的分步语言指令,限制了在开放世界中的可扩展性和自主性 [2] - 目标导航(ObjectNav)作为一种替代方案,要求智能体基于语义线索定位目标,无需密集的指令序列,但现有研究主要集中在地面室内场景,在大规模、非结构化的户外空中环境中仍未得到充分探索 [2] UAV-ON基准概述 - UAV-ON是首个针对无人机在开放世界中进行实例级目标导航的大规模基准 [4] - 包含14个基于Unreal Engine构建的高保真户外环境,覆盖城市、森林、山地、水域等多种场景,空间尺度从350×250到1400×1250单位不等,总水平面积约900万平方单位 [4] - 定义了1270个标注目标,每个目标对应一个实例级语义指令,包含类别、大致尺寸和自然语言描述,引入了现实中的歧义性和推理挑战 [4] 任务设置 - 无人机被随机放置在环境中,仅依靠前、左、右、下四个方向的RGB-D传感器获取的第一视角信息进行导航,需自主避障和路径规划,无全局地图或外部信息支持 [6] - 任务终止条件为:无人机发出停止指令、碰撞障碍物,或达到最大步数(150步);若停止时与目标距离≤20单位,则判定为成功 [6] 任务定义与仿真器设计 - 任务开始时,无人机的初始姿态为6自由度位姿,目标指令包含目标类别、尺寸和视觉描述,目标被限定在以起始位置为中心、半径50单位的水平范围内 [7] - 无人机配备四个同步RGB-D相机,分别朝向前后左右和下方,获取的RGB和深度图像记为和,所有视图分辨率和视场一致且时间同步 [9] - 采用参数化连续动作,包括平移(前进、左右移动、上升、下降)、旋转(左右旋转)和停止,每个动作对应连续的距离或角度参数 [9] 数据集与评估指标 - 训练集包含10个环境、10000个导航episode,任务数量根据环境空间大小和目标分布比例分配 [9] - 测试集包含1000个episode,覆盖10个训练环境和4个新环境,混合了熟悉场景、新场景及已知/未知目标类别 [9] - 采用四个经典导航指标:成功率(SR)、潜在成功率(OSR)、成功距离(DTS)、成功加权路径长度(SPL) [10] 基线方法与实验结果 - 实验实现了四种基线方法:随机策略(Random)、CLIP启发式探索(CLIP-H)、空中目标导航智能体(AOA) [13] - AOA-V(AOA Variable-step)OSR最高(26.30%),但SR(4.20%)和SPL(0.87%)较低,反映出LLM在同时处理语义理解、运动规划和终止控制时的注意力分散问题 [14] - AOA-F(AOA Fixed-step)SR(7.30%)和SPL(4.06%)更稳定,尤其在大型、视觉显著目标上表现较好 [16] - CLIP-H SPL较高(4.15%),但OSR(11.90%)和SR(6.20%)较低,说明其对语义目标的理解有限 [16] - 随机策略所有指标均最差(SR 3.70%,OSR 8.00%),验证了无目标导向的盲目探索无效性 [16] - 所有方法的碰撞率均超过30%(如AOA-F达65.5%),远高于实际应用的安全要求,凸显了当前导航策略在避障和鲁棒控制上的不足 [15]