具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

具身智能之心· 2025-08-07 08:03

谷歌DeepMind Genie 3技术突破 - 新一代通用世界模型Genie 3支持720P画质、每秒24帧实时导航及分钟级一致性保持，性能显著优于Genie 2的360P画质和非实时交互 [3][4][12] - 生成内容具备3D空间一致性，可逐帧创建动态丰富的世界，支持长达57秒的连续场景生成 [5][13] - 能够模拟物理特性（如水面效果）和复杂环境相互作用，并可构建虚拟场景（如童话世界、魔法森林） [14][16][18][20][21] 技术对比与优势 - 横向对比显示Genie 3在分辨率（720P）、交互时长（分钟级）、控制方式（支持文本提示事件）上超越GameNGen、Genie 2等同类模型 [13] - 长期环境一致性表现突出：物体在几分钟内保持物理一致性，视觉记忆可追溯至一分钟前（如雅典建筑场景中树木的一致性） [25][26][28][29] - 支持基于文本提示动态生成事件（如草原背景中替换拖拉机为棕熊，或伦敦河畔添加恐龙） [31][33] 应用与行业影响 - 推动具身智能体研究：与SIMA智能体兼容，可模拟未来事件以支持复杂目标训练（如面包店、农贸市场场景交互） [35][37][38][39][41] - 被行业评价为“通往AGI的关键拼图”，潜在应用包括开放式学习、机器人技术及虚拟环境开发 [9][44] - 目前以研究预览形式开放测试，主要面向专业研究者和创作者 [11] （注：社群推广、论文辅导等非技术内容已按规则跳过）

Software and Internet

Software and Internet

这个2000人的具身社区，帮助大家解决了各种各样的难题！

具身智能之心· 2025-08-07 08:03

具身智能社区核心价值 - 提供具身智能全栈技术交流平台，覆盖产业、学术、求职等多领域闭环 [3] - 解决实际问题如机器人调试、数据采集、VA/VLA模型部署等痛点 [1][3] - 汇聚30+技术路线与60+数据集，缩短检索时间 [5][17] 社区资源体系学术与产业资源 - 链接斯坦福、清华等高校及优必选、小米等40+头部企业资源 [17] - 汇总40+开源项目、60+数据集及主流仿真平台 [17][31][39] - 梳理30家具身机器人公司研报与零部件品牌 [22][24][29] 技术学习路线 - 提供20+专项学习路径，包括强化学习、VLA、Diffusion Policy等 [17][41][61] - 覆盖感知、交互、导航等方向，如触觉感知路线提升3D视觉能力 [45][51] - 整合多模态大模型理解与生成技术，涵盖Image/Video/Audio+Text应用 [53][55] 职业发展支持 - 建立企业内推机制，直通智元机器人等头部公司岗位 [11][18] - 针对SLAM/自动驾驶从业者提供转岗具身智能的技术过渡方案 [81][83] - 汇总国内外高校实验室信息，助力升学与科研规划 [19][21] 行业前沿动态 - 定期举办圆桌论坛与直播，解析本体、算法等最新进展 [5][77] - 跟踪VLA+RL、sim2real等热点技术落地案例 [43][67] - 分析具身智能发展阶段，对标自动驾驶2017-2018年窗口期 [83] 典型用户案例 - 自动驾驶工程师转型视觉语言导航，衔接DL与Transformer技术栈 [81] - SLAM从业者通过强化学习路线切入人形机器人高薪岗位 [82][83] - 学生利用Isaac Sim仿真环境快速构建具身项目经验 [80]

具身智能之心知识星球

具身智能之心知识星球

XRoboToolkit：延迟低、可扩展、质量高的数据采集框架

具身智能之心· 2025-08-07 08:03

核心背景与目标 - 视觉-语言-动作模型（VLAs）快速发展，对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准，通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案：延迟低但依赖定制硬件，可扩展性受限 [5] - 视觉基遥操作系统：硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案：跨平台通用但配置复杂，缺乏标准化数据格式，新设备集成工作量大 [5] XRoboToolkit的核心设计整体架构 - 三层结构：XR端（Unity-Client）、服务端（PC-Service）、机器人端（模块化接口） [4] - 支持多种机器人平台（UR5、ARX R5机械臂等）和模拟器（MuJoCo） [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式：6自由度位姿数据以7个浮点数表示，90Hz频率传输，封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器，具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解：基于二次规划（QP）的IK solver，优化目标函数生成平滑运动 [8] - 灵巧手重定向：将OpenXR手模型26个关节点映射到机器人手关节，优化函数实现平滑运动 [10] - 移动基座控制：XR控制器摇杆实现全向移动平台控制，左摇杆线速度，右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板（Network、Tracking、Remote Vision等），支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini，自定义着色器调整瞳距，优化深度感知 [16] 应用场景与验证多平台适配 - 双臂系统完成地毯折叠，移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔（公差±0.5mm） [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束，实现类人化运动 [16] 性能评估 - 延迟对比：XRoboToolkit（ZED Mini-PICO 4 Ultra）平均延迟82ms，显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms，稳定性最优（标准差3.12ms） [11] - 数据质量验证：ARX R5双臂折叠地毯数据微调模型后，30分钟连续运行成功率100% [13]

视觉 - 语言 - 动作模型（VLAs）

Open - TeleVision

视觉 - 语言 - 动作模型（VLAs）

Open - TeleVision

成功率提高57%，VLA+RL最新！CO-RFT：实现VLA模型的高效微调（北航&清华等）

具身智能之心· 2025-08-07 08:03

核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练先通过模仿学习初始化网络再用离线RL优化策略在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力在未见过的位置上达到44 3%成功率显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习采用自注意力和因果掩码设计仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法其保守正则化器可防止Q值高估并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率展示处理复杂场景能力[29] - 数据多样性对性能影响显著随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调大幅降低数据需求提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战包括样本效率训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路结合离线RL和动作分块技术突破性能瓶颈[34]

分块强化学习

离线强化学习

分块强化学习

离线强化学习

VLA和VLN技术交流群来啦！

具身智能之心· 2025-08-06 16:30

社群信息 - 具身智能之心建立多个VLA和VLN技术交流群旨在促进学术界和工业界相关领域的讨论 [1] - 社群聚焦VLA和VLN技术发展动态及产品落地情况涵盖学术研究与产业应用方向 [1] - 加入社群需通过微信小助理AIDriver005 备注格式为VLA/VLN+昵称+加群 [2]

具身智能之心招募科研辅导老师了！学术圈的大佬看过来~

具身智能之心· 2025-08-06 16:30

招募科研辅导老师 - 具身智能方向招募科研辅导老师旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型仿真运动控制目标导航等 [2] - 要求博士及以上学历包含在读需有2篇A会或一区以上期刊/会议有辅导经验者优先 [3] - 提供行业资源共享论文署名与现金激励 [4]

多模态大模型

多模态大模型

ICCV 2025具身研讨会&挑战赛征稿来啦！人机场景交互与协作多个方向

具身智能之心· 2025-08-06 11:37

研讨会概述 - ICCV 2025 "人机场景交互与协作"研讨会将于2025年10月20日在夏威夷檀香山举行 [1] - 研讨会聚焦智能机器人在家庭、医院、工厂和学校等场景中的安全、智能、自然协作与环境适应能力 [3] - 研讨会主页链接提供详细信息 [5] 前沿研究方向 - 知识迁移创新：从人-人及人-场景交互中转移知识，支持具身智能体开发 [4] - 视觉表征突破：提取与人机协作相关的对象属性、动态和可供性信息 [4] - 意图预测革命：建模人类意图使机器人能预测并安全反应 [4] - 场景融合实践：将机器人集成到交互环境以实现无缝团队合作 [4] - 评估体系构建：建立基准和指标衡量人机交互进步 [4] 论文征稿 - 接受长论文（最多8页）和短论文（最多4页），需遵循ICCV 2025格式规范 [7] - 投稿截止时间为2025年8月15日，录用通知于8月29日发布，最终版本提交截止为9月5日 [7][12] - 录用论文以海报展示，部分优秀论文获口头报告机会 [7] 挑战赛多地形人形运动挑战赛 - 聚焦复杂非结构化地形下的自主导航算法，推动家庭服务、灾难救援等应用 [15] - 奖项设置：一等奖1000美元、二等奖500美元、三等奖300美元 [17] - 注册截止9月14日，提交截止9月21日，获奖公布9月23日 [17] 人形-物体交互挑战赛 - 要求开发能感知、推理并与日常物体交互的模拟人形智能体，完成复杂室内任务 [20] - 需整合接触操作、交互感知和语义推理能力 [20] - 奖项设置：一等奖1000美元、二等奖500美元、三等奖300美元 [21][22] - 时间安排与多地形挑战赛同步 [22] 资源链接 - 论文格式规范与投稿系统链接 [11] - 多地形挑战赛官网链接 [17] - 人形-物体交互挑战赛官网链接 [22]

人机场景交互和协作

知识迁移创新

视觉表征突破

意图预测革命

评估体系构建

人机场景交互和协作

知识迁移创新

视觉表征突破

意图预测革命

评估体系构建

具身智能数采方案：全身动捕工作一览

具身智能之心· 2025-08-06 08:19

全身动捕方案技术汇总 - OpenWBC项目实现对Unitree G1机器人的全身控制结合Apple Vision Pro控制上半身使用OpenHomie算法控制下半身运动支持全身数据采集功能 [3] - 主要功能特性包括双模式控制（上半身远程操控+下半身自主行走）实时低延迟控制模块化设计跨平台通信架构 [5] TWIST系统 - 斯坦福大学团队开发全身远程操控人形机器人系统通过全身运动模仿实现协调控制结合强化学习与行为克隆提升跟踪精度 [6] - 系统引入特权未来运动帧和真实世界动作捕捉数据显著提升多任务协调能力包括全身操作腿臂协同移动及富表现力动作 [6] AMO框架 - 加州大学圣迭戈分校团队提出自适应运动优化框架结合仿真到现实强化学习与轨迹优化实现29自由度Unitree G1的实时全身控制 [9] - 通过混合型AMO数据集训练网络解决运动模仿中的分布偏差问题在仿真和实机验证中展现卓越稳定性及扩展工作空间 [11] 清华大学&银河通用项目 - 基于Apple Vision Pro实现Unitree G1/H1全身遥操作支持实机与仿真通过摇杆控制下半身 VR捕捉实现上半手部动作 [14] - 提出R²S²框架构建现实可用技能库集成至统一潜空间实现零样本仿真-现实迁移解决大范围触达的全身协同控制问题 [16] CLONE系统 - 北京理工大学团队开发基于混合专家的闭环纠错系统仅需MR头显追踪即可实现高保真全身操作抑制长距离移动的位置漂移 [20] - 系统通过实时反馈机制学习多样化运动技能完成复杂协调动作如地面拾物树立长期人机交互的全身遥操作新标杆 [20] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线开源代码方案产业学术资源及一线企业嘉宾答疑 [26] - 建立多家具身公司岗位内推机制覆盖入门者技术栈与资深研究者产业体系 [32][33][35]

Embodied Intelligence

Whole-Body Motion Capture

Humanoid Robot Control

Apple Vision Pro

Embodied Intelligence

Whole-Body Motion Capture

Humanoid Robot Control

Apple Vision Pro

具身智能数采方案：全身动捕工作一览

具身智能之心· 2025-08-05 13:44

全身动捕方案汇总 - OpenWBC项目实现对Unitree G1机器人的全身控制上半身通过Apple Vision Pro结合avp_teleoperate控制下半身采用OpenHomie算法控制支持全身数据采集功能 [3][4] - 项目具备双模式控制(上半身远程操控+下半身自主行走) 实时控制延迟低采用模块化设计和TCP/IP网络通信架构 [4] - TWIST系统由斯坦福大学团队开发通过全身运动模仿实现人形机器人远程操控结合人体动作捕捉数据重定向与强化学习+行为克隆技术实现前所未有的协调全身运动技能 [5] - AMO框架由加州大学圣迭戈分校团队提出将仿真到现实的强化学习与轨迹优化结合解决29自由度Unitree G1人形机器人的非线性动力学控制难题 [8][10] - 清华大学&银河通用团队开发系统支持通过Apple Vision Pro对Unitree G1/H1人形机器人进行全身遥操作实现蹲、弯、抓、搬等动作扩展机器人作业空间 [13] - R²S²框架构建现实可用基础技能库通过技能优化与仿真-现实验证实现零样本的仿真-现实迁移解决人形机器人全身协同控制问题 [15] - CLONE系统由北京理工大学等团队开发基于混合专家(MoE)的闭环纠错机制仅通过MR头显头手追踪实现高保真全身操作抑制长距离移动中的位置漂移 [19] 具身智能社区资源 - 具身智能之心知识星球提供30+技术路线梳理包含前沿学术内容、开源代码方案、求职信息等资源 [25][31] - 社区邀请数十位具身领域产业界/学术界专家提供圆桌论坛、直播和技术答疑 [25] - 建立与多家具身公司的岗位内推机制为不同阶段从业者提供针对性学习路线和产业项目方案 [31][32][34]

Apple Vision Pro

Apple Vision Pro

哈工大提出UAV-ON：面向空中智能体的开放世界目标导航基准测试

具身智能之心· 2025-08-05 08:03

研究背景与动机 - 无人机在货物运输、紧急救援、环境监测等领域的应用日益广泛，随着智慧城市和低空空域管理的发展，无人机需要在复杂、动态的开放环境中实现自主导航 [2] - 现有研究多依赖视觉-语言导航（VLN）范式，这类方法需要详细的分步语言指令，限制了在开放世界中的可扩展性和自主性 [2] - 目标导航（ObjectNav）作为一种替代方案，要求智能体基于语义线索定位目标，无需密集的指令序列，但现有研究主要集中在地面室内场景，在大规模、非结构化的户外空中环境中仍未得到充分探索 [2] UAV-ON基准概述 - UAV-ON是首个针对无人机在开放世界中进行实例级目标导航的大规模基准 [4] - 包含14个基于Unreal Engine构建的高保真户外环境，覆盖城市、森林、山地、水域等多种场景，空间尺度从350×250到1400×1250单位不等，总水平面积约900万平方单位 [4] - 定义了1270个标注目标，每个目标对应一个实例级语义指令，包含类别、大致尺寸和自然语言描述，引入了现实中的歧义性和推理挑战 [4] 任务设置 - 无人机被随机放置在环境中，仅依靠前、左、右、下四个方向的RGB-D传感器获取的第一视角信息进行导航，需自主避障和路径规划，无全局地图或外部信息支持 [6] - 任务终止条件为：无人机发出停止指令、碰撞障碍物，或达到最大步数（150步）；若停止时与目标距离≤20单位，则判定为成功 [6] 任务定义与仿真器设计 - 任务开始时，无人机的初始姿态为6自由度位姿，目标指令包含目标类别、尺寸和视觉描述，目标被限定在以起始位置为中心、半径50单位的水平范围内 [7] - 无人机配备四个同步RGB-D相机，分别朝向前后左右和下方，获取的RGB和深度图像记为和，所有视图分辨率和视场一致且时间同步 [9] - 采用参数化连续动作，包括平移（前进、左右移动、上升、下降）、旋转（左右旋转）和停止，每个动作对应连续的距离或角度参数 [9] 数据集与评估指标 - 训练集包含10个环境、10000个导航episode，任务数量根据环境空间大小和目标分布比例分配 [9] - 测试集包含1000个episode，覆盖10个训练环境和4个新环境，混合了熟悉场景、新场景及已知/未知目标类别 [9] - 采用四个经典导航指标：成功率（SR）、潜在成功率（OSR）、成功距离（DTS）、成功加权路径长度（SPL） [10] 基线方法与实验结果 - 实验实现了四种基线方法：随机策略（Random）、CLIP启发式探索（CLIP-H）、空中目标导航智能体（AOA） [13] - AOA-V（AOA Variable-step）OSR最高（26.30%），但SR（4.20%）和SPL（0.87%）较低，反映出LLM在同时处理语义理解、运动规划和终止控制时的注意力分散问题 [14] - AOA-F（AOA Fixed-step）SR（7.30%）和SPL（4.06%）更稳定，尤其在大型、视觉显著目标上表现较好 [16] - CLIP-H SPL较高（4.15%），但OSR（11.90%）和SR（6.20%）较低，说明其对语义目标的理解有限 [16] - 随机策略所有指标均最差（SR 3.70%，OSR 8.00%），验证了无目标导向的盲目探索无效性 [16] - 所有方法的碰撞率均超过30%（如AOA-F达65.5%），远高于实际应用的安全要求，凸显了当前导航策略在避障和鲁棒控制上的不足 [15]