具身智能之心
搜索文档
机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
具身智能之心· 2025-08-12 08:03
阿里达摩院具身智能开源项目 - 阿里达摩院在世界机器人大会上宣布开源三款具身智能相关模型和协议:视觉-语言-动作模型RynnVLA-001-7B、世界理解模型RynnEC、机器人上下文协议RynnRCP [1] - RynnRCP协议旨在解决具身智能开发流程碎片化问题,推动数据、模型和机器人本体的兼容适配,已支持Pi0、GR00T N1.5等多款热门模型及SO-100、SO-101等机械臂 [2] - RynnRCP包含两大模块:RCP框架(建立机器人本体与传感器连接)和RobotMotion(实现大模型与机器人控制的桥梁)[4][5] 开源模型技术细节 - RynnVLA-001是基于视频生成和人体轨迹预训练的7B参数模型,可从第一人称视频学习人类操作技能并迁移到机械臂控制 [7] - RynnEC是世界理解模型,能从11个维度解析场景物体,支持仅通过视频序列建立空间感知 [7] - 达摩院上月还开源了WorldVLA模型,首次实现世界模型与动作模型融合 [8] 具身智能产业布局 - 达摩院聚焦具身智能系统和模型研发,与产业共建基础设施包括硬件适配、数据采集和技术社区 [7] - 公司正在拓展机器人产业空间,加速场景落地 [7] 开发者生态建设 - 具身智能之心知识星球是国内首个具身智能全栈学习社区,包含30+学习路线、40+开源项目、60+数据集 [11] - 社群覆盖60+技术交流群,涉及大模型、机器人仿真、产品开发等多个方向 [12]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 14:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
找几个做数采的大佬一起搞点事情......
具身智能之心· 2025-08-11 14:01
公司人才招聘计划 - 公司计划在国内外招募3位从事数据采集的资深专家 [1] - 主要研究方向包括遥操作、增强现实和全身动作捕捉 [1] 合作与项目机会 - 公司寻求合作伙伴共同承接具身智能数据采集相关的项目开发和课程开发 [2] 候选人资质要求 - 要求候选人在相关研究方向至少拥有1年经验 [2] - 具身智能公司从业人员或博士及以上学历者优先考虑 包括在读博士 [2]
国内首个具身智能全栈学习社区来啦!
具身智能之心· 2025-08-11 14:01
文章核心观点 - 具身智能之心知识星球是国内首个具身全栈技术社区 提供产业、学术、求职、问答交流等多领域闭环服务 通过技术路线梳理、行业资源整合和专家答疑解决实际工程问题[3][15][16] - 社区已汇总超40个开源项目、60+数据集、30+技术路线及30家头部公司研报 覆盖感知、导航、控制、大模型部署等全栈技术栈 显著缩短学习与研发周期[16][30][36] - 成员来自斯坦福、清华、智元机器人、优必选等全球顶尖高校与企业 通过内推机制、岗位对接和行业直播促进人才与产业直接联动[10][16][77] 技术资源体系 - 汇总近40个开源项目 涵盖机器人仿真、抓取、控制、交互及感知领域[30] - 整合60+具身智能数据集 包括触觉感知、导航、问答、大模型及机械臂抓取等多模态数据[36] - 梳理30+技术学习路线 含强化学习全栈、VLA/VA、Diffusion Policy、多传感器融合等方向[16][40][58] - 提供仿真平台汇总 覆盖通用机器人与真实场景仿真工具[38] 行业生态建设 - 汇聚国内外30家具身智能公司 涉及教育、工业、医疗、物流等领域[21] - 汇总高校实验室资源 为申博、读研及博后提供参考[18][20] - 分析零部件供应链 包括芯片、激光雷达、相机、IMU等品牌厂商[28] - 跟踪行业研报与大模型应用 及时更新工业落地进展[23] 社区服务功能 - 建立企业内推机制 直接对接智元、有鹿机器人、优必选等公司岗位[10][16] - 定期举办圆桌论坛与直播 由产业界嘉宾分享本体、数据及算法前沿[4][77] - 提供技术问答支持 解决数据采集、模型部署、sim2real等工程问题[1][3][67] - 面向小白与进阶者分别设计入门路线与产业级项目方案[11][13] 典型应用场景 - 视觉语言导航(VLN)在自动驾驶与机器人规划中的落地应用[48] - VLA+RL在机器人抓取与任务规划中的融合方案[42] - 多模态大模型理解与生成技术 支持Image/Video/Audio/3D与文本交互[52][54] - 机械臂抓取技术栈 涵盖位姿估计、策略学习及任务数据表示[70]
Genie Envisioner:面向机器人操作的统一世界基础平台
具身智能之心· 2025-08-11 08:14
核心观点 - Genie Envisioner是一个面向机器人操作的统一世界基础平台,通过单一视频生成框架实现策略学习、评估与仿真的深度融合 [3] - 平台核心组件包括GE-Base世界基础模型、GE-Act动作模型和GE-Sim模拟器,共同构成指令驱动的通用具身智能系统解决方案 [3][27] - 平台集成EWMBench标准化评测套件,系统评估视觉保真度、物理一致性及指令-动作对齐度等关键指标 [3][23] 平台架构 - GE-Base是基于指令调控的大规模视频扩散模型,在结构化潜空间中捕捉机器人交互的空间、时间与语义动态特征 [3][5] - GE-Act通过1.6亿参数的自回归动作解码器实现跨机器人形态的精准策略推理与泛化能力 [15] - GE-Sim作为动作条件神经模拟器,为闭环策略开发提供高保真度环境推演 [21] 技术特性 - GE-Base训练数据包含100万条指令对齐的视频序列和多视角同步采集数据 [11] - GE-Act支持毫秒级实时响应(<10ms延迟)和跨场景通用控制接口 [15] - GE-Sim采用分层动作条件化机制,实现帧率≥30fps的动作条件化视频生成 [25] 评估体系 - EWMBench提供三大核心评测维度:视觉场景一致性、运动正确性、语义对齐和多样性 [23] - 评估指标包括BLEU 0.3255、CLIP 90.79、DYN 0.7836等量化数据 [26] - 支持从视觉真实性、语义对齐性和策略一致性等多维度严谨评估 [27] 应用表现 - 平台在布料折叠、装箱等复杂任务中展现卓越性能 [27] - GE-Act通过最小化适配即可迁移至新型机器人平台 [27] - 大量真实世界评估证实了各组件优越性 [27]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-11 08:14
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 目标是让智能体具备感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业发展动态 - 近2年具身智能领域涌现多家明星创业公司 包括星海图 银河通用 逐际动力等 推动本体与大小脑技术进步 [3] - 国内科技巨头加速布局:华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人 大族机器人合作攻关关键技术 京东2025年起连续投资智元机器人 千寻智能等企业强化物流与家庭服务场景 [5] - 国际竞争格局:Tesla/Figure AI聚焦工业与物流机器人应用 美国资本支持Wayve Apptronik等公司发展自动驾驶与仓储机器人 国内外技术路线差异明显 国内侧重产业链整合 国外专注基础模型与类人机器人原型研发 [5] 技术演进路径 - **第一阶段**:聚焦抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测执行器姿态 但缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆(Behavior Cloning)技术兴起 通过专家数据实现端到端映射 但存在泛化能力弱 误差累积等缺陷 [6] - **第三阶段**:2023年扩散策略(Diffusion Policy)突破序列建模瓶颈 2024年Vision-Language-Action(VLA)模型实现多模态协同 支持零样本泛化 代表项目包括OpenVLA RT-2 PI0等 [6][7] - **第四阶段**:2025年技术融合加速 VLA+强化学习提升长时任务能力 VLA+世界模型实现环境动态预测 VLA+触觉感知拓展多模态融合边界 [8] 商业化应用 - 技术迭代推动产品落地 主要形态包括人形机器人 机械臂 四足机器人 覆盖工业 家居 餐饮 医疗康复等场景 [9] - 行业人才需求爆发 但存在知识体系庞杂 学习门槛高的问题 市场出现系统化培训需求 [9] 工程化挑战 - 产业界对工程能力要求提升 需解决Mujoco/IsaacGym等平台的策略训练与仿真测试问题 [12] - 关键技术部署需求包括Diffusion Policy/VLA模型训练 强化学习反馈微调 世界建模与物理执行一体化架构等 [12] 人才能力要求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 目标人群覆盖算法工程师 研究人员及转行专业人士 [18] - 技能培养重点包括仿真系统应用 触觉信息融合方案 世界模型实践等 目标达到1-2年经验水平 [18]
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 08:14
DreamVLA模型概述 - 提出一种新型视觉-语言-动作(VLA)模型DreamVLA 通过预测环境动态、空间和语义信息提升机器人动作决策精度 [1] - 采用"感知-预测-动作"循环框架 将动作规划视为逆动力学问题 通过预测未来环境状态推导动作 [6][7] - 在CALVIN ABC-D基准测试中平均任务完成长度达4.44 模拟环境性能比前代方法高3.5% 现实世界任务成功率76.7% [25] 技术架构 输入处理 - 多模态输入编码:语言指令(CLIP ViT-B/32文本编码器)、视觉图像(MAE预训练ViT-B模型处理双路摄像头)、机器人状态(可训练编码器) [10][14] - 采用perceiver resampler压缩视觉特征 将196个局部特征向量和全局[CLS] token压缩至可管理规模 [14] 世界知识预测 - 动态区域预测:使用CoTracker光流跟踪算法 通过速度阈值筛选生成二值化动态区域掩码 聚焦移动物体 [12][15] - 深度预测:有深度传感器时直接监督训练 无传感器时采用DepthAnything自监督 输出尺度归一化深度图 [13][16] - 语义预测:并行使用DINOv2(语义向量)和SAM(分割掩码) 通过轻量级ViT解码器输出语义特征 [18][22] 动作生成 - 采用扩散Transformer(DiT-B)作为动作解码器 从高斯噪声逐步生成7维动作向量(6维空间位移+1维抓手状态) [23] - 引入块状结构化注意力机制 结合因果/非因果注意力确保多步动作连贯性 [19] - 使用查询token引导未来世界知识预测 与输入序列拼接后生成世界嵌入 [20] 性能验证 - 消融实验显示动态区域预测贡献最大 深度/语义预测结合动态区域可进一步提升性能 [31] - 结构化注意力机制比普通因果注意力更稳定 分开查询优于共享查询 [31] - 使用DROID数据集(7.6万条轨迹)预训练 仅需100个任务特定演示微调即可展现强泛化能力 [25] 应用前景 - 框架兼容现有VLA模型 特别适合助手机器人和导航场景 [27] - 动态区域掩码能有效抑制背景干扰 深度地图辅助避障 语义特征提升物体交互精度 [17][22]
如何做到的?20分钟机器人真机数据,即可跨本体泛化双臂任务
具身智能之心· 2025-08-11 08:14
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 点击按钮预约直播 作为视频大模型Vidu在具身智能领域延伸的重大突破,Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模 型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持SOTA性能的同时,展现出显著的少样本学习优势。仅用 20分钟 机器人真机数据,即可 快速泛化到新的机器人本体, 所需数据量约为行业领先的RDT的八十分之一,π0.5的一千两百分之一 ,大幅降低了在机器人上大规模泛化的数据门槛。微调后的模 型可完成多视角双臂任务,做到"说什么指令,做什么事情"。 论文链接: https://arxiv.org/abs/2507.12898、https://arxiv.org/abs/2507.12768 直播简介 清华朱军团队提出新范式应对具身智能挑战。针对VLA模型面临 的动作数据稀缺与本体不统一难题,该团队将任务解构为"预测 +执行":利用视觉生成模型(如Vidar)从海量互联网视频中学 习目标预测,再通过任务无关的逆动力学模型(如Any ...
推荐几个具身智能与机器人私房菜!
具身智能之心· 2025-08-10 14:54
行业动态与人才竞争 - 具身与自动驾驶行业进入规模化量产阶段,融资和招聘活动显著增长 [1] - 可落地技术成为竞争焦点,具备相关能力的人才供不应求 [1] - 行业门槛高导致岗位竞争激烈,系统性学习方法是脱颖而出的关键 [1] 学术与技术资源平台 - **arXiv每日学术速递**:覆盖AI、计算机视觉、机器人等领域的实时论文更新,提供摘要翻译和机构信息 [1] - **自动驾驶专栏**:聚焦行业资讯与技术研究,促进从业者交流 [1] - **北京市高级别自动驾驶示范区**:政策创新与技术突破的前沿阵地,提供商业化落地动态 [1] 专业社区与开发者平台 - **自动驾驶之心**:国内最大开发者社区,覆盖感知、规划、SLAM等方向,吸引300+企业关注并提供学习网站 [2] - **智驾最前沿**:技术资讯全媒体平台,提供免费专业资料 [4] - **计算机视觉研究院**:专注AI研究与落地,分享论文算法和实战项目 [5] 具身智能领域资源 - **视觉语言导航**:聚焦机器人导航领域的技术梳理与行业资讯 [6] - **具身智能研究室**:强化学习、多智能体协同等核心领域的研究与产业案例,拥有2000+开发者社区 [7] - **具身智能之心**:全栈技术交流社区,覆盖多模态大模型、运动控制等方向 [8]
Astribot Suite:面向多样化真实环境、聚焦全身操作的框架
具身智能之心· 2025-08-09 08:48
具身智能技术发展 - 构建通用智能机器人的核心目标是模仿人类进化轨迹,通过环境互动和模仿人类行为加速技能学习与迁移 [3] - 实现目标面临三大挑战:类人操作硬件设计、全身遥操作系统开发、全身视觉-运动策略算法构建 [3] - 星尘智能提出Astribot Suite解决方案,在全身协调任务中验证平均成功率80%,最高达100% [4] 机器人平台设计 - 采用绳驱设计模拟人体肌肉组织,实现柔顺运动和精准施力 [7] - 相比传统刚性连杆机器人,具有更高有效载荷、更低反冲和惯性、更紧凑结构及更高安全性 [7] - 通过刚柔混合动力学建模实现最小控制延迟和高精度轨迹跟踪 [7] 遥操作系统 - 系统由VR头显和手持操纵杆组成,支持第一人称和第三人称两种控制模式 [9] - 第一人称模式优化精确复杂操控任务,第三人称模式适合大范围全身运动 [9] - 操纵杆捕捉手部姿势映射到机器人末端执行器位置和方向 [9] 学习算法设计 - DuoCore-WB算法使用RGB图像输入,与视觉-语言-动作预训练模型无缝衔接 [10][13] - 在末端执行器笛卡尔空间中使用SO(3)方向表示进行全身策略控制 [10] - 采用实时轨迹生成模块(RTG)通过二次规划优化生成平滑连续的执行轨迹 [10] 任务性能评估 - 在六个代表性任务中测试,包括送饮料、收纳猫粮、扔垃圾等 [12][23] - 递送饮品任务测试长时序移动操作能力,开门子任务成功率14/15 [23] - 收纳猫粮任务测试受限空间双手协调操作,整体成功率19/20 [23] - 扔垃圾任务测试多阶段双手协调性,整体成功率13/30 [23] 技术优势验证 - 末端执行器空间动作表示相比关节空间显著提升任务成功率,地面物体分类任务从25%提升至90% [25] - 增量动作表示提高轨迹平滑度,桌面清理任务中动作片段切换处变化从0.0196降低至0.0032 [25] - 末端执行器自我坐标系增强视觉-动作对齐,精细抓取任务成功率19/20 [27][28]