具身智能之心
搜索文档
具身智能之心遥操作技术交流群来了!
具身智能之心· 2025-09-08 08:03
行业交流活动 - 行业正围绕具身智能的遥操作技术建立专业交流社群 [1] - 社群面向相关技术方向的研究人员及从业者开放加入 [1] - 加入渠道需通过指定助理微信并备注机构及专业信息 [2]
具身智能之心开学季福利!今年的有点不太一样......
具身智能之心· 2025-09-08 08:03
技术演进趋势 - 机器人算法从传统的pipeline方案发展到端到端方案 [1] - 具身算法提升全局感知能力 早期抓取工作需通过姿态识别和3D视觉完成感知 再规划执行 过程繁琐且泛化性差 [1] - 当前VLA或VA方案通过学习方式让机器人动作更流畅 部分方案仅需几十条数据即可实现泛化 [1] - 导航任务从建图、重定位、导航规划发展为基于大模型的map-free目标导航方案 [2] 行业市场前景 - 具身智能的市场规模和容量大于其他领域 但尚有许多问题待解决 [2] - 在数据、本体、算法领域存在较大发展空间 [2] 教育产品服务 - 公司提供具身智能领域的系统化教程和社区学习平台 [2] - 课程提供系统化学习路径 帮助用户快速入门 [6] - 课程包含丰富的机器人实战项目 涵盖仿真和真机实战 [7] - 提供大咖直播互动 由一线研究员和工程师分享经验 [7] - 课程支持永久回放和源码共享 [7] - 在9月1日至9月14日推出开学季促销活动 [4] - 推出299元限时超级折扣卡 享受全课七折优惠(一年期) [4] - 知识星球立减66元 [4] - 论文辅导最高可抵扣10000元(1000普宣抵扣10000) [4]
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
具身智能之心· 2025-09-08 08:03
文章核心观点 - 字节跳动提出统一视觉-语言模型Robix 作为机器人高层认知中枢 通过端到端架构整合推理 规划与交互能力 解决现有分层系统在动态场景中的能力割裂问题[2][3][5] - Robix通过三阶训练策略(持续预训练 有监督微调 强化学习)实现物理世界感知与人类需求适配 在基础推理 离线规划和在线场景中超越主流商业模型[5][13][22] - 模型在真实场景测试中任务进度达92.5-92.6% 较Gemini-2.5-Pro提升4.3个百分点 响应延迟更低 展现更强的物理操作适配性[29][32] 技术架构与工作机制 - 采用分层系统设计 Robix作为高层认知层处理多模态推理与任务规划 低层控制器执行原子动作指令形成感知-推理-动作闭环[7][8] - 输入包含视觉观测 用户指令和历史交互记录 输出原子动作指令 自然语言回复和结构化思考轨迹三大类型[9][11] - 支持复杂指令理解 实时中断处理 任务状态监测和主动对话四大核心交互能力[12] 训练策略与数据构建 - 持续预训练使用2000亿tokens数据 包含3D空间理解(400亿) 视觉定位(700亿) 任务中心推理(100亿)和通用多模态推理(900亿)四类数据集[13][14] - 有监督微调通过合成7类交互指令数据 涵盖多阶段指令 约束指令 实时中断处理和模糊指令澄清等场景[17][18][19] - 强化学习采用GRPO算法 引入思考-动作一致性奖励机制 解决推理与动作脱节问题[22][23] 性能表现 - 基础具身推理:Robix-32B在VSIBench得分50.9超Gemini-2.5-Pro(43.4)7.5个百分点 在LVIS-MG达79.2超开源模型最高值73.8[24][25] - 离线任务规划:Robix-32B-RL在OOD任务准确率86.8% 超Gemini-2.5-Pro(83.8%)3个百分点 在ID任务超开源模型28.1-64.6个百分点[27] - 在线真实场景:搭配自动VLA控制器时任务进度92.5% 超Gemini-2.5-Pro(88.2%)4.3个百分点 超GPT-4o(64.4%)28.1个百分点[32] 优势与局限 - 核心优势体现在统一性(单模型整合三大能力) 灵活性(支持动态重规划)和泛化性(OOD任务持续领先)[35][38] - 主要局限为动态场景鲁棒性不足 高频场景切换可能出现推理漏洞 且依赖短期记忆窗口难以支持长时交互[38]
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-07 20:28
VLA模型技术概述 - VLA是具身智能领域新范式,从语言指令和视觉信号直接生成机器人可执行动作[1] - 该范式打破传统单任务训练局限,推动机器人模型向更通用、场景更泛化方向发展[1] - 模型将视觉信息、语言指令和行动决策有效整合,显著提升机器人对复杂环境的理解和适应能力[1] VLA应用价值与产业进展 - 模型使机器人能在多样化场景中自主决策,灵活应对未见环境,广泛应用于制造业、物流和家庭服务等领域[3] - 已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展[3] - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图等团队从实验室走向商业化,华为、京东、腾讯等科技巨头积极布局[5] - 适应性强,可应用于机械臂、四足机器人和人形机器人等多种平台[3] VLA技术演进路径 - 技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - RT-2、OpenVLA和PI0等前沿模型实现从视觉输入和语言指令到机器人动作的端到端映射[8] - 深入研究跨域泛化、长期规划与世界模型构建等核心挑战[9] - 探讨PaLM-E、RT-X等模型通过多模态预训练和微调策略增强机器人开放环境适应性和鲁棒性[9] 科研课程核心内容 - 课程聚焦智能体通过感知-认知-行动循环与物理世界交互,从具身智能理论基础出发[7] - 涵盖VLA模型理论基础、仿真环境搭建、实验设计与论文撰写全过程指导[16] - 系统讲解隐式端到端、显式端到端、分层端到端三大VLA模型体系[16] - 第7周专门分析领域研究热点与未解决难题,包括长期记忆、VLA+RL原子技能库构建等前沿方向[16] 课程特色与学习成果 - 培养独立学术研究能力,注重创新点挖掘与研究方向指导[14][15] - 提供从idea到论文全流程支持,帮助学生形成研究idea并完成初步实验[16] - 完成课程后学生能全面掌握VLA理论基础、熟练使用仿真环境、具备独立发现问题能力[16] - 最终产出完整论文初稿,掌握学术论文撰写与投稿完整流程[15][16] 师资与硬件要求 - 辅导老师为Top 985博士,累计发表顶会/顶刊文章二十余篇,指导本科生发表顶会/顶刊四篇[13] - 硬件要求4090以上算力进行推理,训练算力自备(建议4卡4090)[17] - 需要一定PyTorch和Python基础,能够自己修改代码[18]
【附内推】银河通用机器人2026届校园招聘火热进行中
具身智能之心· 2025-09-07 09:39
行业背景与公司定位 - 具身大模型技术不断突破推动人形机器人进入千行百业 通用智能发展前景清晰可见 [2] - 公司为全球领先具身智能大模型通用机器人企业 成立于2023年5月 专注于通用机器人产品开发 [4] - 产品已广泛应用于商业 工业 医疗场景 在北京 深圳 苏州 香港设研发中心 与北京大学 北京智源人工智能研究院 宣武医院 中关村学院建立联合实验室 [5] 技术研发与产品突破 - 2024年6月发布首代全自研具身大模型机器人Galbot G1 [6] - 2025年1月发布全球首个端到端具身抓取基础大模型GraspVLA [6] - 2025年5月全球首个人形机器人智慧零售方案落地 获100家门店订单 [6] - 2025年6月发布产品级端到端具身导航大模型TrackVLA 同期推出零售行业端到端具身大模型GroceryVLA [7] - 2025年6月发布全球首款全开源多机型跨虚实人形机器人全身遥操作系统OpenWBT [7] - 2025年8月发布Galbot G1 Premium 成为全球首台搭载英伟达最新Jetson Thor芯片的机器人 [7] 市场成就与行业认可 - 2025年8月Galbot作为唯一官方机器人平台独家支持IOAI国际人工智能奥林匹克学术活动 [7] - 2025年8月在世界人形机器人运动会分拣技能竞技项目中夺冠 [7] - 核心团队拥有十余年机器人产业经验 成功主导千万级智能硬件产品量产 具备卓越商业化实战能力 [5] 人才战略与研发方向 - 招聘2026届海内外高校毕业生 要求热爱学习 追求落地实践 信奉长期主义 [9] - 主要工作方向包括具身多模态大模型 人形强化学习控制 机器人规划与控制 机器人硬件与量产 具身软件系统开发 [9][10] - 岗位分布在北京 深圳 苏州三地 提供18个校招职位 [9][19]
具身和机器人领域爱好者的集会!ROSCon China 2025正式敲定了
具身智能之心· 2025-09-06 12:00
大会基本信息 - ROSCon China 2025将于2025年10月31日至11月1日在上海虹桥新华联索菲特大酒店举行 [2][24] - 大会定位为机器人行业年度盛会 内容涵盖ROS核心技术 应用开发 机器人创新及人工智能融合等热门领域 [20] 活动内容与参与方式 - 开放三种形式的演讲提案:主题演讲(10~30分钟) 研讨会(开放式汇报讨论) 闪电演讲(3~5分钟展示创意) [13][14] - 演讲内容需围绕ROS1和ROS2相关主题 可通过指定链接提交主题 核心内容及团队简介 [13][16] - 提供深度交流平台 汇聚全球顶尖专家分享前沿技术 并展示最新机器人产品及解决方案 [16] 商业合作机会 - 大会招募赞助商 为机器人技术企业及行业机构提供精准品牌曝光与合作机会 [17] - 赞助福利详情可通过邮箱roscon@guyuehome.com获取 [19] 参会权益 - 早鸟票限量销售 凭门票可享受上海虹桥新华联索菲特大酒店协议价 [20][22] - 参会者可体验未上市的黑科技产品 并与全球开发者及企业代表拓展人脉资源 [16]
许多自驾和传统机器人公司,已经开始成立具身实验室了......
具身智能之心· 2025-09-06 00:03
行业趋势与公司动态 - 自动驾驶公司、主机厂、新势力、传统机器人公司、传统臂商等各类企业正积极筹建具身团队和业务线[1] - 自动驾驶公司和主机厂主要目标是解决工厂智能化需求,通过机器人在固定场景下完成制造、搬运等任务以降低人力成本[1] - 传统机器人公司(如扫地机器人公司)希望通过添加机械臂和集成大模型来升级产品功能,实现更智能的服务和交互[3] - 传统臂商致力于推动机械臂的智能化升级,使其适配更泛化和多样化的应用场景[3] - 行业存在明显的人才缺口,许多公司面临具身岗位招聘困难,缺乏有经验的领军人物[3] 技术社区生态 - "具身智能之心知识星球"是国内首个具身全栈技术社区,目前拥有近2000名成员,目标未来2年内达到近万人规模[5] - 社区已形成产业、学术、求职、问答交流等多领域闭环,与近200家具身公司和机构建立合作关系[3][5] - 社区提供视频、图文、学习路线、问答、求职交流等综合服务,涵盖30+技术路线和40+开源项目[5][15] - 社区成员来自斯坦福大学、清华大学、优必选、小米等国内外知名高校和头部企业[15] - 社区建立了与多家具身公司的岗位内推机制,提供简历直推服务[6] 技术研究领域 - 重点研究方向包括VLA模型(视觉-语言-动作)、VLN模型(视觉语言导航)、多传感器融合感知、具身世界模型等[6] - 具体技术专题涵盖BridgeVLA(CVPR冠军方案,真机性能提升32%)、Spec-VLA(首个VLA模型推测解码框架)等突破性成果[6] - 社区汇总了60+具身智能相关数据集和行业主流仿真平台,提供强化学习、多模态大模型等完整学习路线[15][35] - 研究热点包括VLA+RL融合方法、sim2real技术、分层决策框架等前沿课题[5][6] 资源整合与知识体系 - 社区系统整理了机器人导航、动力学、运动学等基础理论的PDF书籍资源[25] - 汇总了国内外具身智能高校实验室和公司信息,覆盖教育、工业、医疗等应用方向[18][20] - 提供零部件品牌汇总(芯片、激光雷达、相机等)和开源项目汇总,助力快速上手实践[27][29] - 针对ToF与3D相机、数据采集方案、触觉感知等细分领域提供专业技术资料和应用指南[31][33][49]
从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
具身智能之心· 2025-09-05 08:45
具身智能行业数据挑战与仿真平台重要性 - 具身智能发展需要海量高质量交互数据 但现实数据采集成本极高 单台机械臂硬件部署需数万元且难以规模化[2] - 仿真环境成为重要解决方案 能以更低成本更高效率实现无限次试错 快速积累大规模交互经验[2] - 行业对仿真数据提出更高要求:需更高物理精度保证与现实世界贴合度 更丰富交互类型覆盖复杂场景 更强扩展性与稳定性满足科研与产业需求[2] RoboMirage仿真平台核心特性 - 全物体类型兼容的可扩展接触建模框架 支持刚体/可形变体/多关节结构等多样接触 具备强耦合仿真能力并允许用户自定义扩展[4] - 高精度多体动力学仿真能力 支持无穿透且时间一致的接触力仿真 可捕捉动静摩擦等微观动力学细节 精度远超传统模拟器[5] - 工业级稳定算法保障 依托隐式积分和凸优化方法确保仿真稳定性 彻底解决穿模问题 满足装配/抓取等工业任务可靠性要求[6] - Pythonic设计使接口友好易用 方便开发者快速集成与定制[7] - 采用GPU驱动异构加速技术 利用大规模并行计算实现工业级精度下的高性能快速仿真 显著优于传统有限元分析[8] 平台在复杂场景中的仿真能力验证 - 成功复刻明日环魔术 模拟金属环与柔性绳索间复杂接触缠绕 稳定处理摩擦滑动与刚柔体耦合[10] - 实现橡皮筋穿越魔术仿真 精准模拟弹性体缠绕/拉伸/形变过程中的粘滞阻尼/张力变化/自碰撞特性[12] - 完成洗扑克牌仿真 维持多张纸牌极小时间步交错插入时的接触连续性 防止穿透[14] - 模拟抽桌布魔术 高精度捕捉布料瞬时滑动及移除瞬间物体的摩擦惯性响应 兼顾非平衡动态与稳定性[16] 多源数据生态与Sim-to-Real路径 - 公司数据生态包含仿真生成样本/互联网语料/技术文档/真机实验多模态传感数据等多源信息[18] - 高精度仿真基座与多源数据体系协同 有效缩小仿真与现实差距 加速算法向现实环境稳健迁移[18] - 实现迄今最复杂具身操作任务——家具拼装 模型可读取说明书后自主完成多部件检测/插拔/旋转配合及多步骤任务分解[20][21] - 拼装过程采用自适应路径规划和接触力调控策略 通过实时力反馈动态调整操作 即便遭拆解干扰也能自动恢复状态[21][23] 技术前景与行业影响 - 高精度仿真与多源数据协同为高复杂度具身操作任务提供稳定性与精确度 建立现实应用技术基座[25] - 持续突破仿真精度/泛化能力与真实交互边界 使机器人能在更开放场景自主感知/推理/执行任务[26] - 该技术路线将加速具身智能从实验室到现实世界的跨越 催生全新人机协作模式[26]
从近1000篇工作中,看具身智能的技术发展路线!
具身智能之心· 2025-09-05 08:45
机器人操作技术演进 - 机器人操作从机械编程向具身智能演进 从简单夹爪发展到多指灵巧手[5] - 灵巧操作依赖数据采集与技能学习框架 包括模拟 人类演示和遥操作三种数据采集方式以及模仿学习与强化学习两种学习框架[5] - 面临三大关键挑战 涉及复杂被操作对象和多样操作类型[5][8] - 核心技术方向包括灵巧操作 多指手 人工智能赋能机器人 数据采集 模仿学习和强化学习[6] 具身导航与物理模拟器 - 导航与操作是具身智能核心能力 现实训练存在高成本问题 Sim-to-Real迁移受域差距制约[9] - 物理模拟器分为室内型 室外型和通用型 包括Habitat AI2-THOR CARLA AirSim ThreeDWorld和Isaac Sim等[14][15] - 导航从显式记忆转向隐式记忆 操作从强化学习拓展至模仿学习 扩散策略及VLA模型[15] - 操作任务按复杂程度和自由度递增 硬件演进涵盖多种类型[13] 具身多模态大模型发展 - 具身多模态大模型可弥合感知 认知与动作鸿沟 基础构成包括具身智能体 大语言模型 大视觉模型和视觉语言模型等[16][19] - 核心任务涵盖具身感知 导航 交互和仿真 感知分GPT与非GPT模型 导航分通用与专用模型 交互分短长视域动作策略[19] - 数据集包括Open X-Embodiment和HM3D等 面临跨模态对齐难 计算资源消耗大 领域泛化性弱等技术挑战[19] 具身仿真与研究任务 - 具身AI模拟器存在真实感 可扩展性和交互性问题 研究任务面临长轨迹记忆设计等多重挑战[20][24] - 视觉探索通过运动或感知构建环境内部模型 方法分好奇心驱动 覆盖最大化和重建驱动 核心数据集为Matterport3D和Gibson V1[24] - 视觉导航含点导航 物体导航 带先验导航和视觉语言导航 评估指标以成功率和路径长度加权成功率为主[24] 强化学习在视觉领域应用 - 强化学习在大语言模型中成效显著 近年拓展至视觉多模态领域 面临高维视觉输入等挑战[25] - 基础理论涵盖RLHF DPO和RLVR三大对齐范式 以及PPO和GRPO两种策略优化算法[26] - 核心研究方向包括多模态大语言模型 视觉生成 统一模型和视觉语言动作模型[28] 遥操作与人形机器人 - 人形机器人遥操作可结合人类认知与机器人物理能力 适配人类环境与危险场景如核救援和空间探索[29] - 系统架构含人类状态测量 运动重定向 机器人控制和多模态反馈 支持单向或双向遥操作[32] - 应用包括远程存在和危险作业等 挑战集中在非专家操作门槛 动态环境适应和长延迟稳定性[35] 视觉语言动作模型进展 - VLA模型从跨模态学习架构演化至融合视觉语言模型和动作规划器的通用智能体 涵盖80多个近三年发布的模型[33] - 按架构范式分类 提出基于任务复杂度 模态多样性和数据集规模的新型评估标准 涉及102个VLA模型和26个基础数据集[36] - 发展历程分萌芽 探索和快速发展三阶段 从模型架构 训练数据 预训练方法 后训练方法和模型评估五个维度剖析现状[38] - 横向整合VLA建模实践 提出单体模型与分层模型的分类体系 探索强化学习融合等前沿方向[41]
美的团队分享!在七个工作中找到推理到执行,构建通用灵巧VLA模型的钥匙
具身智能之心· 2025-09-05 08:45
核心观点 - 构建持续进化且通用的视觉-语言-动作模型 通过多模态基座模型建立感知与动作联合框架 扩展至复杂场景与灵巧操作任务 应对柔性物体与精细操作挑战 提升通用灵巧能力 [6] - 深度融合视觉语言模型的开放世界理解与逻辑能力 融入大模型先验与语义推理 增强在未知任务中的高层规划与泛化能力 [6] 技术模型发展 - DexVLA模型通过插入扩散专家实现通用机器人控制 [5] - ChatVLA-2模型具备开放世界具身推理能力 基于预训练知识 [5] - ChatVLA模型统一多模态理解与机器人控制 [5] - Diffusion-VLA模型通过自生成推理实现可泛化可解释的机器人基础架构 [5] - CoA-VLA模型通过视觉-文本赋能链提升视觉-语言-动作模型性能 [5] - PointVLA模型将三维世界信息注入视觉-语言-动作框架 [5] - TinyVLA模型致力于快速数据高效的机器人操作视觉-语言-动作架构 [5] 能力拓展方向 - 构建VLA基座模型作为技术基础架构 [7] - 拓展VLA模型能力边界至更复杂应用场景 [8] - 提升VLA模型泛化能力以适应未知任务环境 [8] - Spec-VLA框架专为推理加速设计 在保持精度同时提升速度 [10] 应用场景深化 - 灵巧手设计成为打通手-眼-脑感知闭环的关键技术 [10] - 跨实体世界模型助力小样本机器人学习 [10] - 应对柔性物体与精细操作等挑战性任务 [6] - 从开放世界语义推理延伸至真实环境动作执行 [6]