Workflow
具身智能之心
icon
搜索文档
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-09 08:03
VLA科研背景与介绍 VLA,Vision-Language-Action模型,是具身智能领域的新范式,从给定的语言指令和视觉信号,直接生成出机 器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性,提供了机器人模型往更加通用,场 景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策 有效整合,显著提升了机器人对复杂环境的理解和适应能力。 VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境,广 泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发展,如 pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性体现在能 够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力和实际应用 价值,成为智能机器人领域的关键驱动力。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积 ...
花了很久,才整理的具身学习路线......
具身智能之心· 2025-09-08 12:00
行业人才现状与挑战 - 具身智能行业面临系统性人才培养体系缺失的问题,导致人才在数量和质量上均显不足 [1] - 当前从业者背景多元,主要包括自动驾驶、大模型、传统机器人以及其他工程领域,但普遍缺乏完整的技术闭环 [1] - 行业发展迅速,但教育体系转型滞后,许多新入行者缺乏正规指导,呈现“野路子”现象 [1] 社区平台价值与规模 - “具身智能之心知识星球”是国内首个具身全栈技术社区,集视频、图文、学习路线、问答、求职交流于一体,目前拥有近2000名成员 [3] - 社区目标在未来2年内将规模扩大至近万人,旨在打造技术分享与交流的聚集地 [3] - 社区已汇聚近200家具身公司与机构成员,成员来自斯坦福大学、清华大学、智元机器人、优必选等国内外顶尖高校和头部企业 [16] 社区核心内容与资源 - 社区汇总了超过40个开源项目、近60个具身智能相关数据集以及行业主流仿真平台 [17] - 提供了近30条技术路线,覆盖从Benchmark、综述到入门学习的全方位内容 [4] - 整理了包括具身智能感知、交互、VLA、强化学习、机器人导航等在内的17个以上技术子领域的学习路线 [17][44][46][48][50][52][54][58][60][62][64][66][69][71][73][75] 技术交流与前沿探讨 - 社区定期举办圆桌论坛和直播,内容涵盖机器人本体、数据、算法等前沿话题 [4] - 社区问答板块活跃,针对设备使用、数据采集、模型部署等实际问题提供快速解答 [3] - 具体技术讨论包括VLA模型泛化差的原因与解决方法、BridgeVLA方案带来的真机性能提升32%、以及Sim2Real等核心挑战 [4] 职业发展与产业对接 - 社区与多家具身公司建立内推机制,为成员提供求职岗位第一时间对接 [7] - 社区内汇总了国内外具身智能高校和公司信息,为成员深造和职业选择提供参考 [21][22] - 行业观察显示,具身智能目前发展阶段对标自动驾驶17/18年,仍存在入场窗口期,技术栈与自动驾驶有较高通用性 [79][81]
IROS 2025 | 走向物理智能,“桃源”与真实世界机器人学习挑战赛启动
具身智能之心· 2025-09-08 08:03
赛事概览 - 上海人工智能实验室将于2025年10月IROS会议期间举办“物理世界中的多模态机器人学习研讨会”并同期举行“桃源”机器人学习挑战赛 [1] - 挑战赛旨在推动具身智能技术从仿真到现实应用的关键跨越 设置操作与导航2大赛道 [1] - 赛程分为线上仿真阶段和线下决赛阶段 线上赛在“桃源 Intern·Utopia”通用具身仿真平台进行 [1] 技术平台与引擎 - 上海人工智能实验室发布了“书生”具身全栈引擎Intern-Robotics 通过虚拟仿真建模、虚实数据贯通等技术体系 一站式解决具身智能从数据、训练到应用的全链条难题 [1] - 该引擎旨在推动具身大脑从“碎片化开发”迈向“全栈化量产”时代 [1] 赛道一:视觉语言操作任务 - 任务聚焦于开放桌面场景 要求构建具备语言理解与执行能力的多模态机器人操作系统 [6] - 参赛者需设计端到端操控策略模型 实现从视觉感知、语言指令理解到动作控制预测的完整流程 [6] - 机器人需控制机械臂完成复杂指令引导下的多种操控任务 [6] 赛道二:视觉语言导航任务 - 任务聚焦于物理环境 要求构建具备语言理解能力的多模态移动机器人导航系统 [9] - 参赛者需设计感知-决策模型 实现从视觉感知、语言指令理解到导航动作预测的完整流程 [9] - 机器人需驱动足式机器人在语言引导下完成室内导航 并应对视角抖动、高度变化及局部避障等挑战 [9] 赛事挑战 - 赛道一主要挑战包括融合语言与视觉信息驱动一体化流程 长程操作任务的稳定性与自我纠偏 以及应对多样化场景和指令的模型泛化能力 [11] - 赛道二主要挑战包括在物理引擎中稳健处理行走过程中的视角抖动与避障 以及应对复杂新场景与指令的泛化能力 [17] 奖励与支持 - 赛事总奖励价值近百万元人民币 包括奖金、奖品和机器人代金券等 [18] - 每个赛道冠军团队可获得70,000元人民币奖金 第二名35,000元 第三名21,000元 [18] - 优胜团队将受邀在IROS Workshop展示算法方案 并与领域专家交流 优秀参赛者有机会参加上海AI实验室的前沿学术活动 [2] - 赛事由上海AI实验室主办 群核科技与阿德莱德大学协办 并获字节跳动、华为等多家企业联合赞助 [2] 赛程安排 - 2025年7月25日报名启动及赛事材料包发布 7月30日测试服务器上线 [18] - 2025年9月30日提交截止 10月18日进行线下挑战 10月20日在IROS 2025现场颁奖 [18] - 上海AI实验室将于2025年10月20日在IROS大会现场举办研讨会 多位国内外顶尖专家将出席分享 [19]
具身性在移动操作机器人直观全身遥操作中的作用与性能评估
具身智能之心· 2025-09-08 08:03
研究核心观点 - 研究聚焦移动操纵机器人遥操作界面设计 探索控制范式与视觉反馈模态对长期任务性能的影响 旨在平衡具身感 认知负荷与任务效率[3] - 研究发现解耦具身控制器(SBC)比耦合具身控制器(WBC)任务完成时间短169秒(p=0.025) 操作更灵活[19] - 带VR视觉反馈使任务完成时间增加142秒(p=0.026) 并显著降低操作者可用性(SEQ p=0.003, UMUX p=0.006) 增加认知与体力负荷[19][22][23] - 耦合具身控制器(WBC)收集的数据更适合模仿学习 训练的策略成功率80% 而SBC数据训练的策略成功率为0%[32] 研究背景与目标 - 移动操纵机器人数据集稀缺 核心瓶颈在于移动性扩大操作空间的同时增加控制与反馈复杂度[3] - 研究针对长期移动操纵任务 需全身协调 误差恢复及长时间操作稳定性 是此前研究忽视的复杂场景[3] - 核心目标是探索控制范式(耦合具身/解耦具身)与视觉反馈模态(VR/传统屏幕)对操作者体验的协同影响[3] 遥操作系统设计 - 系统以PAL Tiago++全向底座机器人为控制对象 搭配HTC Vive Pro VR设备 测试4种界面组合[5] - 解耦具身控制器(SBC)将底座运动与臂运动独立控制 臂控制采用逆运动学求解器以30Hz运行 底座控制采用3D方向舵[6] - 耦合具身控制器(WBC)以15Hz频率运行 通过任务空间逆动力学实现全身控制 支持末端执行器模式与全身操纵模式切换[6] - 视觉反馈模态差异在于操作者获取机器人视野的方式:带VR模态可切换3个立体相机视角 无VR模态通过外部屏幕查看视频流[12] 实验设计与评估 - 采用混合设计方案:控制器为被试间变量(WBC/SBC) 反馈模态与尝试次数为被试内变量(带VR/无VR, Trial 1-3)[9][10] - 20名被试按VR经验 电子游戏经验等多维度分层 确保两组控制器被试特征均衡[13] - 评估指标涵盖行为指标(任务完成时间 成功率 工效学数据)与态度指标(可用性问卷 工作负荷问卷 模拟眩晕问卷)[15][18] - 单名被试实验时长约2小时 包含仿真训练 真实场景训练与任务测试环节[14] 关键研究发现 - 任务完成时间受反馈模态与控制器显著影响:带VR模态增加142秒 SBC比WBC缩短169秒 Trial次数存在边际学习效应(减少31.64秒/次,p=0.12)[19] - 所有条件下任务成功率均较高(平均得分9.4/10) 控制器类型 反馈模态与Trial次数均无显著影响[19] - 带VR模态显著降低可用性(SEQ p=0.003, UMUX p=0.006) 操作者认为VR模式下任务更难[22] - 带VR模态下认知需求 体力需求更高 性能感知更低 整体负荷显著上升 NASA TLX问卷显示负荷得分落入"高负荷"区间[23] - 控制器对负荷维度影响不同:SBC引发更高物理需求(p=0.02) WBC引发更高挫折感(p=0.009)[23] - 工效学评估显示长期操作存在中等肌肉骨骼风险(RULA平均得分4.12±0.27) 风险主要来自上臂与手腕[26] - WBC的质心偏差波动显著大于SBC 因底座运动需通过控制器位姿差异激活 导致身体姿态调整更频繁[26] 专项分析 - SBC用户在带VR模态下使用机器人头部相机比例60.4±38% 显著高于WBC用户36.8±39%(p<0.0001) 表明具身感更强[32] - 真实场景中VR引发的眩晕感接近显著水平 优化视频流延迟与分辨率可降低眩晕[32] - 仿真训练有效性获认可(OATS评分4.8±1.2/7分) 但任务难度感知显著高于真实场景(带VR p=0.015 无VR p<0.0001)[32] - 模仿学习实验中WBC数据训练的策略成功率80% SBC数据训练策略成功率0% 因SBC数据缺乏臂-底座耦合信息[29][32]
具身智能之心遥操作技术交流群来了!
具身智能之心· 2025-09-08 08:03
行业交流活动 - 行业正围绕具身智能的遥操作技术建立专业交流社群 [1] - 社群面向相关技术方向的研究人员及从业者开放加入 [1] - 加入渠道需通过指定助理微信并备注机构及专业信息 [2]
具身智能之心开学季福利!今年的有点不太一样......
具身智能之心· 2025-09-08 08:03
技术演进趋势 - 机器人算法从传统的pipeline方案发展到端到端方案 [1] - 具身算法提升全局感知能力 早期抓取工作需通过姿态识别和3D视觉完成感知 再规划执行 过程繁琐且泛化性差 [1] - 当前VLA或VA方案通过学习方式让机器人动作更流畅 部分方案仅需几十条数据即可实现泛化 [1] - 导航任务从建图、重定位、导航规划发展为基于大模型的map-free目标导航方案 [2] 行业市场前景 - 具身智能的市场规模和容量大于其他领域 但尚有许多问题待解决 [2] - 在数据、本体、算法领域存在较大发展空间 [2] 教育产品服务 - 公司提供具身智能领域的系统化教程和社区学习平台 [2] - 课程提供系统化学习路径 帮助用户快速入门 [6] - 课程包含丰富的机器人实战项目 涵盖仿真和真机实战 [7] - 提供大咖直播互动 由一线研究员和工程师分享经验 [7] - 课程支持永久回放和源码共享 [7] - 在9月1日至9月14日推出开学季促销活动 [4] - 推出299元限时超级折扣卡 享受全课七折优惠(一年期) [4] - 知识星球立减66元 [4] - 论文辅导最高可抵扣10000元(1000普宣抵扣10000) [4]
字节团队最新Robix!全能大模型,一个模型就能搞定机器人推理、任务规划和交互
具身智能之心· 2025-09-08 08:03
文章核心观点 - 字节跳动提出统一视觉-语言模型Robix 作为机器人高层认知中枢 通过端到端架构整合推理 规划与交互能力 解决现有分层系统在动态场景中的能力割裂问题[2][3][5] - Robix通过三阶训练策略(持续预训练 有监督微调 强化学习)实现物理世界感知与人类需求适配 在基础推理 离线规划和在线场景中超越主流商业模型[5][13][22] - 模型在真实场景测试中任务进度达92.5-92.6% 较Gemini-2.5-Pro提升4.3个百分点 响应延迟更低 展现更强的物理操作适配性[29][32] 技术架构与工作机制 - 采用分层系统设计 Robix作为高层认知层处理多模态推理与任务规划 低层控制器执行原子动作指令形成感知-推理-动作闭环[7][8] - 输入包含视觉观测 用户指令和历史交互记录 输出原子动作指令 自然语言回复和结构化思考轨迹三大类型[9][11] - 支持复杂指令理解 实时中断处理 任务状态监测和主动对话四大核心交互能力[12] 训练策略与数据构建 - 持续预训练使用2000亿tokens数据 包含3D空间理解(400亿) 视觉定位(700亿) 任务中心推理(100亿)和通用多模态推理(900亿)四类数据集[13][14] - 有监督微调通过合成7类交互指令数据 涵盖多阶段指令 约束指令 实时中断处理和模糊指令澄清等场景[17][18][19] - 强化学习采用GRPO算法 引入思考-动作一致性奖励机制 解决推理与动作脱节问题[22][23] 性能表现 - 基础具身推理:Robix-32B在VSIBench得分50.9超Gemini-2.5-Pro(43.4)7.5个百分点 在LVIS-MG达79.2超开源模型最高值73.8[24][25] - 离线任务规划:Robix-32B-RL在OOD任务准确率86.8% 超Gemini-2.5-Pro(83.8%)3个百分点 在ID任务超开源模型28.1-64.6个百分点[27] - 在线真实场景:搭配自动VLA控制器时任务进度92.5% 超Gemini-2.5-Pro(88.2%)4.3个百分点 超GPT-4o(64.4%)28.1个百分点[32] 优势与局限 - 核心优势体现在统一性(单模型整合三大能力) 灵活性(支持动态重规划)和泛化性(OOD任务持续领先)[35][38] - 主要局限为动态场景鲁棒性不足 高频场景切换可能出现推理漏洞 且依赖短期记忆窗口难以支持长时交互[38]
面向VLA方向的1v6科研论文辅导小班课来啦~
具身智能之心· 2025-09-07 20:28
VLA模型技术概述 - VLA是具身智能领域新范式,从语言指令和视觉信号直接生成机器人可执行动作[1] - 该范式打破传统单任务训练局限,推动机器人模型向更通用、场景更泛化方向发展[1] - 模型将视觉信息、语言指令和行动决策有效整合,显著提升机器人对复杂环境的理解和适应能力[1] VLA应用价值与产业进展 - 模型使机器人能在多样化场景中自主决策,灵活应对未见环境,广泛应用于制造业、物流和家庭服务等领域[3] - 已成为研究热点,推动pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA等多个前沿项目发展[3] - 国内外具身智能领域处于蓬勃发展阶段,Unitree、智元、星海图等团队从实验室走向商业化,华为、京东、腾讯等科技巨头积极布局[5] - 适应性强,可应用于机械臂、四足机器人和人形机器人等多种平台[3] VLA技术演进路径 - 技术演进包括从早期抓取位姿检测到行为克隆,再到近期Diffusion Policy和多模态基础模型[8] - RT-2、OpenVLA和PI0等前沿模型实现从视觉输入和语言指令到机器人动作的端到端映射[8] - 深入研究跨域泛化、长期规划与世界模型构建等核心挑战[9] - 探讨PaLM-E、RT-X等模型通过多模态预训练和微调策略增强机器人开放环境适应性和鲁棒性[9] 科研课程核心内容 - 课程聚焦智能体通过感知-认知-行动循环与物理世界交互,从具身智能理论基础出发[7] - 涵盖VLA模型理论基础、仿真环境搭建、实验设计与论文撰写全过程指导[16] - 系统讲解隐式端到端、显式端到端、分层端到端三大VLA模型体系[16] - 第7周专门分析领域研究热点与未解决难题,包括长期记忆、VLA+RL原子技能库构建等前沿方向[16] 课程特色与学习成果 - 培养独立学术研究能力,注重创新点挖掘与研究方向指导[14][15] - 提供从idea到论文全流程支持,帮助学生形成研究idea并完成初步实验[16] - 完成课程后学生能全面掌握VLA理论基础、熟练使用仿真环境、具备独立发现问题能力[16] - 最终产出完整论文初稿,掌握学术论文撰写与投稿完整流程[15][16] 师资与硬件要求 - 辅导老师为Top 985博士,累计发表顶会/顶刊文章二十余篇,指导本科生发表顶会/顶刊四篇[13] - 硬件要求4090以上算力进行推理,训练算力自备(建议4卡4090)[17] - 需要一定PyTorch和Python基础,能够自己修改代码[18]
【附内推】银河通用机器人2026届校园招聘火热进行中
具身智能之心· 2025-09-07 09:39
行业背景与公司定位 - 具身大模型技术不断突破推动人形机器人进入千行百业 通用智能发展前景清晰可见 [2] - 公司为全球领先具身智能大模型通用机器人企业 成立于2023年5月 专注于通用机器人产品开发 [4] - 产品已广泛应用于商业 工业 医疗场景 在北京 深圳 苏州 香港设研发中心 与北京大学 北京智源人工智能研究院 宣武医院 中关村学院建立联合实验室 [5] 技术研发与产品突破 - 2024年6月发布首代全自研具身大模型机器人Galbot G1 [6] - 2025年1月发布全球首个端到端具身抓取基础大模型GraspVLA [6] - 2025年5月全球首个人形机器人智慧零售方案落地 获100家门店订单 [6] - 2025年6月发布产品级端到端具身导航大模型TrackVLA 同期推出零售行业端到端具身大模型GroceryVLA [7] - 2025年6月发布全球首款全开源多机型跨虚实人形机器人全身遥操作系统OpenWBT [7] - 2025年8月发布Galbot G1 Premium 成为全球首台搭载英伟达最新Jetson Thor芯片的机器人 [7] 市场成就与行业认可 - 2025年8月Galbot作为唯一官方机器人平台独家支持IOAI国际人工智能奥林匹克学术活动 [7] - 2025年8月在世界人形机器人运动会分拣技能竞技项目中夺冠 [7] - 核心团队拥有十余年机器人产业经验 成功主导千万级智能硬件产品量产 具备卓越商业化实战能力 [5] 人才战略与研发方向 - 招聘2026届海内外高校毕业生 要求热爱学习 追求落地实践 信奉长期主义 [9] - 主要工作方向包括具身多模态大模型 人形强化学习控制 机器人规划与控制 机器人硬件与量产 具身软件系统开发 [9][10] - 岗位分布在北京 深圳 苏州三地 提供18个校招职位 [9][19]
具身和机器人领域爱好者的集会!ROSCon China 2025正式敲定了
具身智能之心· 2025-09-06 12:00
大会基本信息 - ROSCon China 2025将于2025年10月31日至11月1日在上海虹桥新华联索菲特大酒店举行 [2][24] - 大会定位为机器人行业年度盛会 内容涵盖ROS核心技术 应用开发 机器人创新及人工智能融合等热门领域 [20] 活动内容与参与方式 - 开放三种形式的演讲提案:主题演讲(10~30分钟) 研讨会(开放式汇报讨论) 闪电演讲(3~5分钟展示创意) [13][14] - 演讲内容需围绕ROS1和ROS2相关主题 可通过指定链接提交主题 核心内容及团队简介 [13][16] - 提供深度交流平台 汇聚全球顶尖专家分享前沿技术 并展示最新机器人产品及解决方案 [16] 商业合作机会 - 大会招募赞助商 为机器人技术企业及行业机构提供精准品牌曝光与合作机会 [17] - 赞助福利详情可通过邮箱roscon@guyuehome.com获取 [19] 参会权益 - 早鸟票限量销售 凭门票可享受上海虹桥新华联索菲特大酒店协议价 [20][22] - 参会者可体验未上市的黑科技产品 并与全球开发者及企业代表拓展人脉资源 [16]