Workflow
具身智能之心
icon
搜索文档
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 20:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]
为什么人形机器人不容易落地?移动操作更受欢迎?
具身智能之心· 2025-07-08 17:31
具身智能产业落地分析 - 人形机器人短期内难以实现稳定部署 因本体稳定性不足 摔倒风险高 维修成本昂贵 责任归属不明确 [1] - 移动操作+机械臂方案更易落地 如银河通用G1在家居 超市等场景表现优异 [1] - 智元远征A2-W在工业领域应用突出 稳定底盘设计满足高负载施工需求 [2] 数据与技术瓶颈 - 需建立大规模基础模型预训练数据集 场景数据采集效率与质量决定规模化能力 [4] - sim2real方案虽降低数据采集成本 但真实场景性能迁移仍是待突破难点 [4] 行业生态建设 - 具身智能之心知识星球整合40+开源项目 60+数据集 覆盖强化学习 多模态大模型等18个技术路线 [13] - 社区汇聚斯坦福 清华等高校实验室及优必选 小米等200家头部企业成员 [13] - 提供仿真平台汇总 零部件品牌清单 工业研报等15类资源 支持从学术到产业全链路需求 [18][20][25][27][33] 人才发展支持 - 汇总国内外40+高校实验室研究方向 助力升学与职业规划 [14] - 提供机械臂抓取 双足机器人等24个领域的仿真项目实践方案 [59][61] - 定期组织行业大佬直播 分享VLM应用 分层决策等前沿议题 [15][65] 商业化进展 - 行业关注重点转向具身智能与大模型部署 强化学习应用等方向 [13][35] - 头部企业已布局教育 医疗 物流等细分场景 形成差异化竞争格局 [18]
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
具身智能之心· 2025-07-08 17:31
技术框架 - 提出"真实-仿真-真实"框架,通过多视角图像进行3D高斯溅射(3DGS)场景重建,构建兼具照片级真实感与物理交互特性的"数字孪生"仿真环境 [2] - 框架支持视觉导航与运动控制的协同学习,实现纯RGB输入的仿真到现实策略迁移 [2] 应用场景 - 方法在家庭和工厂场景中具有应用潜力,支持视觉目标追踪任务 [2] - 实验表明该方法能促进策略在新环境中的快速适应与高效探索 [2] 技术优势 - 解决"仿真与现实差距"问题,特别是缺乏真实感视觉渲染阻碍高阶任务的问题 [2] - 通过3DGS场景重建技术提升仿真环境的真实感与物理交互特性 [2] 相关资源 - 论文标题为《VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion》 [3] - 项目链接和论文链接已公开 [3]
星动纪元再获5亿融资!团队大牛伯克利和清华交叉信息研究院背景
具身智能之心· 2025-07-08 08:14
公司融资与背景 - 星动纪元完成5亿元A轮融资 由鼎晖资本和海尔资本联合领投 厚雪资本、华映资本、襄禾资本、丰立智能等跟投 老股东清流资本、清控基金继续追加投资 [1] - 融资资金将用于人形机器人软硬技术研发与量产落地 推动"模型-本体-场景数据"闭环飞轮运转 [1] - 公司成立于2023年8月 由清华大学交叉信息研究院孵化 是唯一一家清华大学占股的人形机器人企业 [3] - 创始人陈建宇为清华大学交叉信息研究院助理教授、博士生导师 拥有UC Berkeley博士背景 师从美国工程院院士Masayoshi Tomizuka教授 [3] 技术资源与社区 - 具身智能之心知识星球汇总40+开源项目、60+具身智能数据集、行业主流仿真平台及技术学习路线 [9] - 技术路线涵盖具身感知、强化学习、多模态大模型、机械臂控制、机器人导航等25个细分领域 [9][31][33][37][57] - 社区成员来自斯坦福、清华、ETH等高校及优必选、小米、逐际动力等头部企业 [9] - 提供国内外80+具身智能公司及实验室信息 覆盖教育、医疗、工业等应用方向 [12][15] 行业动态与人才发展 - 整合30+具身智能研报 跟踪大模型与人形机器人行业落地进展 [17] - 汇总机器人零部件品牌 包括芯片、激光雷达、IMU等核心部件供应商 [22] - 定期举办行业大佬直播 分享学术进展与工业应用 并提供企业岗位对接服务 [14][62] - 仿真平台资源支持无实物设备的研究 如Isaac Sim等框架可完成机械臂抓取等仿真项目 [29][67]
亚马逊100万机器人上岗!即将超越人类员工?机器人军团接管工作
具身智能之心· 2025-07-07 17:20
亚马逊机器人部署里程碑 - 公司全球仓库已部署第100万个机器人,最新一台位于日本物流中心[3][4] - 机器人类型包括机械臂、轮式运输机器人、自动分拣系统和打包机器人[5][6] - 目前75%的配送任务有机器人参与[7] 机器人技术升级与效率提升 - 新型Vulcan机器人具备双臂操作和触觉功能,能处理75%库存商品[15][16][18] - 生成式AI模型DeepFleet优化路径规划,提升机器人运行效率10%[10][11] - 路易斯安那州新物流中心机器人数量达现有10倍,商品流转速度快25%[44][48] 人机协作与岗位转型 - 公司培训70万员工转向高薪岗位,与机器人协同工作[22] - 员工案例显示转型后工资增长2.5倍,工作内容转为管理系统[25][26] - 分拣系统将商品送至员工面前,机器人协助抓取深处货物[30] 自动化对劳动力市场影响 - 每仓库平均员工数降至670人(16年最低),人均处理包裹数从175增至3870个[36][37] - 公司过去几年裁员27,000人,CEO称AI将重塑劳动力结构[67][59] - 作为美国第二大私营雇主,公司自动化趋势被视为行业风向标[56] 未来技术布局 - 测试人形机器人(带腿/手臂/头部)执行回收容器任务[53] - 下一代物流中心计划推进机器人全面整合[43][53] - AI已应用于代码编写、数据分析和研究等创新领域[64]
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 17:20
核心观点 - 大型视觉-语言-抓取模型DexVLG能够根据语言指令和单视角RGBD输入预测灵巧抓取姿态,并在模拟和真实世界中表现出强大的零样本泛化能力,抓取成功率超过76% [4][8] - DexGraspNet 3 0数据集包含1 7亿个灵巧抓取姿态和174k个模拟目标,是目前最大的部分感知功能性灵巧抓取数据集 [4][10] - 该研究通过结合多个预训练基础模型和基于流匹配的去噪范式,构建了参数规模达数十亿的DexVLG模型 [8][23] 领域介绍 - 当前大型视觉-语言-动作模型主要局限于平行夹持器控制,缺乏灵巧手控制能力,主要原因是灵巧抓取数据不足 [5] - 现有灵巧抓取数据集要么规模有限,要么缺乏语义感知,无法支持功能性抓取任务 [5] - 该领域需要大规模、部分感知的数据集来提升模型容量和泛化能力 [5] 数据集构建 - DexGraspNet 3 0数据集包含来自Objaverse的174k个目标上的1 7亿个灵巧抓取姿态,每个姿态都经过物理模拟验证并配有语义标题 [10][12] - 使用SAMesh进行零样本几何部分分割,GPT-4o进行部分名称标记,确保数据集具有丰富的语义信息 [12] - 数据集构建采用部分感知的手姿态初始化策略和多个能量函数优化,确保抓取姿态的语义合理性 [13][15][17][18][19] 模型架构 - DexVLG采用预训练的Uni3D点云编码器和Florence-2语言基础模型,参数规模从2 32亿到7 71亿不等 [26][28] - 模型使用基于流匹配的去噪范式生成抓取姿态,通过最小化均方目标函数进行训练 [29] - 点云特征与语言embedding向量拼接后输入大型语言模型,与姿态预测头共享交叉注意力机制 [28] 实验结果 - 在模拟环境中,DexVLG实现了76 1%的抓取成功率和48 1%的部分抓取精度,显著优于基线模型 [32] - 模型展示了强大的零样本泛化能力,能够处理多种物体和语义部分的抓取任务 [30] - 真实世界实验验证了模型预测的抓取姿态与语言指令的良好对齐性 [8]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 17:20
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业 使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 提供高保真、高效率的机器人训练环境 支持高度并行化计算 可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走 再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一:构建六自由度机械臂模型 实现正逆运动学求解和PID控制 [15][16] - 项目二:为机械臂添加视觉感知能力 实现基于视觉的物体检测和抓取 [17][18] - 项目三:训练智能体学会复杂运动技能 如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四:实现模型预测控制算法 进行实时轨迹优化 [21][22][23] - 项目五:设计多机器人协作系统 共同完成复杂任务 [24][25] - 项目六:通过域随机化技术实现Sim-to-Real迁移 在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能 能够构建复杂机器人仿真环境 实现高保真物理交互 [29] - 深入理解强化学习核心算法 掌握机器人控制理论和实践技巧 实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验 熟悉现代AI开发工具链 培养良好工程习惯 [31] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 [33] - 产品经理方向:年薪30-80万 有机会发展为技术总监或创业者 [33]
代码+视频!国内首个足式机器人算法与实战(双足/四足/人形等)
具身智能之心· 2025-07-07 17:20
具身机器人步态控制的重要性 - 步态控制是具身智能机器人实现空间移动的核心技术 双足或四足机器人需模拟真实生物动作以应对复杂地形如废墟 火灾现场 太空探索等场景[1] - 足式机器人能跨越沟壑 攀爬楼梯 避开障碍物 在轮式/履带式设备无法到达的区域执行救援 科考任务 近20年工业界与学术界持续投入研发[1] - 真实场景应用需解决负重条件下的高难度动作 如跳跃 转向 奔跑 并在碎石 坑洼等复杂路面保持稳定性[1] 人形机器人动作学习的挑战 - 人类步态动作近万种 机器人需学习爬楼梯 跑步 跳舞等高难度动作 自主学习能力是行业痛点[2] - 深度学习加速了动作控制研究 但数十年发展仍未完全突破 相关成果正逐步转化到工业产品[2] 足式机器人的战略地位 - 被誉为"机器人领域下一座里程碑" 可像生物一样适应复杂地形 突破平坦环境限制[4] - 资本青睐巡检 安防 救援 工业自动化等场景 企业高薪争夺人才 当前是进入领域的最佳时机[4] - 技术栈涵盖运动学 动力学 多传感器融合 强化学习等 缺乏系统学习路径导致入门困难[4] 具身足式算法课程核心内容 - 国内首门系统教程 覆盖四足基础 双足进阶 高级算法 Sim2Real迁移 安全机制等全流程技术[5][6] - 采用Isaac Gym/Gazebo/MuJoCo仿真环境 实战案例包括平稳行走 动态平衡 多任务切换等[6][12] - 前沿技术深度解析 如波士顿动力跳跃算法 RMA策略 域随机化等[6][17] 课程实战与硬件部署 - 主流硬件平台分析:Unitree DeepRobotics等 包含碰撞检测 人体交互安全等部署策略[12][17] - 大作业设计多场景训练:斜坡 碎石路 障碍物 成果展示包括训练过程可视化与性能指标[12][17] 目标学员与技能提升 - 面向AI从业者 研究生 转行者等 需具备Python/PyTorch基础及线性代数知识[27] - 培养全栈技能:从运动学基础到强化学习算法 积累1-2年实战经验 掌握Sim2Real迁移能力[27][28] - 课程形式为离线视频+代码+答疑 配套源码与仿真练习 有效期1年[28]
具身智能论文速递 | VLA、3DGS、扩散模型等、RoboBrain~
具身智能之心· 2025-07-06 19:58
ArtGS框架 - 提出ArtGS框架,通过动态可微3D高斯溅射与视觉-物理闭环优化,显著提升关节目标建模与操作精度 [2] - 在7类100个关节目标上,关节轴平均误差(AE)降至4.27°~7.03°,比最优基线降低约5°,关节原点误差(OE)降至3.26~5.84 cm [2] - 在洗碗机、冰箱等任务中,操作成功率高达62.4%~90.3%,比最优基线GAMMA提升最高33.5% [2][10] - 整合静态3D高斯溅射重建与微调的视觉-语言模型,将物理建模注入视觉感知过程,实现对关节骨骼参数的交互式优化 [2] - 利用改进的Denavit-Hartenberg正向运动学将机器人转化为3DGS数字孪生,结合动态3DGS的时空一致性和可微分渲染,优化关节参数 [2] cVLA模型 - 提出轻量级cVLA模型,通过图像坐标系轨迹关键点预测实现训练效率提升10倍 [15] - 仿真成功率最高达54%(Objaverse-hard场景),单次模仿成功率70%(CLEVR-easy) [15] - 真实机器人任务零样本迁移成功(15种桌面操作任务) [15] - 基于PaliGemma架构,通过预测图像坐标系下的末端执行器关键位姿实现轨迹生成 [15] - 提出新的解码算法beam-search-NMS,通过非极大值抑制在光束搜索中寻找分布峰值 [15] RoboBrain 2.0 - 提出轻量级(7B)与全尺寸(32B)双模型架构,通过三阶段渐进训练策略解决具身AI的三大瓶颈 [21][23] - 在RefSpatial-Bench定位准确率达54%,超越GPT-4o 45个百分点 [21] - 多机器人规划任务平均分80.33%,在12个基准测试中6项达到SOTA [21] - 32B变体在多个基准上超越现有开源和专有模型,如BLINK、CV-Bench等 [23][27] - 构建大规模高质量训练数据,涵盖通用多模态理解、空间感知、时间建模三类 [23] SE(3)-等变扩散策略 - 提出SE(3)-等变扩散策略(Spherical Diffusion Policy),在3D场景中实现机器人操作的鲁棒泛化 [32][37] - 在20个模拟任务中平均成功率提升至49%(15°倾斜场景),在5个物理机器人任务中平均成功率提升至78% [32][41] - 通过将状态、动作和去噪过程嵌入球形傅里叶空间,实现对3D场景变换的轨迹自适应 [37] - 设计球形FiLM层,实现动作去噪过程对等变场景嵌入的条件约束 [37] - 提出球形去噪temporal U-net,在保证时空等变性的同时兼顾计算效率 [37]
全球AI失业大逃杀:25年已裁94000人!微软高管:被裁可用AI管理情绪
具身智能之心· 2025-07-06 19:54
行业裁员趋势 - 2025年上半年全美科技行业已有94000人被裁,裁员潮持续加剧[2][3][6] - 微软2025年累计裁员超15000人,涉及游戏、云计算、法律、工程等多部门[5][40][43] - 谷歌、Meta、亚马逊等巨头同步裁员,同时加大对AI项目的投入[41][46][48] 裁员驱动因素 - 企业调整劳动力结构,削减传统岗位以增加AI工程和基础设施支出[6][40][50] - AI工具直接替代人力:IBM用AskHR聊天机器人取代8000名HR员工,GitHub Copilot生成30%新代码减少工程师需求[43][53] - 业务战略转向:英特尔关闭自动驾驶业务聚焦AI芯片,Meta从元宇宙撤退转向AI功能开发[45][46] 高风险岗位清单 - 软件工程师(微软40%被裁开发者)、人力资源(IBM数千HR被裁)、客服(Chegg用户偏好AI客服)[53][54] - 内容创作(80%市场部门用AI生成文本)、数据分析(AI处理速度超越人类)、中层管理(英特尔裁撤绩效协调岗位)[55][56][57] 典型案例分析 - Xbox裁员9100人,理由为节省成本投入AI游戏开发,高管建议被裁员工用ChatGPT管理情绪[11][15][18] - 微软6年老员工Patrick Lyons两次被裁,虽重返Azure岗位仍因重组失业[30][33][36] - TikTok、迪士尼、Bumble等非传统科技公司也因AI调整裁员,Bumble全球裁员比例达30%[40][42] 行业财务与战略动向 - 微软2025Q1营收701亿美元(同比+13%),但同步推进裁员,显示AI可支撑增长与成本优化并行[58] - 企业明确将AI作为核心战略:Workday、Salesforce裁减非AI岗,持续招聘机器学习工程师[48] - 教育科技公司Chegg因学生转向ChatGPT裁员22%,反映C端AI替代效应[44]