具身智能之心 - 财报，业绩电话会，研报，新闻

具身智能之心

搜索文档

具身智能之心· 2025-07-08 20:54

强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA)，OOD场景任务成功率提升42.6%，语义理解任务成功率从61.5%提升至75.0%，动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准，验证PPO优于GRPO和DPO算法，并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT)，视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术，在R2R-CE基准未见环境中成功率(SR)达47.9%，路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示，结合Foresight Action Planner实现前瞻决策，Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先：单目相机场景下Test Unseen的SR达45.7%，全景相机场景SR提升至60%，SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示，NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点，SPL提高4个百分点 [18] - 具身智能领域形成产学研社区，近200家公司及研究机构参与技术交流，涵盖招聘、学习资源及前沿技术更新 [23]

视觉语言导航自演进世界模型NavMorph

视觉语言导航自演进世界模型NavMorph

为什么人形机器人不容易落地？移动操作更受欢迎？

具身智能之心· 2025-07-08 17:31

具身智能产业落地分析 - 人形机器人短期内难以实现稳定部署因本体稳定性不足摔倒风险高维修成本昂贵责任归属不明确 [1] - 移动操作+机械臂方案更易落地如银河通用G1在家居超市等场景表现优异 [1] - 智元远征A2-W在工业领域应用突出稳定底盘设计满足高负载施工需求 [2] 数据与技术瓶颈 - 需建立大规模基础模型预训练数据集场景数据采集效率与质量决定规模化能力 [4] - sim2real方案虽降低数据采集成本但真实场景性能迁移仍是待突破难点 [4] 行业生态建设 - 具身智能之心知识星球整合40+开源项目 60+数据集覆盖强化学习多模态大模型等18个技术路线 [13] - 社区汇聚斯坦福清华等高校实验室及优必选小米等200家头部企业成员 [13] - 提供仿真平台汇总零部件品牌清单工业研报等15类资源支持从学术到产业全链路需求 [18][20][25][27][33] 人才发展支持 - 汇总国内外40+高校实验室研究方向助力升学与职业规划 [14] - 提供机械臂抓取双足机器人等24个领域的仿真项目实践方案 [59][61] - 定期组织行业大佬直播分享VLM应用分层决策等前沿议题 [15][65] 商业化进展 - 行业关注重点转向具身智能与大模型部署强化学习应用等方向 [13][35] - 头部企业已布局教育医疗物流等细分场景形成差异化竞争格局 [18]

重磅分享！VR-Robo：real2sim2real助力真实场景下的机器人导航和运动控制

具身智能之心· 2025-07-08 17:31

技术框架 - 提出"真实-仿真-真实"框架，通过多视角图像进行3D高斯溅射(3DGS)场景重建，构建兼具照片级真实感与物理交互特性的"数字孪生"仿真环境 [2] - 框架支持视觉导航与运动控制的协同学习，实现纯RGB输入的仿真到现实策略迁移 [2] 应用场景 - 方法在家庭和工厂场景中具有应用潜力，支持视觉目标追踪任务 [2] - 实验表明该方法能促进策略在新环境中的快速适应与高效探索 [2] 技术优势 - 解决"仿真与现实差距"问题，特别是缺乏真实感视觉渲染阻碍高阶任务的问题 [2] - 通过3DGS场景重建技术提升仿真环境的真实感与物理交互特性 [2] 相关资源 - 论文标题为《VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion》 [3] - 项目链接和论文链接已公开 [3]

VR - Robo: real2sim2real framework

VR - Robo: real2sim2real framework

星动纪元再获5亿融资！团队大牛伯克利和清华交叉信息研究院背景

具身智能之心· 2025-07-08 08:14

公司融资与背景 - 星动纪元完成5亿元A轮融资由鼎晖资本和海尔资本联合领投厚雪资本、华映资本、襄禾资本、丰立智能等跟投老股东清流资本、清控基金继续追加投资 [1] - 融资资金将用于人形机器人软硬技术研发与量产落地推动"模型-本体-场景数据"闭环飞轮运转 [1] - 公司成立于2023年8月由清华大学交叉信息研究院孵化是唯一一家清华大学占股的人形机器人企业 [3] - 创始人陈建宇为清华大学交叉信息研究院助理教授、博士生导师拥有UC Berkeley博士背景师从美国工程院院士Masayoshi Tomizuka教授 [3] 技术资源与社区 - 具身智能之心知识星球汇总40+开源项目、60+具身智能数据集、行业主流仿真平台及技术学习路线 [9] - 技术路线涵盖具身感知、强化学习、多模态大模型、机械臂控制、机器人导航等25个细分领域 [9][31][33][37][57] - 社区成员来自斯坦福、清华、ETH等高校及优必选、小米、逐际动力等头部企业 [9] - 提供国内外80+具身智能公司及实验室信息覆盖教育、医疗、工业等应用方向 [12][15] 行业动态与人才发展 - 整合30+具身智能研报跟踪大模型与人形机器人行业落地进展 [17] - 汇总机器人零部件品牌包括芯片、激光雷达、IMU等核心部件供应商 [22] - 定期举办行业大佬直播分享学术进展与工业应用并提供企业岗位对接服务 [14][62] - 仿真平台资源支持无实物设备的研究如Isaac Sim等框架可完成机械臂抓取等仿真项目 [29][67]

亚马逊100万机器人上岗！即将超越人类员工？机器人军团接管工作

具身智能之心· 2025-07-07 17:20

亚马逊机器人部署里程碑 - 公司全球仓库已部署第100万个机器人，最新一台位于日本物流中心[3][4] - 机器人类型包括机械臂、轮式运输机器人、自动分拣系统和打包机器人[5][6] - 目前75%的配送任务有机器人参与[7] 机器人技术升级与效率提升 - 新型Vulcan机器人具备双臂操作和触觉功能，能处理75%库存商品[15][16][18] - 生成式AI模型DeepFleet优化路径规划，提升机器人运行效率10%[10][11] - 路易斯安那州新物流中心机器人数量达现有10倍，商品流转速度快25%[44][48] 人机协作与岗位转型 - 公司培训70万员工转向高薪岗位，与机器人协同工作[22] - 员工案例显示转型后工资增长2.5倍，工作内容转为管理系统[25][26] - 分拣系统将商品送至员工面前，机器人协助抓取深处货物[30] 自动化对劳动力市场影响 - 每仓库平均员工数降至670人（16年最低），人均处理包裹数从175增至3870个[36][37] - 公司过去几年裁员27,000人，CEO称AI将重塑劳动力结构[67][59] - 作为美国第二大私营雇主，公司自动化趋势被视为行业风向标[56] 未来技术布局 - 测试人形机器人（带腿/手臂/头部）执行回收容器任务[53] - 下一代物流中心计划推进机器人全面整合[43][53] - AI已应用于代码编写、数据分析和研究等创新领域[64]

亚马逊(US:AMZN)

Automation

Artificial Intelligence

Artificial Intelligence

ICCV2025 | DexVLG：大规模灵巧视觉-语言-抓取模型

具身智能之心· 2025-07-07 17:20

核心观点 - 大型视觉-语言-抓取模型DexVLG能够根据语言指令和单视角RGBD输入预测灵巧抓取姿态，并在模拟和真实世界中表现出强大的零样本泛化能力，抓取成功率超过76% [4][8] - DexGraspNet 3 0数据集包含1 7亿个灵巧抓取姿态和174k个模拟目标，是目前最大的部分感知功能性灵巧抓取数据集 [4][10] - 该研究通过结合多个预训练基础模型和基于流匹配的去噪范式，构建了参数规模达数十亿的DexVLG模型 [8][23] 领域介绍 - 当前大型视觉-语言-动作模型主要局限于平行夹持器控制，缺乏灵巧手控制能力，主要原因是灵巧抓取数据不足 [5] - 现有灵巧抓取数据集要么规模有限，要么缺乏语义感知，无法支持功能性抓取任务 [5] - 该领域需要大规模、部分感知的数据集来提升模型容量和泛化能力 [5] 数据集构建 - DexGraspNet 3 0数据集包含来自Objaverse的174k个目标上的1 7亿个灵巧抓取姿态，每个姿态都经过物理模拟验证并配有语义标题 [10][12] - 使用SAMesh进行零样本几何部分分割，GPT-4o进行部分名称标记，确保数据集具有丰富的语义信息 [12] - 数据集构建采用部分感知的手姿态初始化策略和多个能量函数优化，确保抓取姿态的语义合理性 [13][15][17][18][19] 模型架构 - DexVLG采用预训练的Uni3D点云编码器和Florence-2语言基础模型，参数规模从2 32亿到7 71亿不等 [26][28] - 模型使用基于流匹配的去噪范式生成抓取姿态，通过最小化均方目标函数进行训练 [29] - 点云特征与语言embedding向量拼接后输入大型语言模型，与姿态预测头共享交叉注意力机制 [28] 实验结果 - 在模拟环境中，DexVLG实现了76 1%的抓取成功率和48 1%的部分抓取精度，显著优于基线模型 [32] - 模型展示了强大的零样本泛化能力，能够处理多种物体和语义部分的抓取任务 [30] - 真实世界实验验证了模型预测的抓取姿态与语言指令的良好对齐性 [8]

MuJoCo具身智能实战：从零基础到强化学习与Sim2Real

具身智能之心· 2025-07-07 17:20

具身智能技术发展 - 具身智能正在全面崛起重新定义人类与机器的关系从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁提供高保真、高效率的机器人训练环境支持高度并行化计算可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法精确模拟机器人与环境的交互提供视觉、触觉、力觉等多种感知模态具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式包含六个递进式实战项目从机械臂控制到人形机器人行走再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一：构建六自由度机械臂模型实现正逆运动学求解和PID控制 [15][16] - 项目二：为机械臂添加视觉感知能力实现基于视觉的物体检测和抓取 [17][18] - 项目三：训练智能体学会复杂运动技能如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四：实现模型预测控制算法进行实时轨迹优化 [21][22][23] - 项目五：设计多机器人协作系统共同完成复杂任务 [24][25] - 项目六：通过域随机化技术实现Sim-to-Real迁移在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能能够构建复杂机器人仿真环境实现高保真物理交互 [29] - 深入理解强化学习核心算法掌握机器人控制理论和实践技巧实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验熟悉现代AI开发工具链培养良好工程习惯 [31] 职业发展路径 - 技术专家方向：机器人算法工程师年薪30-60万一线城市可达80-150万 [33] - 产品经理方向：年薪30-80万有机会发展为技术总监或创业者 [33]

Embodied Intelligence

Reinforcement Learning

Embodied Intelligence

Reinforcement Learning

代码+视频！国内首个足式机器人算法与实战（双足/四足/人形等）

具身智能之心· 2025-07-07 17:20

具身机器人步态控制的重要性 - 步态控制是具身智能机器人实现空间移动的核心技术双足或四足机器人需模拟真实生物动作以应对复杂地形如废墟火灾现场太空探索等场景[1] - 足式机器人能跨越沟壑攀爬楼梯避开障碍物在轮式/履带式设备无法到达的区域执行救援科考任务近20年工业界与学术界持续投入研发[1] - 真实场景应用需解决负重条件下的高难度动作如跳跃转向奔跑并在碎石坑洼等复杂路面保持稳定性[1] 人形机器人动作学习的挑战 - 人类步态动作近万种机器人需学习爬楼梯跑步跳舞等高难度动作自主学习能力是行业痛点[2] - 深度学习加速了动作控制研究但数十年发展仍未完全突破相关成果正逐步转化到工业产品[2] 足式机器人的战略地位 - 被誉为"机器人领域下一座里程碑" 可像生物一样适应复杂地形突破平坦环境限制[4] - 资本青睐巡检安防救援工业自动化等场景企业高薪争夺人才当前是进入领域的最佳时机[4] - 技术栈涵盖运动学动力学多传感器融合强化学习等缺乏系统学习路径导致入门困难[4] 具身足式算法课程核心内容 - 国内首门系统教程覆盖四足基础双足进阶高级算法 Sim2Real迁移安全机制等全流程技术[5][6] - 采用Isaac Gym/Gazebo/MuJoCo仿真环境实战案例包括平稳行走动态平衡多任务切换等[6][12] - 前沿技术深度解析如波士顿动力跳跃算法 RMA策略域随机化等[6][17] 课程实战与硬件部署 - 主流硬件平台分析：Unitree DeepRobotics等包含碰撞检测人体交互安全等部署策略[12][17] - 大作业设计多场景训练：斜坡碎石路障碍物成果展示包括训练过程可视化与性能指标[12][17] 目标学员与技能提升 - 面向AI从业者研究生转行者等需具备Python/PyTorch基础及线性代数知识[27] - 培养全栈技能：从运动学基础到强化学习算法积累1-2年实战经验掌握Sim2Real迁移能力[27][28] - 课程形式为离线视频+代码+答疑配套源码与仿真练习有效期1年[28]

具身智能论文速递 | VLA、3DGS、扩散模型等、RoboBrain~

具身智能之心· 2025-07-06 19:58

ArtGS框架 - 提出ArtGS框架，通过动态可微3D高斯溅射与视觉-物理闭环优化，显著提升关节目标建模与操作精度 [2] - 在7类100个关节目标上，关节轴平均误差（AE）降至4.27°~7.03°，比最优基线降低约5°，关节原点误差（OE）降至3.26~5.84 cm [2] - 在洗碗机、冰箱等任务中，操作成功率高达62.4%~90.3%，比最优基线GAMMA提升最高33.5% [2][10] - 整合静态3D高斯溅射重建与微调的视觉-语言模型，将物理建模注入视觉感知过程，实现对关节骨骼参数的交互式优化 [2] - 利用改进的Denavit-Hartenberg正向运动学将机器人转化为3DGS数字孪生，结合动态3DGS的时空一致性和可微分渲染，优化关节参数 [2] cVLA模型 - 提出轻量级cVLA模型，通过图像坐标系轨迹关键点预测实现训练效率提升10倍 [15] - 仿真成功率最高达54%（Objaverse-hard场景），单次模仿成功率70%（CLEVR-easy） [15] - 真实机器人任务零样本迁移成功（15种桌面操作任务） [15] - 基于PaliGemma架构，通过预测图像坐标系下的末端执行器关键位姿实现轨迹生成 [15] - 提出新的解码算法beam-search-NMS，通过非极大值抑制在光束搜索中寻找分布峰值 [15] RoboBrain 2.0 - 提出轻量级（7B）与全尺寸（32B）双模型架构，通过三阶段渐进训练策略解决具身AI的三大瓶颈 [21][23] - 在RefSpatial-Bench定位准确率达54%，超越GPT-4o 45个百分点 [21] - 多机器人规划任务平均分80.33%，在12个基准测试中6项达到SOTA [21] - 32B变体在多个基准上超越现有开源和专有模型，如BLINK、CV-Bench等 [23][27] - 构建大规模高质量训练数据，涵盖通用多模态理解、空间感知、时间建模三类 [23] SE(3)-等变扩散策略 - 提出SE(3)-等变扩散策略（Spherical Diffusion Policy），在3D场景中实现机器人操作的鲁棒泛化 [32][37] - 在20个模拟任务中平均成功率提升至49%（15°倾斜场景），在5个物理机器人任务中平均成功率提升至78% [32][41] - 通过将状态、动作和去噪过程嵌入球形傅里叶空间，实现对3D场景变换的轨迹自适应 [37] - 设计球形FiLM层，实现动作去噪过程对等变场景嵌入的条件约束 [37] - 提出球形去噪temporal U-net，在保证时空等变性的同时兼顾计算效率 [37]

全球AI失业大逃杀：25年已裁94000人！微软高管：被裁可用AI管理情绪

具身智能之心· 2025-07-06 19:54

行业裁员趋势 - 2025年上半年全美科技行业已有94000人被裁，裁员潮持续加剧[2][3][6] - 微软2025年累计裁员超15000人，涉及游戏、云计算、法律、工程等多部门[5][40][43] - 谷歌、Meta、亚马逊等巨头同步裁员，同时加大对AI项目的投入[41][46][48] 裁员驱动因素 - 企业调整劳动力结构，削减传统岗位以增加AI工程和基础设施支出[6][40][50] - AI工具直接替代人力：IBM用AskHR聊天机器人取代8000名HR员工，GitHub Copilot生成30%新代码减少工程师需求[43][53] - 业务战略转向：英特尔关闭自动驾驶业务聚焦AI芯片，Meta从元宇宙撤退转向AI功能开发[45][46] 高风险岗位清单 - 软件工程师（微软40%被裁开发者）、人力资源（IBM数千HR被裁）、客服（Chegg用户偏好AI客服）[53][54] - 内容创作（80%市场部门用AI生成文本）、数据分析（AI处理速度超越人类）、中层管理（英特尔裁撤绩效协调岗位）[55][56][57] 典型案例分析 - Xbox裁员9100人，理由为节省成本投入AI游戏开发，高管建议被裁员工用ChatGPT管理情绪[11][15][18] - 微软6年老员工Patrick Lyons两次被裁，虽重返Azure岗位仍因重组失业[30][33][36] - TikTok、迪士尼、Bumble等非传统科技公司也因AI调整裁员，Bumble全球裁员比例达30%[40][42] 行业财务与战略动向 - 微软2025Q1营收701亿美元（同比+13%），但同步推进裁员，显示AI可支撑增长与成本优化并行[58] - 企业明确将AI作为核心战略：Workday、Salesforce裁减非AI岗，持续招聘机器学习工程师[48] - 教育科技公司Chegg因学生转向ChatGPT裁员22%，反映C端AI替代效应[44]