Workflow
ThermoAct
icon
搜索文档
具身智能科技前瞻探索(第3期):多任务操作、第一人称世界模型、低光照与模糊感知
国泰海通证券· 2026-04-08 22:05
报告行业投资评级 - 行业投资评级:中性 [53] 报告的核心观点 - 报告为《具身智能科技前瞻探索》系列第3期,聚焦于多任务操作、第一人称世界模型、低光照与模糊感知等前沿技术方向,旨在探索具身智能领域的最新学术进展及其产业应用潜力 [1][7][16][24] - 报告通过分析多个最新研究框架,指出轻量化、多模态融合、小样本适配是当前技术发展的关键趋势,这些进展有助于解决机器人从实验室走向复杂真实场景时面临的任务干扰、感知退化、数据稀缺等核心挑战,为工业机器人、人形机器人在3C电子、汽车制造、仓储物流、安全巡检等场景的规模化落地提供了新的技术优化方向 [8][10][25][27][43][45] 根据相关目录分别进行总结 多任务操作:MoE-ACT框架 - **核心内容**:港科大(广州)提出轻量化多任务双臂操作框架MoE-ACT,通过将稀疏混合专家(MoE)模块融入ACT的Transformer编码器,自适应激活专家以解耦多任务动作分布,有效缓解了任务干扰与负迁移问题 [7][8] - **技术贡献**:1) 提出轻量化MoE-ACT框架;2) 设计基于语言指令的任务条件化FiLM调制机制;3) 引入多尺度交叉注意力模块融合视觉特征;4) 在仿真与真实平台验证了性能提升 [9] - **影响展望**:该框架可在边缘端GPU实时推理,适配工业及人形机器人现场控制需求,其多任务统一策略优化方案有助于降低3C电子、汽车制造等场景中双臂机器人的训练与部署成本 [10] 第一人称世界模型:EgoSim仿真器 - **核心内容**:EgoSim是一个面向具身交互生成的第一人称世界仿真器 [17] 低光照与模糊感知:E-VLA框架 - **核心内容**:浙江大学、蚂蚁集团和湖南大学联合提出事件增强型VLA框架E-VLA,首次将事件相机感知集成到VLA模型中,显著提升机器人在极端视觉退化场景下的操作成功率 [24][25] - **性能数据**:在极端低光(20 lux)下,将Pick-Place任务成功率从0%提升至90%;在严重运动模糊(1000ms曝光)下,将Pick-Place任务成功率从0%提升至20-25%,将Sorting任务成功率从5%提升至32.5% [25] - **技术贡献**:1) 提出首个事件增强VLA框架;2) 搭建开源平台与RGB-事件-动作同步数据集;3) 设计两类轻量化事件融合策略,仅新增13M参数;4) 通过实验明确了关键设计参数 [26] - **影响展望**:验证了事件相机与VLA模型融合的工程可行性,其低算力方案可适配边缘端部署,为解决工业、仓储等真实场景中机器人在暗光、高速运动下的操作失效问题提供了轻量化解决方案 [27] 其他关键技术进展 - **ThermoAct热感知VLA框架**:韩国东国大学团队提出分层式热感知VLA框架ThermoAct,将热红外信息融入VLM高层规划与VLA底层执行架构,在热相关子任务上成功率相比基线模型提升约40% [43] - **技术贡献**:1) 提出热感知VLA分层框架;2) 设计热数据适配预处理方案;3) 量化验证热感知的任务增益;4) 验证分层架构在小样本场景下的优势 [44] - **影响展望**:该方案可低成本拓展机器人在环境安全感知与物理属性识别方面的能力,其小样本微调特性降低了落地成本,为3C制造电池过热检测、家庭安全防护、工业热异常巡检等场景提供技术参考 [45]