多模态感知融合

搜索文档
科协年会助力青年人才挑大梁
科技日报· 2025-08-03 11:43
7月1日至31日,第二十七届中国科协年会活动在北京集中举办,围绕"示踪科技前沿 助力创新发 展"主题,开展主论坛、专题论坛、平行论坛、发布、宣传与科普、展览展示与场景体验等6个版块百余 项活动,取得良好效果。 本届年会上,平等交流气氛格外浓重。 张慧观察到,不少青年学者在会上纷纷向院士、专家直接提问。在她看来,这种自由讨论、互相质 疑的氛围,有利于打破思维定式,深化问题认知,最终催生更具价值的创新成果。 7月31日,中国科协举办第二十七届科协年会新闻通气会。中国科协科学技术创新部副部长肖朝琼 介绍,本届年会共吸引110余人次院士在内的7000余人次科技工作者参与研讨。其中,40岁以下的青年 科技工作者占比高达57%,共计开展990余个高水平学术报告。 让青年科技工作者深度参与并主导前沿讨论,是本届年会的亮点之一。 作为中国科协青年人才托举工程入选者代表,北京交通大学副教授张慧今年参会收获颇多。 她表示,在"具身智能机器人"论坛上,专家们深入探讨"从仿真到真实世界的'Sim2Real'挑战""多模 态感知融合"等前沿问题,启发她将具身学习思想融入自身研究的思路。 肖国梁是中国聚变能源有限公司、核工业西南物理研究 ...
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 17:51
核心观点 - 文章从人类运动技能学习角度系统总结了VLA模型的后训练策略,提出环境、具身、任务三维分类框架,并探讨神经科学对机器人学习的启发[4][5][6] - VLA模型需通过后训练从通用预训练转向特定任务适配,类似人类从遗传能力到专项技能的转化过程[8][9] - 类脑视角下,后训练技术可划分为环境感知增强、具身认知优化、任务理解深化及多组件集成四大方向[10][12] VLA模型与后训练重要性 - VLA模型整合视觉、语言与动作生成模块,实现"看-听-动"闭环,但预训练模型在真实场景中需后训练提升精度与鲁棒性[8] - 后训练利用少量目标场景数据微调模型,使其适应机器人物理特性与任务需求,解决"开箱即用"性能不足的问题[9] 三维后训练策略 环境维度 - 引入可供性线索强化模型对环境交互可能性的理解,如物体功能暗示(门把手提示抓握)[12] - 优化视觉编码器与多模态感知融合,提升环境细节记忆与抗遗忘能力[12][13] 具身维度 - 建立机器人正向/逆向运动学模型,模拟人类前馈-反馈控制机制实现精准动作规划[14] - 借鉴小脑多内部模型协同机制,设计分层动作控制模块[14] 任务维度 - 通过人类示范数据注入专家知识,加速任务理解[14] - 采用层次化策略分解长程任务为可管理子步骤,对应人类分而治之的神经处理模式[14][17] 技术挑战与趋势 - 数据效率:需开发课程学习、主动采样等类人策略降低训练数据需求[22] - 多模态扩展:触觉/深度传感等新模态输入可提升环境交互真实性,但面临传感器融合难题[22] - 持续学习:当前离线微调易导致遗忘,需借鉴人类记忆机制开发终身学习框架[22] - 开放泛化:从实验室性能优化转向未知环境适应能力建设[22]