多模态控制
搜索文档
Cyborg and Bionic Systems | 面向工具操作的触觉肌电假肢动态操作技能学习
机器人大讲堂· 2026-04-11 13:55
研究核心成果与框架 - 北京邮电大学、清华大学、武汉科技大学联合团队在SCI 1区期刊(影响因子18.1)发表论文,提出了一种用于工具操作的多模态肌电假肢控制框架 [1] - 该研究聚焦于高度复杂的工具交互场景,旨在通过基于人类技能迁移的框架,降低外部冲击导致的抓握不稳定性,提高工具操作效率,从而提升截肢患者生活独立性与重返职场能力 [2] 技术背景与挑战 - 研究核心是从“静态抓取”迈向“动态操作”,解决肌电假肢在如锤击、锯切等连续工具操作中,因负载变化和不可预测交互导致的抓握失稳问题 [3] - 传统假肢控制方法在应对动态冲击或跟踪延迟时表现不佳,而人类依靠生物感觉运动闭环实现稳定,本研究旨在让假肢具备类似的动态操作技能 [3] 核心技术:TKE-BGC控制器 - 受人类神经肌肉调节机制启发,团队设计了融合触觉(T)、运动学(K)和肌电(E)信号的多模态仿生抓取控制器(TKE-BGC) [6] - 通过数据手套和肌电传感器采集健全人操作工具时的多模态数据(触觉、关节角度、肌电),使模型能从人类真实物理演示中学习技能 [6] - 控制器利用当前物理状态主动检索匹配用户历史运动意图,用真实物理反馈动态加权并过滤含噪肌电信号,在剧烈动态干扰下维持稳健的感知-动作关系 [7] - 当检测到抓取不稳定风险时,控制器能利用患者实时触觉、关节角度和肌电信号及时调整关节运动,闭环系统以10-15 Hz稳定频率运行,响应优于人类标准感知运动反应时间 [7] 实验验证与性能表现 - 实验招募了7名健全者和3名经桡骨截肢者,设计了四类工具操作任务:敲钉子、锯木头(已知任务)以及削皮切削、桌面整理(未知任务) [10][11] - 对比基线为业界主流的固定力策略(FiF)与力跟随策略(FoF) [11] - **操作稳定性**:在线测试中,面对锤击等强烈动态干扰,TKE-BGC框架的工具掉落次数降至最低水平,远优于FiF和FoF方法 [14] - **操作效率**:在所有测试任务中,TKE-BGC的任务完成时间均最短,且与对比方法有显著统计学差异(p < 0.05) [14][17] - **力控水平**:在敲钉和锯木任务中,TKE-BGC施加的平均接触力分布与人类真实演示数据高度重合,而FiF和FoF常因反馈迟钝出现受力过载或不足 [15][17] - **降低用户负担**:以敲钉子任务为例,TKE-BGC的平均肌电振幅仅为0.0023,远低于FiF的0.0083和FoF的0.0124,意味着患者用极少肌肉发力即可完成任务 [18] - **多模态融合价值**:消融实验证实触觉反馈在工具操作中起关键作用,当触觉、运动学和肌电三模态完全融合时,控制器达到最佳预测性能 [19] 行业相关企业列举 - 文章末尾列举了包括工业机器人、服务与特种机器人、人形机器人、具身智能企业、医疗机器人及上游产业链在内的大量相关科技企业 [26][27][28][29][30][31]
Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局
机器之心· 2025-12-09 11:17
核心观点 - Canvas-to-Image是一个面向组合式图像创作的全新框架,其核心创新在于取消了传统“分散控制”的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中,由模型直接解释为生成指令,从而简化了图像生成的控制流程 [2][9][31] 传统方法的局限性 - 在以往的生成流程中,身份参考、姿态线稿、布局框等控制方式被设计成互不相干的独立输入路径,各自拥有独立的编码方式与预处理逻辑 [7][8] - 这种多入口、分散式的输入结构缺乏统一的表达空间,使得用户无法在同一位置叠加多种控制信息,也无法用一个局部区域里的组合提示来指导模型生成,导致复杂场景的构建流程冗长且割裂 [8] 核心方法论 - Canvas-to-Image将所有控制信号汇聚到同一张画布中,由模型在同一个像素空间内理解、组合并执行,画布本身既是用户界面,也是模型的输入 [9][14] - 在训练过程中,模型采用跨帧采样策略自动生成多任务画布,从跨帧图像集中抽取目标帧所需的不同视觉元素(如人物片段、背景、姿态结构、框选区域等),并按目标帧中的相应位置摆放在输入画布中 [15][17] - 训练时,模型在每一次训练中只会接收到一种随机选定的控制模态(例如空间布局、姿态骨架或边界框),这使其学会独立理解不同类型的控制提示 [15] - 尽管训练数据中不存在显式标注的“多模态组合控制”样本,但模型在推理阶段展现出对未见过控制组合的泛化能力,能够在统一画布中同时解析并整合多种控制信号 [16] 实验结果与能力 - 在多控制组合任务中,Canvas-to-Image能够同时处理身份、姿态和布局框,而基线方法往往会失败 [18] - 当画布中同时包含人物提示和物体提示时,模型能够理解两者之间应有的空间与语义关系,生成具有自然接触、合理互动的场景,而非简单并置 [20] - 在多种控制叠加的情况下,模型能遵循给定的姿态与空间约束,保持人物外观与参考图一致,并维持整体画面的连贯性与合理性 [21][22][23] - 在多层次场景生成中,给定背景图后,模型可通过放置参考图或标注边界框的方式,将人物或物体自然地融入场景,使其在位置、光照和整体氛围上与背景保持一致 [25] 消融研究与总结 - 消融研究表明,当逐步添加控制时,模型表现逐步提升:仅身份控制时能生成人物但姿态和位置随机;增加姿态控制后能同时控制身份和姿态;增加空间布局后能完全控制身份、姿态和位置 [28][32] - 关键发现是,虽然训练时使用单任务画布,但模型自然学会了在推理时组合多种控制,这种涌现能力验证了其设计理念 [28] - 该框架的核心价值是把多模态的生成控制方式全部图形化,让复杂场景的构建回归到最直观的方式:在画布上摆放、画、框,就能生成对应的结构化、真实感强的画面,统一画布加多模态控制的范式有望成为下一代创作工具的基础界面形态 [31]
腾讯混元3D-Omni:3D版ControlNet突破多模态控制,实现高精度3D资产生成
机器之心· 2025-09-29 14:55
背景与挑战 - 3D原生生成模型在游戏、影视和设计领域展现出强大潜力,但多数方法依赖图像输入,缺乏细粒度、多模态控制能力,限制了实际生产应用[2] - 仅依赖图像输入存在局限:单视角图像易受遮挡、光照或视角干扰,生成结果缺乏几何准确性;难以精细控制生成对象的比例、姿态和结构细节;无法适应多模态输入(如深度图、LiDAR点云、骨架动作等)[6] 核心创新 - 推出业界首个统一多模态可控3D生成框架混元3D-Omni,支持图像、点云、体素、边界框与骨骼姿态等多种控制信号,实现对生成物体几何结构、拓扑与姿态的精细控制[2][7] - 采用轻量化统一控制编码器,将不同控制信号统一表示为点云形式,通过共享编码器提取特征并区分模态,避免控制目标混淆[9][14] - 引入渐进式难度感知训练策略,随机选择控制条件并偏向采样高难度信号(如骨骼姿态),降低简单信号(如点云)权重,提升多模态融合鲁棒性[10][15] 关键实现方法 - 骨骼姿态控制采用3D骨骼起点坐标表示,通过随机采样不同动作帧构建训练对,实现生成模型姿态灵活控制[14] - 边界框控制将长宽比例转化为标准空间中的八个顶点坐标,通过对渲染图像或点云施加随机扰动提升比例控制泛化能力[14] - 点云支持多种输入来源(深度相机、LiDAR或重建模型),并引入随机丢弃与噪声扰动模拟真实场景[14] - 体素通过将点云量化到[0,16]³网格并映射至[-1,1]³空间,形成稀疏几何提示[14] 实验结果 - 骨骼控制条件下,模型能生成高质量且与目标姿态精确对应的角色几何形体,包括A姿态、单手抬起及双手上举等多种姿态,生成结果与输入骨架严格对齐无畸变[18][19] - 边界框控制可自由调节生成物体长宽比例,触发智能几何重构能力:当沙发长度增加时自动生成额外支撑腿结构,凯旋门比例调整后保持合理建筑形态;还能解决单图生成"纸片物体"问题,注入边界框信号后成功生成正确3D资产[21][23] - 点云控制有效解决单视图几何歧义问题:完整点云成功还原被遮挡内部结构;深度图生成的表面点云确保生成几何在尺度上与真实物体精确对齐;即使输入噪声表面点云,生成几何与原始物体对齐效果仍明显优于仅使用图像的基线方法[25] - 体素控制通过稀疏几何线索解决单张图像歧义性问题:确保生成物体在尺度上与真实几何结构精确对齐;成功重建盾牌平整表面、精准捕捉鸟类翅膀形态特征、高度还原杯子低多边形风格几何结构[27][28] 框架价值 - 作为轻量级、多模态、可控3D生成框架,在不破坏基础模型能力前提下,通过统一控制编码器整合多种几何与控制信号,显著提升生成准确性、支持几何感知变换,并增强生产流程稳定性与鲁棒性[31]