多模态控制 - 财报，业绩电话会，研报，新闻

多模态控制

搜索文档

Snapchat提出Canvas-to-Image：一张画布集成 ID、姿态与布局

机器之心· 2025-12-09 11:17

核心观点 - Canvas-to-Image是一个面向组合式图像创作的全新框架，其核心创新在于取消了传统“分散控制”的流程，将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中，由模型直接解释为生成指令，从而简化了图像生成的控制流程 [2][9][31] 传统方法的局限性 - 在以往的生成流程中，身份参考、姿态线稿、布局框等控制方式被设计成互不相干的独立输入路径，各自拥有独立的编码方式与预处理逻辑 [7][8] - 这种多入口、分散式的输入结构缺乏统一的表达空间，使得用户无法在同一位置叠加多种控制信息，也无法用一个局部区域里的组合提示来指导模型生成，导致复杂场景的构建流程冗长且割裂 [8] 核心方法论 - Canvas-to-Image将所有控制信号汇聚到同一张画布中，由模型在同一个像素空间内理解、组合并执行，画布本身既是用户界面，也是模型的输入 [9][14] - 在训练过程中，模型采用跨帧采样策略自动生成多任务画布，从跨帧图像集中抽取目标帧所需的不同视觉元素（如人物片段、背景、姿态结构、框选区域等），并按目标帧中的相应位置摆放在输入画布中 [15][17] - 训练时，模型在每一次训练中只会接收到一种随机选定的控制模态（例如空间布局、姿态骨架或边界框），这使其学会独立理解不同类型的控制提示 [15] - 尽管训练数据中不存在显式标注的“多模态组合控制”样本，但模型在推理阶段展现出对未见过控制组合的泛化能力，能够在统一画布中同时解析并整合多种控制信号 [16] 实验结果与能力 - 在多控制组合任务中，Canvas-to-Image能够同时处理身份、姿态和布局框，而基线方法往往会失败 [18] - 当画布中同时包含人物提示和物体提示时，模型能够理解两者之间应有的空间与语义关系，生成具有自然接触、合理互动的场景，而非简单并置 [20] - 在多种控制叠加的情况下，模型能遵循给定的姿态与空间约束，保持人物外观与参考图一致，并维持整体画面的连贯性与合理性 [21][22][23] - 在多层次场景生成中，给定背景图后，模型可通过放置参考图或标注边界框的方式，将人物或物体自然地融入场景，使其在位置、光照和整体氛围上与背景保持一致 [25] 消融研究与总结 - 消融研究表明，当逐步添加控制时，模型表现逐步提升：仅身份控制时能生成人物但姿态和位置随机；增加姿态控制后能同时控制身份和姿态；增加空间布局后能完全控制身份、姿态和位置 [28][32] - 关键发现是，虽然训练时使用单任务画布，但模型自然学会了在推理时组合多种控制，这种涌现能力验证了其设计理念 [28] - 该框架的核心价值是把多模态的生成控制方式全部图形化，让复杂场景的构建回归到最直观的方式：在画布上摆放、画、框，就能生成对应的结构化、真实感强的画面，统一画布加多模态控制的范式有望成为下一代创作工具的基础界面形态 [31]

腾讯混元3D-Omni：3D版ControlNet突破多模态控制，实现高精度3D资产生成

机器之心· 2025-09-29 14:55

背景与挑战 - 3D原生生成模型在游戏、影视和设计领域展现出强大潜力，但多数方法依赖图像输入，缺乏细粒度、多模态控制能力，限制了实际生产应用[2] - 仅依赖图像输入存在局限：单视角图像易受遮挡、光照或视角干扰，生成结果缺乏几何准确性；难以精细控制生成对象的比例、姿态和结构细节；无法适应多模态输入（如深度图、LiDAR点云、骨架动作等）[6] 核心创新 - 推出业界首个统一多模态可控3D生成框架混元3D-Omni，支持图像、点云、体素、边界框与骨骼姿态等多种控制信号，实现对生成物体几何结构、拓扑与姿态的精细控制[2][7] - 采用轻量化统一控制编码器，将不同控制信号统一表示为点云形式，通过共享编码器提取特征并区分模态，避免控制目标混淆[9][14] - 引入渐进式难度感知训练策略，随机选择控制条件并偏向采样高难度信号（如骨骼姿态），降低简单信号（如点云）权重，提升多模态融合鲁棒性[10][15] 关键实现方法 - 骨骼姿态控制采用3D骨骼起点坐标表示，通过随机采样不同动作帧构建训练对，实现生成模型姿态灵活控制[14] - 边界框控制将长宽比例转化为标准空间中的八个顶点坐标，通过对渲染图像或点云施加随机扰动提升比例控制泛化能力[14] - 点云支持多种输入来源（深度相机、LiDAR或重建模型），并引入随机丢弃与噪声扰动模拟真实场景[14] - 体素通过将点云量化到[0,16]³网格并映射至[-1,1]³空间，形成稀疏几何提示[14] 实验结果 - 骨骼控制条件下，模型能生成高质量且与目标姿态精确对应的角色几何形体，包括A姿态、单手抬起及双手上举等多种姿态，生成结果与输入骨架严格对齐无畸变[18][19] - 边界框控制可自由调节生成物体长宽比例，触发智能几何重构能力：当沙发长度增加时自动生成额外支撑腿结构，凯旋门比例调整后保持合理建筑形态；还能解决单图生成"纸片物体"问题，注入边界框信号后成功生成正确3D资产[21][23] - 点云控制有效解决单视图几何歧义问题：完整点云成功还原被遮挡内部结构；深度图生成的表面点云确保生成几何在尺度上与真实物体精确对齐；即使输入噪声表面点云，生成几何与原始物体对齐效果仍明显优于仅使用图像的基线方法[25] - 体素控制通过稀疏几何线索解决单张图像歧义性问题：确保生成物体在尺度上与真实几何结构精确对齐；成功重建盾牌平整表面、精准捕捉鸟类翅膀形态特征、高度还原杯子低多边形风格几何结构[27][28] 框架价值 - 作为轻量级、多模态、可控3D生成框架，在不破坏基础模型能力前提下，通过统一控制编码器整合多种几何与控制信号，显著提升生成准确性、支持几何感知变换，并增强生产流程稳定性与鲁棒性[31]