Snapchat提出Canvas-to-Image:一张画布集成 ID、姿态与布局
机器之心·2025-12-09 11:17

核心观点 - Canvas-to-Image是一个面向组合式图像创作的全新框架,其核心创新在于取消了传统“分散控制”的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中,由模型直接解释为生成指令,从而简化了图像生成的控制流程 [2][9][31] 传统方法的局限性 - 在以往的生成流程中,身份参考、姿态线稿、布局框等控制方式被设计成互不相干的独立输入路径,各自拥有独立的编码方式与预处理逻辑 [7][8] - 这种多入口、分散式的输入结构缺乏统一的表达空间,使得用户无法在同一位置叠加多种控制信息,也无法用一个局部区域里的组合提示来指导模型生成,导致复杂场景的构建流程冗长且割裂 [8] 核心方法论 - Canvas-to-Image将所有控制信号汇聚到同一张画布中,由模型在同一个像素空间内理解、组合并执行,画布本身既是用户界面,也是模型的输入 [9][14] - 在训练过程中,模型采用跨帧采样策略自动生成多任务画布,从跨帧图像集中抽取目标帧所需的不同视觉元素(如人物片段、背景、姿态结构、框选区域等),并按目标帧中的相应位置摆放在输入画布中 [15][17] - 训练时,模型在每一次训练中只会接收到一种随机选定的控制模态(例如空间布局、姿态骨架或边界框),这使其学会独立理解不同类型的控制提示 [15] - 尽管训练数据中不存在显式标注的“多模态组合控制”样本,但模型在推理阶段展现出对未见过控制组合的泛化能力,能够在统一画布中同时解析并整合多种控制信号 [16] 实验结果与能力 - 在多控制组合任务中,Canvas-to-Image能够同时处理身份、姿态和布局框,而基线方法往往会失败 [18] - 当画布中同时包含人物提示和物体提示时,模型能够理解两者之间应有的空间与语义关系,生成具有自然接触、合理互动的场景,而非简单并置 [20] - 在多种控制叠加的情况下,模型能遵循给定的姿态与空间约束,保持人物外观与参考图一致,并维持整体画面的连贯性与合理性 [21][22][23] - 在多层次场景生成中,给定背景图后,模型可通过放置参考图或标注边界框的方式,将人物或物体自然地融入场景,使其在位置、光照和整体氛围上与背景保持一致 [25] 消融研究与总结 - 消融研究表明,当逐步添加控制时,模型表现逐步提升:仅身份控制时能生成人物但姿态和位置随机;增加姿态控制后能同时控制身份和姿态;增加空间布局后能完全控制身份、姿态和位置 [28][32] - 关键发现是,虽然训练时使用单任务画布,但模型自然学会了在推理时组合多种控制,这种涌现能力验证了其设计理念 [28] - 该框架的核心价值是把多模态的生成控制方式全部图形化,让复杂场景的构建回归到最直观的方式:在画布上摆放、画、框,就能生成对应的结构化、真实感强的画面,统一画布加多模态控制的范式有望成为下一代创作工具的基础界面形态 [31]