Workflow
TwiG
icon
搜索文档
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
36氪· 2025-12-22 16:12
当前视觉生成模型的局限性 - 以FLUX.1、Emu3为代表的扩散模型与自回归模型在文生图和视频生成领域已能生成极其逼真的画面 [1] - 但当处理复杂的空间关系、多物体交互或精准的数量控制时,模型常出现错误,例如将猫画到窗户外面或将三个苹果画成四个 [1] 现有解决方案及其不足 - 学术界此前主要有“谋定而后动”和“亡羊补牢”两条路径 [4] - “谋定而后动”方法要求生成前写好详细布局计划,缺乏灵活性 [4] - “亡羊补牢”方法在生成后通过多轮对话修改,导致巨大的推理开销和漫长的等待时间 [4] 新范式:Thinking-while-Generating (TwiG) - 由香港中文大学、美团等机构的研究团队提出,是首个在单一生成轨迹中以局部区域为粒度,将文本推理与视觉生成深度交织的框架 [4] - 该范式将视觉生成拆解为“生成-思考-再生成”的循环,模型在绘制过程中多次暂停以插入文本推理来总结当前状态并指导后续生成 [6] - 该框架受大语言模型中思维链的启发,但反其道而行之,用推理来引导作画 [6] TwiG框架的核心维度 - **何时思考**:模型根据用户提示词规划“思维时间表”,研究发现将画面生成过程拆解为3个阶段效果最佳 [7] - **思考什么**:在每个暂停点,模型生成一段“思维链”作为微型路书,细粒度地指导接下来的局部区域绘制 [7] - **如何修正**:在画完一个局部后,模型会进行自我批判,若发现问题会立即触发局部“重画”机制,无需推倒重来 [7] 实证研究:从Zero-Shot到SFT到RL - 研究在统一多模态模型(如Janus-Pro)上进行了层层递进的实验 [9] - **Zero-Shot潜力**:仅通过精心设计的提示词,TwiG-ZS在T2I-CompBench基准测试的属性绑定、空间关系等多个维度上显著超越基准模型 [10] - **SFT提升稳定性**:使用包含50K数据的高质量数据集TwiG-50K进行监督微调,有效减少了模型幻觉,使生成的思维链更简练可控 [11] - **RL突破上限**:采用针对TwiG优化的GRPO策略进行强化学习训练,TwiG-RL在T2I-CompBench++的多个关键组合与空间指标上展现出与Emu3、FLUX.1等模型具有竞争力甚至更优的表现 [12] 研究结论与行业意义 - 生成需要逻辑:单纯的像素概率预测难以处理复杂逻辑约束,引入显式文本推理是必经之路 [14] - 修正优于重绘:在生成过程中进行局部即时修正比画完再整体修改更高效 [15] - RL是关键:强化学习不仅能优化最终图像质量,更能教会模型如何思考,是挖掘多模态模型推理潜力的关键 [15] - 该框架在设计上对扩散模型同样兼容,其“边生成边思考”的范式有望扩展到视频生成、3D建模等更复杂领域 [15] - TwiG的提出是一种观念上的转变,旨在打破视觉生成模型的“黑盒”属性,使生成过程变得透明、可控且具有逻辑性 [13]