Workflow
中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考
机器之心·2025-05-29 15:10

视觉思维的核心价值 - 视觉思维在人类认知中扮演核心角色,贯穿专业领域和日常生活,如生物化学家构建蛋白质三维结构、建筑师优化空间配置等[1][2] - 视觉思维能创造概念间独特组合和新颖连接,提供纯文本推理无法获得的洞察和创意[2] - 人类通过「脑补」场景图像辅助决策,将图像作为认知媒介[2] AI视觉思维的突破 - 研究团队提出Thinking with Generated Images,让大模型自发生成视觉中间步骤进行跨模态推理[3] - 突破性理念是从「看图像」到「脑补图像」的递进进化,实现真正的视觉预见性和想象力[5][9] - 该技术适用于需要空间想象、动态规划和创造性视觉构建的任务,相比纯文本推理具有根本性优势[9] 技术实现方案 - 提出「原生多模态长思维过程」框架,由交错的文本和图像token组成,支持动态生成视觉假设[12][13] - 实现三大模式:「看」图像(被动观察)、「对着」图像思考(有限变换)、「脑补」图像思考(主动生成)[13] - 具备四大优势:跨模态原生思维能力、统一生成式任务执行、自然测试时扩展机制、未来技术集成兼容性[14] 两种思维链模式 - 视觉子目标分解:将复杂任务拆解为子目标分步生成,避免元素遗漏和比例失调,如生成「沙发+酒杯」时先独立生成再组合[15] - 视觉假设自我反思迭代:通过「草稿-修改-完善」循环优化图像,包括内容完整性检查、视觉质量评估等[18] 模型架构与训练 - 选择Anole作为基础模型,因其具备原生交错生成能力和高效视觉表示机制[20] - 训练数据构建采用三大黄金法则:高质量图像生成提示词、高质量反思推理链、高质量中间视觉思维[28] - 分两阶段训练:基础能力强化(JourneyDB数据集)和专门化微调(视觉子目标分解与自我批判数据集)[34] 性能评估结果 - TwGI-Anole-7b-Obj在GenEval基准上「双对象」类别得分0.57,较基线提升50%[38] - TwGI-Anole-7b-Crit通过自我批判使GenEval总分从0.45提升至0.48,DPGBench分数从62.83提升至67.14[39] - 中间视觉思维生成显著提升模型在空间对齐和语义理解方面的能力[38][39] 未来应用展望 - 创造性设计:迭代生成建筑草图并记录调整理由(如优化采光)[44] - 科学发现:生成分子结构假设图像辅助药物研发[44] - 战术规划:可视化篮球战术配合和防守破解策略[44] - 代表多模态推理范式突破,为AGI发展铺平道路[45]