交错推理
搜索文档
ICLR 2026|原生多模态推理新范式ThinkMorph ,让文字与图像在统一架构中共同演化
机器之心· 2026-03-10 15:23
研究背景与核心观点 - 由NUS、ZJU、UW、Stanford、CUHK联合提出的「ThinkMorph」主张实现文字与图像在统一架构内的「原生协作」与「共同演化」,旨在模拟人类视觉思维与逻辑思维无缝切换的认知方式[2][5] - 当前主流多模态模型在输入阶段处理图像后便仅依赖文字链推进推理,而ThinkMorph实现了模型在推理的任何阶段都能自主生成中间图像辅助思考,再以文字分析图像、推进逻辑,形成交替演进的推理链[9] - 仅使用约2.4万条数据对7B统一模型进行微调,视觉推理平均提升34.74%,多项任务比肩甚至超越GPT-4o和Gemini 2.5 Flash[2] 核心设计理念 - 核心理念是文字与图像在推理中应提供互补信息,共同演化,而非同构复制[13] - 文字负责抽象分析和逻辑验证,图像负责空间可视化和细节呈现,两者互相推动以逐步逼近答案[14] 训练数据与方法 - 基于统一多模态模型Bagel-7B,研究团队构建了约24K条高质量交错推理训练数据,覆盖四类视觉推理任务:拼图重组、空间导航、视觉搜索和图表聚焦[16] - 在同一个基座模型上,对比微调了纯文字、纯视觉和交错三种推理模式,结果显示交错推理在视觉密集型任务上全面领先[19] 性能表现与泛化能力 - 在全部24K数据联合训练后,ThinkMorph在9个基准上相比基础模型平均提升20.74%,其中包括多个从未见过的域外任务[21] - 尽管仅7B参数,其性能可与大规模模型比肩:在BLINK-J上超越Qwen2.5-VL-72B超过10个百分点,在SAT空间推理上领先GPT-4o达24.67个百分点,在MMVP上匹配Gemini 2.5 Flash[21] 涌现能力 - **信号一:未见视觉操作**:训练数据仅包含四类基础视觉操作,但测试时模型自发展现了8种未见过的操作,如放大、图像修复等,在某些基准上这类涌现操作占所有视觉生成的10%以上[28][29] - **信号二:自主模式切换**:尽管仅用交错推理数据训练,模型在5.3%的测试案例中自主切换为纯文字推理,在这些切换样本上的准确率达81.25%,比坚持交错推理高出7.29个百分点[31] - **信号三:协同解空间探索**:在Best-of-N采样下,交错推理一致优于单模态推理,在最具挑战的BLINK-J上,性能从65.33%提升至73.33%(+8.0%)[34] 潜力与边界 - 研究显示原生多模态推理的潜力远超想象,其涌现的一系列积极信号暗示我们可能刚刚触及冰山一角[25] - 该推理方式存在边界:在图表分析等关键信息本身为文字的任务上,纯文字推理略优(+1.88%);但在需要精确视觉定位的任务上(如MMVP),交错推理优势明显(+6.33%)[43] - ThinkMorph暗示下一次范式级突破可能在于视觉与语言「交错协作」的原生推理,而非更长的文本链条[46]