Workflow
GThinker
icon
搜索文档
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型
机器之心· 2025-07-19 11:13
多模态大模型技术突破 - 当前主流多模态大模型(如Qwen2 5-VL GPT-4o)在数学 科学等结构化任务表现优异 但在通用场景下存在视觉线索误判且缺乏修正机制的问题[1][7][8] - 中科院自动化所提出的GThinker模型通过「线索引导式反思」机制实现「思考-反思-修正」闭环 显著提升复杂场景推理能力[2][3][10] - 模型采用两阶段训练法:先通过7K高质量标注数据冷启动反思能力 再通过动态采样强化学习实现跨场景泛化[17][18][20][23] 模型性能表现 - 在M³CoT基准测试中 GThinker-7B以81 5%综合得分超越O4-mini等闭源模型 并在科学(90 7%)数学(81%)等子领域达到SOTA[26][28] - 通用场景测试显示 该模型在MMStar(66 4%)RealWorldQA(70 1%)等数据集上优于Gemini-2 5 Pro(73 6%/78%)和GPT-4o(65 1%/76 2%)[29] - 方法具备泛化性 可使Qwen2 5-VL等开源模型在OpenCompass学术榜单上平均提升1个百分点(如Qwen2 5-VL从70 9%升至72 2%)[30][31] 技术创新细节 - 核心「Cue-Rethinking」流程分三阶段:自由推理标记视觉线索→触发反思提示→系统性回溯验证并修正结论[12][13][14] - 训练数据构建采用多模型协同标注策略 覆盖通用 数学 科学三大领域 并通过embedding聚类保证数据多样性[20][27] - 采用DAPO训练算法 动态采样结合无KL策略 更适合长链思考任务 相比GRPO提升探索效率[27]