多模态推理模型技术突破 - OpenAI推出的o3推理模型首次实现将图像直接融入推理过程,具备"用图思考"能力,在V* Bench基准测试中准确率达95.7%[1] - o3模型可自动聚焦图像关键区域(如物理试卷公式区、建筑图纸承重结构),结合知识库进行深度推理[1] - 小红书团队联合西安交通大学开发DeepEyes模型,通过端到端强化学习实现类似o3的"图像思考"能力,并开源技术细节[1] 多模态推理方法对比 - 传统"先看后想"方法存在局限:推理阶段无法回看图像补充细节,易导致理解偏差[4] - 更有效的"边看边想"方法允许动态调用图像信息,实现视觉与语言交替交互,提升多模态理解能力[4] - DeepEyes展示完整的三步推理流程:全局视觉分析→智能工具调用→细节推理识别,无需依赖外部OCR工具[7][8][9][10] DeepEyes模型架构与训练 - 引入"自驱动视觉聚焦"机制:根据文本推理需求动态裁剪关键图像区域进行深入分析[14] - 采用端到端强化学习策略,不依赖监督微调(SFT),通过outcome-based奖励函数激发原生能力[18][19] - 训练过程经历懵懂期(随机尝试)、探索期(频繁调用工具)、成熟期(精准预判关键区域)三阶段[21] 性能表现与优势 - 在V* Bench取得90.1准确率,HR-Bench超越现有工作流方法,7B版本视觉搜索表现优于Qwen-VL 32B[23] - 五大独特优势:训练更简洁(仅需问答对)、更强泛化能力、端到端联合优化、深度多模态融合、原生工具调用能力[26][27][28] - 数学推理能力显著提升,展示多模态模型跨任务潜力[24] 行业影响 - 开创多模态推理新范式:无需复杂工作流或大规模监督数据,通过强化学习实现视觉-文本深度融合[29] - 技术突破使"图像思考"不再是OpenAI专属,为开放世界多模态智能探索提供新路径[1][29] - 研究团队来自小红书和西安交通大学,成果已在实习期间完成并开源[31]
OpenAI未公开的o3「用图思考」技术,被小红书、西安交大尝试实现了
机器之心·2025-05-31 14:30