OpenAI发布o3和o4-mini模型，首次实现“用图像思考”及自主调用工具

报告行业投资评级 - 持续看好计算机板块 [2] 报告的核心观点 - OpenAI在GPT - 4.1后短时间发布o3和o4 - mini，佐证AI技术仍稳定发展，大规模强化学习遵循「投入越多计算资源，性能越好」规律，未来有望看到更多推理跨领域创新 [2][3] 相关目录总结 OpenAI新模型发布情况 - 近日OpenAI发布o3和o4 - mini模型，回应前思考时间更长 [2][4] - o3是最强大推理模型，在编码、数学、科学、视觉感知等多领域拓展前沿，在Codeforces、SWE - bench和MMMU等基准测试创新高，视觉任务表现出色 [2][4] - o4 - mini是优化的小模型，用于快速低成本推理，在数学、编码和视觉任务表现卓越，是AIME 2024和2025年最佳基准测试模型，在非STEM任务和数据科学领域超越o3 - mini [2][4] 新模型特点 - OpenAI将o3和o4 - mini定义为"视觉推理模型"，首次实现思考中"使用"图像，能借助工具变换用户上传图像，能力为模型固有，无需依赖单独专用模型 [2][5] - 在模型支持下，ChatGPT能结合高级推理与网络搜索、图像操作等工具，为测试时计算扩展新维度，融合视觉和文本推理，在多模态基准测试表现顶尖 [2][5] 新模型工具使用能力 - o3和o4 - mini能访问ChatGPT内工具和用户自定义工具，可选择使用工具的时间和方式，快速生成详细答案并以正确格式呈现 [2][6] - 模型能串联多个工具调用，如搜索网络获取数据、编写Python代码构建预测、生成图表或图像并解释预测因素，推理能力使其能根据信息灵活反应和调整方向 [2][6]