OpenAI深夜上线o3满血版和o4 mini - 依旧领先。

模型发布与更新 - OpenAI发布o3和o4-mini模型，取代原有的o1、o3-mini和o3-mini-high模型，ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型，首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%，o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上，o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中，o3从20.3%提升至24.9%，o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升：o3在MMMU数据集从77.6%提升至82.9%，MathVista从71.8%提升至87.5%，CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36，但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出)，比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力，能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力，可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁，可能带来行业变革[30][33]