AI应用行业点评：OpenAI发布o3模型，大模型推理能力再跃进

行业投资评级 - 看好AI应用行业 [3] 报告的核心观点 - 大模型进展从预训练端转变为推理端，进入Agent爆发时代，利好推理端算力需求，应用方面围绕解决复杂任务能力的出现，利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域 [1][24][25] 根据相关目录分别进行总结一、数学和代码能力跃迁 - 代码能力较o1提升20%多，接近甚至超越人类专业程序员。在OpenAI的代码生成评估基准SweepBench Verified测试中，o3达到约71.7%的准确率，此前o1模型得分48.9%。并且在编程竞赛平台Codeforces上o3得分2727分，超出o1得分800多分 [5] - 数学推理能力显著提升，达博士级别。在美国数学竞赛AMIE2024中，o3的准确率高达96.7%，与前代模型o1的83.3%相比，有了显著提升。在衡量博士级问题解答能力的GPQA Diamond测试中，o3取得87.7%的成绩 [40] - 首个突破ARC-AGI的模型，展现理解人类复杂逻辑和抽象能力。ARC-AGI是Keras之父Francois Chollet创建的智力测试基准，o3模型首次达到人类水平，在样本规模为6和1024两种情况下测试，o3在100个任务上的得分分别为75.7%和87.5% [41] 二、宣布o3-mini，高性价比模型 - o3-mini相较o3更具经济效益，专注在兼顾模型性能的同时提升推理速度、降低推理成本。支持低、中、高3种推理强度级别对应不同复杂程度任务 [8] - 编程和数学领域表现优异且更高效。在codeforces测试中，o3-mini的Elo评分随推理时间增加而增高，中等强度级别的o3-mini模型得分能够超过o1满血版 [8] - 对开发者的API工具上性能基本和o1满血版持平。o3-mini提供给开发者API功能，包括函数调用、结构化输出等，性能对标甚至超过o1满血版 [9] 三、挑战与启示: 高阶推理可以做到,但仍需降成本 - o3模型核心创新在于实现token空间内自研语言程序搜索和执行，优势在于更能够适应新任务。缺点在于成本昂贵，o3执行过程中需要探索大量路径并进行回溯，导致需处理千万个token消耗大量计算资源，例如在ARC-AGI任务的低计算量模式下每个任务需要花费17-20美元 [12][16] 四、近阶段大模型启示 - 大模型进展从预训练端转变为推理端：预训练Scaling Laws迭代放缓，OpenAI发布o1模型标志着大模型迭代重心转向推理端，引入强化学习提升复杂任务规划和推理能力，o3系列继续提升推理能力至博士级别 [24] - 大模型进入Agent爆发时代：随着大模型图像理解能力、推理能力提升，目前Agent成为下一个热点 [24] - 利好推理端算力需求：Agent时代下推理端的算力有望倍增，OpenAI o3系列的路径看到在解决复杂任务时需要消耗大量计算资源，目前还无法做到降低成本，对推理端的需求将持续上升 [24] - 应用方面围绕解决复杂任务能力的出现，利好科学研究、编程和软件开发、办公软件、医疗健康、金融等领域 [25] 计算机相关标的 - Agent B端落地：泛微网络、鼎捷数智、中软国际 [1] - Sora和多模态：万兴科技、虹软科技 [1] - AI教育：科大讯飞 [1] - AI办公：金山办公、福昕软件 [1] - AI金融：新致软件 [1]