AI应用行业点评:OpenAI发布o3模型,大模型推理能力再跃进
2024-12-23 11:38

行业投资评级 - 看好AI应用行业 [3] 报告的核心观点 - 大模型进展从预训练端转变为推理端,进入Agent爆发时代,利好推理端算力需求,应用方面围绕解决复杂任务能力的出现,利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域 [1][24][25] 根据相关目录分别进行总结 一、数学和代码能力跃迁 - 代码能力较o1提升20%多,接近甚至超越人类专业程序员。在OpenAI的代码生成评估基准SweepBench Verified测试中,o3达到约71.7%的准确率,此前o1模型得分48.9%。并且在编程竞赛平台Codeforces上o3得分2727分,超出o1得分800多分 [5] - 数学推理能力显著提升,达博士级别。在美国数学竞赛AMIE2024中,o3的准确率高达96.7%,与前代模型o1的83.3%相比,有了显著提升。在衡量博士级问题解答能力的GPQA Diamond测试中,o3取得87.7%的成绩 [40] - 首个突破ARC-AGI的模型,展现理解人类复杂逻辑和抽象能力。ARC-AGI是Keras之父Francois Chollet创建的智力测试基准,o3模型首次达到人类水平,在样本规模为6和1024两种情况下测试,o3在100个任务上的得分分别为75.7%和87.5% [41] 二、宣布o3-mini,高性价比模型 - o3-mini相较o3更具经济效益,专注在兼顾模型性能的同时提升推理速度、降低推理成本。支持低、中、高3种推理强度级别对应不同复杂程度任务 [8] - 编程和数学领域表现优异且更高效。在codeforces测试中,o3-mini的Elo评分随推理时间增加而增高,中等强度级别的o3-mini模型得分能够超过o1满血版 [8] - 对开发者的API工具上性能基本和o1满血版持平。o3-mini提供给开发者API功能,包括函数调用、结构化输出等,性能对标甚至超过o1满血版 [9] 三、挑战与启示: 高阶推理可以做到,但仍需降成本 - o3模型核心创新在于实现token空间内自研语言程序搜索和执行,优势在于更能够适应新任务。缺点在于成本昂贵,o3执行过程中需要探索大量路径并进行回溯,导致需处理千万个token消耗大量计算资源,例如在ARC-AGI任务的低计算量模式下每个任务需要花费17-20美元 [12][16] 四、近阶段大模型启示 - 大模型进展从预训练端转变为推理端:预训练Scaling Laws迭代放缓,OpenAI发布o1模型标志着大模型迭代重心转向推理端,引入强化学习提升复杂任务规划和推理能力,o3系列继续提升推理能力至博士级别 [24] - 大模型进入Agent爆发时代:随着大模型图像理解能力、推理能力提升,目前Agent成为下一个热点 [24] - 利好推理端算力需求:Agent时代下推理端的算力有望倍增,OpenAI o3系列的路径看到在解决复杂任务时需要消耗大量计算资源,目前还无法做到降低成本,对推理端的需求将持续上升 [24] - 应用方面围绕解决复杂任务能力的出现,利好科学研究、编程和软件开发、办公软件、医疗健康、金融等领域 [25] 计算机相关标的 - Agent B端落地:泛微网络、鼎捷数智、中软国际 [1] - Sora和多模态:万兴科技、虹软科技 [1] - AI教育:科大讯飞 [1] - AI办公:金山办公、福昕软件 [1] - AI金融:新致软件 [1]

AI应用行业点评:OpenAI发布o3模型,大模型推理能力再跃进 - Reportify