Workflow
OpenAI o1初探:或能成为引领AI Phenomenal Ride的LLM新范式
海通证券·2024-09-25 16:37
  1. OpenAI 发布 o1 系列大模型,AI 大模型进入新纪元 - OpenAI 宣布开发了一系列全新 AI 模型,旨在在回应前投入更多时间思考。与之前的模型相比,这些模型能够更好地进行推理,并在科学、编程和数学等领域解决更为复杂的问题。[6] - OpenAI o1 在物理、化学和生物学等困难的基准任务中表现与博士生相似。此外,OpenAI o1 在数学和编程领域也表现优异,在国际数学奥林匹克竞赛的资格考试中,GPT-4o 仅正确解答了 13%的问题,而 OpenAI o1 的正确率达到了 83%。[6][7] - OpenAI o1 在 Codeforces 编程比赛中的表现达到了第 89 个百分位,OpenAI 认为这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。[6][7] - OpenAI 对 o1-preview 与 GPT-4o 在各种领域的人类偏好进行了评估,结果显示,在推理密集型的任务类别中,o1-preview 相较于 GPT-4o 有显著优势。[14][15] 2. o1-mini 同期发布,低价高速背景下细分领域性能优异 - OpenAI 发布了 OpenAI o1-mini,这是一款具有成本效益的推理模型。o1-mini 在 STEM 领域表现出色,尤其是在数学和编程方面,几乎与 OpenAI o1 在评估基准上的表现相当。[28][29][30][31] - o1-mini 成本比 OpenAI o1-preview 便宜 80%,ChatGPT Plus、Team、Enterprise 和 Edu 用户可以选择使用 o1-mini 作为 o1-preview 的替代方案。[28] - o1-mini 在需要推理的学术基准测试上表现优于 GPT-4o,但在涉及非 STEM 事实知识的任务上,o1-mini 的表现较为逊色。[32][33][34][35] 3. 全新的推理范式:思维链条+自我对弈强化学习 - OpenAI o1 带来的是推理范式的全面革新,即利用大语言模型学习推理(Learning to Reason with LLMs)。[42][43] - OpenAI 的大规模强化学习算法通过高度数据高效的训练过程,教会模型如何通过思维链条进行有效推理。o1 模型的性能随着更多的强化学习和思考时间而持续提升。[43][44][45] - 通过强化学习,o1 学会了优化其思维链条,能识别并纠正错误,学会将复杂的步骤拆解为更简单的部分,并在当前方法无效时尝试不同的方式。[44][45][46][47] - OpenAI o1 采用了自我对弈强化学习和思维链等业界前沿技术,这些技术在中国大模型科研和产业界也正在同步研究和实践应用。[72][73][74]