OpenAI的o1 - 财报，业绩电话会，研报，新闻

OpenAI的o1

搜索文档

第一财经· 2026-03-26 23:05

行业技术发展路径 - 过去两年行业重塑了对大模型的评估方式与核心期待例如 OpenAI 的 o1 表明“思考”可以成为一种被训练出来的能力 DeepSeek-R1 则证明推理式后训练可在原始实验室之外被复现和扩展[3] - 2025年上半年行业焦点主要停留在“推理式思考”本身即如何让模型在推理时多想一会儿而当前行业需要思考下一步的发展方向[3] - 行业正在从训练模型的时代走向训练智能体的时代其定义特征是与真实世界形成闭环交互智能体式思考将成为主流[3][5][7] 技术演进与核心挑战 - 一个重要的技术方向是构建统一的系统将思考模式和指令模式合二为一并支持可调节的推理努力程度甚至让模型自主决定推理量但实现“合并”极其困难[3] - 实现“合并”的真正难点在于数据思考与指令两种模式的数据分布和行为目标存在显著差异强行合并可能导致在两个方向上都表现平庸[4] - 在实践中分开开发独立的指令版本和思考版本仍有吸引力例如Qwen的2507版本就发布了独立的Instruct和Thinking版本包括30B和235B各一套[5] - 更优的解决方案是构建一个平滑的推理力度光谱使模型能自己判断该花费多少计算资源进行思考因为更长的推理链并不等同于模型更聪明有时反而意味着模型在乱花算力[5] 智能体时代的范式转变 - 智能体式思考与推理式思考的优化目标不同推理式思考以最终答案前的内部思辨质量来评判而智能体思维关注模型能否在与环境交互的过程中持续取得进展[5] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” 模型训练的核心对象也随之变为模型加环境的整个系统[5] - 在智能体时代环境设计、rollout基础设施、评估器的稳健程度以及多个Agent之间的协调等问题变得至关重要进入了技术核心圈[6] - “好的思考”的定义发生改变指的是在真实约束下最能撑起行动的那条轨迹而非最长或最显眼的那条[6]

大模型

智能体式思考

推理式思考

Artificial Intelligence

Artificial Intelligence

千问大模型

OpenAI的o1

1500篇关于提示工程的学术论文表明你所知道的一切都是错误的

36氪· 2025-08-22 11:12

核心观点 - 年收入超过5000万美元的公司系统性地采取与传统观点相反的提示工程方法这些方法基于研究证据而非流行建议从而在AI功能开发中获得显著竞争优势 [1][11][18] 误区与对应现实方法 - 误区一：提示越长越详细效果越好现实：结构良好的短提示在保持相同输出质量的同时降低76%的API成本结构比长度更重要 [3] - 误区二：更多示例总是有帮助现实：现代高级模型如OpenAI o1在输入示例时表现更差示例可能引入不必要的偏差或噪声 [4][5] - 误区三：完美措辞最重要现实：格式比具体词语更重要 XML格式相比自然语言格式使Claude模型性能持续提升15% [6] - 误区四：思路链适用于所有任务现实：思路链仅对数学和逻辑推理有效表格链方法使数据分析任务性能提高8.69% [7] - 误区五：人类专家写出最佳提示现实：AI系统在10分钟内生成的提示优于人类专家20小时的工作成果 [8] - 误区六：提示可一次性设定现实：持续优化流程使提示性能在12个月内提升156% 需系统化改进而非静态部署 [9][10] 高收入公司实践策略 - 优化业务指标而非模型指标关注用户满意度任务完成率和收入影响 [11] - 实现提示优化自动化采用系统化方法持续测试和改进提示性能 [11][13] - 优先构建格式组织和清晰分隔符而非巧妙措辞或冗长示例 [11] - 根据任务类型匹配专门技术如数学用思路链数据分析用表格链 [11][14] - 将提示视为需持续维护的产品功能基于真实用户数据不断优化 [11][16] 方法论差异 - 学术研究采用受控实验统计显著性检验和系统评估行业实践多依赖直觉和小规模A/B测试形成无效技术因感觉正确而被强化的反馈循环 [12] 实际应用指导 - 优先处理格式和组织结构而非措辞内容 [12] - 构建系统实现自动化测试和改进提示替代手动迭代 [13] - 根据任务类型匹配技术：数学用思路链数据分析用表格链其他用直接指令 [14] - 跟踪用户满意度和业务影响指标而非抽象模型性能分数 [15] - 将提示优化融入持续开发流程而非视为一次性任务 [16] 竞争优势 - 以更低成本实现更高性能构建更稳健且持续改进的系统 [18] - 将人类专业知识集中于定义目标和评估结果等高价值活动而非手动提示制作 [18]