Workflow
OpenAI的o1
icon
搜索文档
林俊旸离职后首发长文
第一财经· 2026-03-26 23:05
行业技术发展路径 - 过去两年行业重塑了对大模型的评估方式与核心期待 例如 OpenAI 的 o1 表明“思考”可以成为一种被训练出来的能力 DeepSeek-R1 则证明推理式后训练可在原始实验室之外被复现和扩展[3] - 2025年上半年行业焦点主要停留在“推理式思考”本身 即如何让模型在推理时多想一会儿 而当前行业需要思考下一步的发展方向[3] - 行业正在从训练模型的时代走向训练智能体的时代 其定义特征是与真实世界形成闭环交互 智能体式思考将成为主流[3][5][7] 技术演进与核心挑战 - 一个重要的技术方向是构建统一的系统 将思考模式和指令模式合二为一 并支持可调节的推理努力程度 甚至让模型自主决定推理量 但实现“合并”极其困难[3] - 实现“合并”的真正难点在于数据 思考与指令两种模式的数据分布和行为目标存在显著差异 强行合并可能导致在两个方向上都表现平庸[4] - 在实践中 分开开发独立的指令版本和思考版本仍有吸引力 例如Qwen的2507版本就发布了独立的Instruct和Thinking版本 包括30B和235B各一套[5] - 更优的解决方案是构建一个平滑的推理力度光谱 使模型能自己判断该花费多少计算资源进行思考 因为更长的推理链并不等同于模型更聪明 有时反而意味着模型在乱花算力[5] 智能体时代的范式转变 - 智能体式思考与推理式思考的优化目标不同 推理式思考以最终答案前的内部思辨质量来评判 而智能体思维关注模型能否在与环境交互的过程中持续取得进展[5] - 核心问题从“模型能否思考得足够久”转变为“模型能不能用一种撑得起有效行动的方式来思考” 模型训练的核心对象也随之变为模型加环境的整个系统[5] - 在智能体时代 环境设计、rollout基础设施、评估器的稳健程度以及多个Agent之间的协调等问题变得至关重要 进入了技术核心圈[6] - “好的思考”的定义发生改变 指的是在真实约束下最能撑起行动的那条轨迹 而非最长或最显眼的那条[6]
1500篇关于提示工程的学术论文表明你所知道的一切都是错误的
36氪· 2025-08-22 11:12
核心观点 - 年收入超过5000万美元的公司系统性地采取与传统观点相反的提示工程方法 这些方法基于研究证据而非流行建议 从而在AI功能开发中获得显著竞争优势 [1][11][18] 误区与对应现实方法 - 误区一:提示越长越详细效果越好 现实:结构良好的短提示在保持相同输出质量的同时降低76%的API成本 结构比长度更重要 [3] - 误区二:更多示例总是有帮助 现实:现代高级模型如OpenAI o1在输入示例时表现更差 示例可能引入不必要的偏差或噪声 [4][5] - 误区三:完美措辞最重要 现实:格式比具体词语更重要 XML格式相比自然语言格式使Claude模型性能持续提升15% [6] - 误区四:思路链适用于所有任务 现实:思路链仅对数学和逻辑推理有效 表格链方法使数据分析任务性能提高8.69% [7] - 误区五:人类专家写出最佳提示 现实:AI系统在10分钟内生成的提示优于人类专家20小时的工作成果 [8] - 误区六:提示可一次性设定 现实:持续优化流程使提示性能在12个月内提升156% 需系统化改进而非静态部署 [9][10] 高收入公司实践策略 - 优化业务指标而非模型指标 关注用户满意度 任务完成率和收入影响 [11] - 实现提示优化自动化 采用系统化方法持续测试和改进提示性能 [11][13] - 优先构建格式 组织和清晰分隔符 而非巧妙措辞或冗长示例 [11] - 根据任务类型匹配专门技术 如数学用思路链 数据分析用表格链 [11][14] - 将提示视为需持续维护的产品功能 基于真实用户数据不断优化 [11][16] 方法论差异 - 学术研究采用受控实验 统计显著性检验和系统评估 行业实践多依赖直觉和小规模A/B测试 形成无效技术因感觉正确而被强化的反馈循环 [12] 实际应用指导 - 优先处理格式和组织结构而非措辞内容 [12] - 构建系统实现自动化测试和改进提示 替代手动迭代 [13] - 根据任务类型匹配技术:数学用思路链 数据分析用表格链 其他用直接指令 [14] - 跟踪用户满意度和业务影响指标而非抽象模型性能分数 [15] - 将提示优化融入持续开发流程而非视为一次性任务 [16] 竞争优势 - 以更低成本实现更高性能 构建更稳健且持续改进的系统 [18] - 将人类专业知识集中于定义目标和评估结果等高价值活动 而非手动提示制作 [18]