提示词工程

搜索文档
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
36氪· 2025-08-21 16:49
产品发布与市场反馈 - GPT-5于8月8日正式发布,定位为具有博士水平智能的AI产品,但发布后口碑不佳并引发大量用户退订诉求[1][7] - 官方在发布前下架旧模型,但因使用体验问题被迫紧急恢复旧版模型访问权限[1] - 尽管技术测试和跑分显示其优势明显,但用户实际体验中存在严重问题[1] 技术能力与性能表现 - 在数学、真实世界编码、多模态理解和健康领域表现突出,被评测人员称为"理科生"[4][5] - 处理大型代码库重构、复杂Bug修复及从零构建完整应用的能力显著提升,相当于全栈工程师水平[13][14] - Tau-Bench测试(零售场景)分数从73.9%提升至78.2%,体现性能优化[23] - 逻辑推理、常识理解和创造力较旧版本增强,但存在智能不稳定性,简单任务可能出错[5][15] 核心功能演进 - 智能体任务性能:从问答式交互升级为可自主规划步骤、选择工具并持续完成复杂任务的项目管理模式[10][12] - 可引导性:对指令细微差别高度敏感,支持精确控制行为、语气和输出风格[17][18][19] - Responses API新增支持远程连接MCP服务器和图像生成,通过"previous_response_id"实现上下文记忆,降低token消耗成本[20][21][22] 用户交互模式变革 - 需从传统搜索引擎式交互转变为与"数字心智"协作,旧沟通方式导致使用效率低下[8][9] - 新增推理强度(reasoning_effort)和详细度(verbosity)双参数控制系统,分别控制思考深度和回答长度[29][53] - 指令冲突问题显著:严格遵循所有指令的特性导致矛盾指令会引发资源消耗和逻辑混乱[54][56][61] 优化策略与应用场景 - 效率优先场景:通过降低推理强度、设置工具调用预算及提前停止标准来简化输出[29] - 复杂探索场景:提高推理强度并明确困难处理机制,鼓励自主决策[32][33][35] - 代码开发场景:采用"自我反思提示法"先进行需求架构设计再生成代码,提升输出质量[39][42][43] - 风格一致性控制:通过提供详细规则手册确保AI输出与现有项目风格匹配[46] 高阶功能与工具 - 极速模式:在低延迟场景下最小化推理能力以提升速度,但需配合高质量提示词和持久性提醒[69][70][72] - 元提示(Metaprompting):通过AI自我优化提示词设计,降低用户修改负担[73][74] - Prompt optimizer tool官方工具可自动识别指令逻辑冲突问题[65]
“现在读AI博士已经太晚了”
量子位· 2025-08-19 13:25
行业观点 - 谷歌生成式AI团队创始成员Jad Tarifi认为,当前AI领域发展过快,不建议为追赶热潮而攻读AI博士学位,因为AI技术可能在博士毕业前就被解决[1][5][8] - Tarifi建议要么选择AI生物学等早期细分领域,要么完全避开AI领域,并强调博士学位需要牺牲大量时间和承受痛苦,仅适合对该领域极度痴迷的人[8][9][10] - Tarifi认为传统需要长时间完成的学位(如法律和医学)也面临挑战,因为所学内容可能过时且基于死记硬背[12][13] 就业市场影响 - 生成式AI已成为裁员主要推手之一,2025年前七个月美国因AI裁员超过1万人,AI被列为劳动力减少的五大原因之一[14] - 2025年美国公司已宣布裁员80.6万人,为2020年以来同期最高,科技行业裁员8.9万人,其中2.7万个岗位直接归因于AI驱动的冗余[15][16] - 应届毕业生就业市场收紧,计算机科学专业毕业生需投递2500份简历才能获得10次面试机会,应届生失业率攀升至6%,高于全美平均水平4%[19][20][22] 人才需求变化 - Tarifi建议发展社交技能和同理心,认为AI专业知识涉及"情感谐调"和"良好品味",而非掌握所有技术细节[23][24][25] - Y Combinator创始人Paul Graham指出低级别编程工作正在消失,建议深耕某一领域至远超AI杂活水平以抵御冲击[27][28] - 近50%美国Z世代求职者认为AI已使其学位贬值,企业如多邻国以"AI使用流畅度"作为招聘晋升标准[18][21]
别再空谈“模型即产品”了,AI 已经把产品经理逼到了悬崖边
AI科技大本营· 2025-08-12 17:25
行业现状与挑战 - AI产品领域存在宏大叙事与落地现实之间的巨大鸿沟,表现为技术理想与用户留存率低下的矛盾[1] - 行业呈现两极分化:部分从业者聚焦AGI终极形态,另一部分则面临不稳定API和用户高期待的实际挑战[2] - 当前AI浪潮类比"淘金热",多数参与者难以找到可持续商业模式,部分产品如AI Pin和Rabbit R1已遭遇市场困境[3] 行业活动与解决方案 - 全球产品经理大会将于8月15-16日在北京举行,汇集12大专题分享,覆盖互联网大厂和AI创业公司实战经验[14][16] - 活动将发布可能影响行业格局的重要产品,并通过深度探展和街采捕捉从业者真实困惑[8] - 多位行业领袖将分享实战经验,包括久痕科技CEO汪源、YouMind创始人王保平等,内容涵盖技术路径与商业化方法论[4][5] 产品经理职业转型 - 传统产品技能如原型设计正被AI快速替代,未来需具备战略判断、人机协作编排和用户心理洞察等复合能力[9] - 行业处于关键转折点,从业者需重新定位核心价值,把握技术浪潮方向与情感需求挖掘的双重机遇[9][10] 行业趋势与机会 - 技术演进迅速,GPT-5、Kimi K2长文本处理、Genie 3等多模态生成技术不断突破现实边界[1] - 商业模式探索从"提示词工程"向"上下文工程"进化,部分已验证路径可为行业提供参考[3] - 直播活动将揭示最新行业动态,包括腾讯混元大模型、百度秒哒等头部企业的应用实践[4][5]
仅用提示词工程摘下IMO金牌!清华校友强强联手新发现,学术界不靠砸钱也能比肩大厂
量子位· 2025-08-02 13:23
核心观点 - 两位清华校友通过设计自我迭代验证流程和提示词优化,使Gemini 2.5 Pro在IMO题目解答中达到金牌水平 [1][4][6] - 基础大模型已具备解决复杂数学推理问题的能力,但需要特定提示词和迭代验证才能充分发挥潜力 [6][7][9] - 该方法突破了单次生成中有限推理预算和初始答案错误的局限性,将LLM潜在能力转化为严谨数学证明 [24] 技术方法 - 采用通用提示词+迭代验证流程,包括初始解决方案生成、自我改进、验证解决方案、审查错误报告、纠正改进解决方案和最终接受/拒绝解决方案六个步骤 [16][17] - 使用Gemini 2.5 Pro作为求解器和验证器,分别采用差异化提示词设计 [16][18] - 验证器模拟IMO评分专家,将问题分为关键错误和论证缺口两类,通过多次迭代降低误判影响 [19][20] - 实验选择IMO 2025题目以避免训练数据污染,设置温度值0.1减少随机错误 [20] 实验结果 - Gemini 2.5 Pro在IMO 6道题目中完成5道,其中前两道题目生成有提示和无提示两种解决方案 [23] - 未解决的第六题因验证器未能区分求解器输出的假阳性答案细节 [24][40] - 使用提示后模型一次独立实验即可解决题目,未使用时思维发散且可能需要多次实验 [39] - 不同题目需要的tokens数在300k到5000k之间,计算时间最快10分钟/题 [38] 模型对比 - Gemini 2.5 Pro在IMO测试中准确率31.55%,成本$431.97,显著高于其他模型 [9] - 对比模型表现:o3(high)准确率16.67%,o4-mini(high)14.29%,Grok 4 11.90%,DeepSeek-R1-0528 6.85% [9] - 研究人员预计使用Grok 4、OpenAI-o系列或多智能体系统可能产生更强数学能力 [25] 研究团队 - 黄溢辰:加州大学伯克利分校物理学博士,曾任职微软AI研究员,研究方向包括量子物理学和机器学习 [28][31] - 杨林:加州大学洛杉矶分校副教授,研究重点为强化学习、机器学习和优化理论,曾获亚马逊教授奖等荣誉 [33][35] - 团队证明学术界利用有限资源也能做出与大厂同等重要的成果 [36][43]
AI 产品经理们的挑战:在「审美」之前,都是技术问题
Founder Park· 2025-07-31 11:01
AI Native产品的用户体验挑战 - 移动互联网时代产品成功依赖用户体验设计,而AI Native产品的用户体验已成为技术问题而非单纯审美问题[3] - AI产品面临用户需求与价值交付的双重「失控」,用户无法通过自然语言精准驾驭AI能力[3] - 当前AI产品体验瓶颈本质是技术问题,需模型技术与产品工程协同突破市场临界点[4] AI产品设计的两大技术路径 - Andrej Karpathy提出「上下文工程」,强调系统化管理指令、历史记忆等输入信息,优化AI决策基础[7] - Sean Grove主张「规范化编程」,通过结构化文档定义目标,解决人类意图表达不清的核心问题[7] - 两种方案均超越传统提示词工程,试图绕过人类模糊性缺陷[8] AI产品的未来进化方向 - 解决方案需依赖AI而非人类,AI需具备主动理解、预判用户意图的能力[10][11] - 「宽输入」终极目标为多模态感知+生活流捕捉,形成input-output闭环实现自进化[11] - Karpathy与Grove的工作实质是为AI构建弥补人类缺陷的机制,推动AI与混沌现实协作[12] AI时代产品经理的能力转型 - 产品经理需优先理解「模性」,技术审美成为产品审美的前提条件[13] - AI产品设计逻辑从「人适应AI」转向「AI适应人」,技术能力决定用户体验上限[13]
刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
36氪· 2025-07-30 09:37
ChatGPT学习模式更新 - 核心功能升级为Study Mode(学习模式),通过引导式教学帮助用户逐步解决问题而非直接提供答案[1][2] - 免费用户也可使用该功能,推出后获得广泛好评[2][4] 学习模式核心特性 - **交互式提示**:采用苏格拉底式提问、提示和自我反思提示词促进主动学习[2] - **支架式回复**:信息分章节呈现,突出主题关联性并降低学习压力[2] - **个性化支持**:根据用户技能水平和聊天记录定制课程内容[2] - **知识测试**:通过测验和开放式问题跟踪进度并巩固知识[2] - **灵活性**:允许在对话中随时切换学习目标[2] 技术实现与设计理念 - 底层由OpenAI与教育专家合作编写的系统指令驱动,融合学习科学研究成果[10] - 关键设计原则包括鼓励主动参与、管理认知负荷、培养元认知能力等[10][13] - 系统提示词公开透明,包含用户评估、知识衔接、引导式教学等模块[11][13][15] 实际应用案例 - 支持家庭作业、考试准备和新主题探索等场景[4] - 演示案例显示能根据用户知识水平动态调整教学策略(如逻辑语学习)[6] - 教学流程包含初始评估、分步引导、知识强化等标准化环节[13][14] 行业影响 - 功能设计可复用于其他AI模型,推动教育科技领域创新[16] - 采用简洁热情的交互风格,保持对话流畅性与参与感[15]
刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
机器之心· 2025-07-30 08:48
ChatGPT学习模式更新 - ChatGPT推出Study Mode(学习模式),该模式旨在帮助用户逐步解决问题而非直接提供答案[1][2] - 学习模式下ChatGPT会通过引导性问题、分步骤解释和个性化调整来确保用户理解每个概念[3][4] - 免费用户也可使用该功能,核心特性包括交互式提示、支架式回复、个性化支持、知识测试和灵活性[5] 学习模式的功能特性 - **交互式提示**:采用苏格拉底式提问和提示词引导用户主动学习,避免直接给出答案[5] - **支架式回复**:信息组织成易于理解的章节,突出主题关联性并减少学习压力[5] - **个性化支持**:根据用户技能水平和聊天记忆定制课程内容[5] - **知识测试**:通过测验和开放式问题跟踪进度并提供反馈[5] - **灵活性**:允许用户在对话中随时切换学习模式以调整目标[5] 学习模式的构建原理 - 底层基于OpenAI与教育专家合作设计的提示词工程,体现主动参与、认知负荷管理等学习科学原则[13] - 系统提示词明确要求ChatGPT扮演导师角色,通过提问、联系已有知识、引导发现答案等方式辅助学习[16][17][18][19] - 关键规则包括了解用户目标、检查理解程度、改变互动节奏,并禁止直接解答作业问题[20][21][22] 用户反馈与案例 - 功能推出后广受好评,演示案例显示ChatGPT能通过问题评估用户知识水平并开展针对性教学[6][9] - 开发者发现OpenAI公开了学习模式的系统提示词,便于其他AI模型复现类似功能[14][15][24]
Karpathy:我不是要造新词,是「上下文工程」对 Agent 来说太重要了
Founder Park· 2025-07-04 21:10
上下文工程概念 - 决定AI应用效果的关键在于提供完整且恰当的上下文而非单纯优化提示词[3] - 上下文工程是一门精妙的艺术与科学需精准填充信息包括任务描述示例RAG多模态数据工具等[7] - 上下文窗口需平衡信息量与相关性过量或不足均影响性能[7] 与提示词工程的区别 - 提示词仅为用户输入的文本指令如让ChatGPT总结文本[16] - 提示词工程是系统化设计测试优化提示词的方法论类似软件工程[17] - 上下文工程是动态系统设计在正确时间以正确格式提供信息与工具[19] - 三者关系:提示词是输入文本提示词工程优化过程上下文工程构建动态系统[20] 重要性体现 - AI Agent效能核心取决于上下文质量而非代码复杂度[24] - 案例对比:普通Agent仅处理简单请求而优质Agent整合日历历史邮件等上下文实现高效响应[25] 落地策略分类 写入上下文 - 草稿板机制持久化保存任务计划避免token截断[31] - 长期记忆跨会话存储如ChatGPT的生成式记忆[32][35] 筛选上下文 - 从草稿板或记忆中提取相关片段如少样本示例或指令[37][38] - 工具选择采用RAG技术提升3倍准确率[41] - RAG挑战包括代码索引与语义分块需结合知识图谱检索[42] 压缩上下文 - 自动摘要技术处理长交互如Claude Code的95%窗口压缩[43] - 修剪策略包括硬编码规则或训练专用裁剪模型[46] 隔离上下文 - 多Agent架构分配独立上下文窗口专注子任务[48][50] - 沙盒环境隔离消耗性资源如HuggingFace的CodeAgent[53][54] - 运行时状态对象选择性暴露字段实现隔离[55] 行业动态 - Andrej Karpathy强调工业级LLM应用中上下文组件复杂性被低估[10] - LangChain与DeepMind工程师推动上下文工程方法论标准化[3][56]
登上热搜!Prompt不再是AI重点,新热点是Context Engineering
机器之心· 2025-07-03 16:01
上下文工程的核心概念 - 将LLM视为通用的、不确定的文本生成函数而非拟人化实体 强调其无状态特性 需通过输入文本来控制输出[4][5][8] - 上下文工程的核心在于构建有效输入文本系统 而非依赖单句"魔法咒语"式的提示词工程[9][11] - LLM被类比为新型操作系统 需要为其准备完整运行环境而非零散指令[13] 上下文工程的技术要素 - 采用自动化系统构建"信息流水线" 从多源自动抓取整合数据形成完整上下文[15][17] - 工具箱包含四大核心工具:指令下达、知识记忆管理、检索增强生成(RAG)、智能体自主查资料[19][21] - RAG技术通过知识库检索防止模型幻觉 确保回答基于事实[19] - 智能体技术实现动态信息获取 自主判断需求并整合多源数据[21] 工程实践方法论 - 采用科学实验式流程 分"从后往前规划"和"从前往后构建"两阶段实施[23][24][25] - 实施路径:明确输出目标→倒推所需输入→设计自动化生产系统[26] - 模块化开发流程:依次测试数据接口、搜索功能、打包程序 最终进行端到端系统测试[30] - LangChain生态提供实践支持 包括LangGraph和LangSmith等工具[29][31]
论坛| 未可知 x 容诚: AI技术在基金行业的创新应用与效率提升之道
未可知人工智能研究院· 2025-07-02 20:01
AI技术在基金行业的创新应用与效率提升 核心观点 - AI技术正在重塑基金行业的投研、营销、运营等环节,生成式AI和智能体技术实现从“回答问题”到“完成任务”的跨越式发展 [4] - 中国AI发展面临算力瓶颈,但国产模型如DeepSeek通过开源策略和低成本训练提供高性价比转型方案 [8] - 未来十年是人机协同黄金期,构建“AI员工”团队的机构将在行业竞争中占据先机 [13] 技术演进 - 生成式AI(如DeepSeek、Sora)与传统决策式AI存在本质区别,前者重塑内容生产方式,后者侧重任务执行 [4] - 新一代AI智能体突破“回答问题”局限,实现复杂任务自动化处理 [4] 行业实践 - **信息处理高效化**:秘塔AI等工具可将信息搜集时间缩短80% [6] - **内容生产自动化**:提示词工程快速生成营销文案和PPT,视频生成技术赋能产品营销 [4][6] - **业务流程智能化**:RPA数字员工实现净值核对等重复性工作自动化,某大型基金公司年节省超4000工时 [6] 中国AI发展现状 - 国产模型优势:DeepSeek开源策略降低训练成本,适合金融机构本地化部署解决数据隐私问题 [8] - 挑战:算力瓶颈仍需突破,需平衡技术创新与资源限制 [8] 未来趋势 - 未可知人工智能研究院将推出AI培训课程,培养金融机构AI人才 [13] - AI创造力显著提升,可模仿网红风格文案或鲁迅笔锋文章,技术成熟度已具备商业化应用条件 [10]