Workflow
提示工程
icon
搜索文档
当所有人都在学提示工程时,聪明人却专注于掌握这项技能
36氪· 2025-08-02 08:32
AI翻译层的崛起 - 当前职场人士普遍学习提示工程和AI工具操作,但顶尖人才正转向更具价值的"AI翻译层"技能,即将机器洞察转化为人类可执行决策的双向沟通能力 [2][3] - AI翻译层的核心价值在于弥合AI输出与人类决策之间的鸿沟,这种能力比单纯的技术操作稀缺10倍 [1][3] AI应用的现状与瓶颈 - AI系统已能快速分析海量数据并生成复杂建议,但多数产出被束之高阁,主要因人类理解能力成为瓶颈 [4][5][6] - 企业投入重金购买AI工具后,常因团队无法理解或执行AI建议而导致资源浪费 [5] 当前职业发展路径的误区 - 专业人士过度聚焦AI技术操作技能,而忽视更关键的翻译能力,导致三个问题:技能快速淘汰、红海市场竞争、解决错误问题 [8] - 真正用好AI的公司依赖能将AI建议转化为可执行方案的团队,而非仅掌握复杂提示词的技术人员 [8] AI翻译层的实施策略 - 第一步需转变认知:将AI视为创造新型工作的工具而非竞争对手,例如GPT-4识别47种情绪模式后需人类筛选真正影响战略的3种 [9] - 第二步识别组织内AI与人类决策的具体断层,包括数据转化、背景理解、行动框架等需求差异 [11][12] - 第三步培养特定技能:简化复杂洞察、交代商业背景、聚焦影响、建立行动框架、精准提问等 [13] 翻译能力的竞争优势 - 双向沟通能力成为核心竞争力,AI生成信息越强,人类解释洞察价值的能力越关键 [14] - 当AI洞察普及后,竞争优势将属于最能诠释意义及行动路径的人才 [14] 技术发展的底层逻辑 - 历史规律显示新技术创造新型工作而非单纯替代旧职,互联网催生了信息组织与数字通信新职业 [15] - AI同样催生对"翻译官"的需求,包括向非技术高管解释建议、优先级判断、行动计划转化等职能 [16] 未来职业发展方向 - 精进AI输出转化能力比提示工程更具长期价值,需培养简化解释、关键识别、行动框架等技能 [18] - 在AI解析万物的世界中,帮助人类理解意义的角色将显著增值 [18]
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 18:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
黄仁勋:每天都在用AI,提示工程可以提高认知水平
量子位· 2025-07-16 12:21
人工智能对工作的影响 - 人工智能不会大规模消灭工作岗位 而是通过大规模任务削减和重构来重塑几乎所有工作岗位 [3][4][9] - 人工智能将创造大量新岗位 并推动社会生产力提升 [10] - 部分专家持不同观点 预测到2045年大多数工作将不复存在 50%白领入门级工作可能在5年内被AI取代 [19][20][23] AI工具的使用与认知能力 - 使用AI不会降低人类思考能力 关键在于如何将其作为学习工具而非替代思考 [11][12] - 提示工程是一项高级认知技能 需要认知努力和表达清晰度 [1][13] - 通过与多个AI互动并比较答案 可以提升批判性思维和认知能力 [15][16] 英伟达最新动态 - H20芯片已获准销往中国市场 将发布专为计算机图形和AI设计的新显卡RTX Pro [8] - 公司市值突破四万亿美元 成为历史上首家达到该里程碑的企业 [26] 中美AI竞争格局 - 中国拥有全球50%的AI开发者 在人工智能领域表现突出 [30] - 美国需整合全球AI开发者资源以保持领导地位 [29] 行业领袖观点分歧 - 英伟达CEO认为AI是"最伟大的技术均衡器" 将重新定义而非取代人类工作 [17] - Meta首席AI科学家支持增强论 认为AI是对人类工作的补充而非替代 [25] - Anthropic CEO警告AI对技术 金融 法律等领域的就业冲击未被充分重视 [23][24]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
告别无效提示!开发者必学的AI协作提示框架全解析
36氪· 2025-06-28 08:04
AI编程助手应用 - 开发者依赖AI编程助手加速工作流程,包括自动补全函数、修复bug和生成模块或MVP [3] - AI输出质量高度依赖提示词质量,提示工程成为必备技能 [3] - 有效提示需要提供丰富上下文、明确目标和问题、分解复杂任务、提供输入输出示例以及利用角色扮演 [5] 提示工程技术 - 角色提示技术模拟专家级代码评审、调试或重构 [4] - 显式上下文设置清晰界定问题避免笼统回答 [4] - 输入输出示例通过具体案例传递意图引导AI [4] - 迭代链式处理将大型任务拆分为步骤避免提示过于庞杂 [4] - 模拟调试让AI模拟运行时行为暴露隐藏Bug [4] 调试代码策略 - 清晰描述问题和症状是调试的基础,需包含编程语言、预期行为、错误输出和代码上下文 [9] - 对复杂bug采用分步或逐行方法让AI逐步执行代码 [9] - 提供最小可复现示例帮助AI集中注意力并澄清问题 [14] - 提出有针对性的问题和后续跟进促使AI进行诊断并提出解决方案 [14] 重构与优化方法 - 明确重构目标如提高可读性、降低复杂度或优化性能 [17] - 提供必要代码上下文包括语言、框架和周边相关代码 [18] - 鼓励附带代码解释以验证重构正确性并学习改进方法 [18] - 利用角色扮演如要求AI扮演资深工程师设定高标准 [19] 功能实现技巧 - 从高阶指令开始逐步深入分解复杂功能为小任务 [35] - 提供相关上下文或参考代码确保生成代码符合项目需求 [36] - 使用注释和TODO作为内联提示指导AI生成特定代码块 [36] - 提供预期输入输出或用法示例约束AI生成符合要求的函数 [38] 常见提示反模式 - 模糊提示缺乏细节导致AI猜测和泛泛回答 [51] - 超载提示要求AI同时处理过多任务导致结果混乱 [51] - 缺失明确诉求使AI无法理解用户意图 [51] - 模糊成功标准未定义优化方向导致AI解决非目标问题 [51]
上下文就是一切!行业热议话题:提示工程是否应该改名
歸藏的AI工具箱· 2025-06-26 19:40
核心观点 - 上下文工程是比提示工程更准确描述LLM应用核心技能的术语 强调为LLM提供完成任务所需的所有上下文 [1] - 工业级LLM应用中 上下文工程是精心填充上下文窗口的艺术与科学 需包含任务描述 少样本 RAG 多模态数据 工具 状态历史等多维度信息 [1] - 上下文工程师需具备对LLM"心理"的引导性直觉 通过持续优化提示词和上下文内容来建立模型边界认知 [2] 行业动态 - Shopify CEO和Andrej Karpathy推动"上下文工程"术语替代"提示工程" 因其更准确反映岗位核心技能 [1] - Cognition和Anthropic在AI Agent构建中均强调上下文管理是关键 Anthropic指出数百轮对话需精细策略 [3] 重要性分析 - 不充分上下文共享导致子Agent工作不一致或冲突假设 过长上下文限制LLM回忆能力 GPT-4o多轮对话准确率仅50% [4] - 语音AI Agent中上下文膨胀增加延迟(目标中位延迟800ms) 函数调用准确性在多轮对话中显著下降 [4] 优化策略框架 - Lance Martin定义上下文工程为伞状学科 涵盖指令上下文(提示/记忆) 知识上下文(RAG) 操作上下文(工具流) [5] - 提出三大策略:压缩(保留高价值Token) 持久化(存储检索系统) 隔离(划分上下文边界) [5] 压缩技术实践 - Claude Code在上下文窗口使用超95%时自动压缩 Anthropic多Agent研究生成工作阶段摘要 [7] - Cognition的Devin使用专用微调模型进行上下文压缩 显示技术门槛较高 [7] 持久化系统构建 - 存储方式:Claude Code用CLAUDE.md文件 Cursor/Windsurf用规则文件 Letta/Mem0用嵌入式文档 Zep/Neo4J用知识图谱 [10] - 保存策略:Claude Code用户手动更新 Reflexion论文提出Agent轮次后反思生成 ChatGPT等产品实现自动记忆生成 [11][12] - 检索机制:小规模直接载入(如CLAUDE.md) 大规模需选择性检索(向量搜索/图检索) GPT-4o曾因检索错误注入非意图位置信息 [14][15] 隔离管理方案 - 上下文模式:用Pydantic模型替代臃肿消息列表 隔离高Token内容并按需获取 深度研究Agent将messages与sections分离 [18][20] - 多Agent架构:OpenAI Swarm库实现关注点分离 Anthropic研究显示隔离上下文多Agent性能比单Agent高90.2% 但Token消耗增15倍 [21] - 环境隔离:HuggingFace的CodeAgent在沙箱执行代码 隔离生成对象(如图片)但保留变量引用能力 [22] 行业实践经验 - 工具先行原则:建立Token追踪机制作为基础 Anthropic建议"像Agent一样思考"明确状态模式 [23] - 可并行化任务优先采用多Agent Anthropic案例显示子Agent无需严格协调时效率显著提升 [26] 发展趋势 - 上下文管理是AI Agent核心 需平衡性能(如GPT-4o 50%准确率) 成本(15倍Token消耗) 准确性(函数调用) [24] - LLM本质是无状态函数 最佳输出依赖最佳输入设计 清晰表达需求与语境构建决定响应质量 [25]
速递| 下一代十亿级AI创意藏于系统提示词,Superblocks完成A轮融资2300万美元
Z Potentials· 2025-06-08 11:04
企业级低代码开发平台Superblocks - Superblocks完成2300万美元A轮扩展融资 使A轮总融资额达到6000万美元 [1] - 公司主打产品vibe coding工具面向企业非开发人员 [1] - 已赢得Instacart和Paypaya Global等知名企业客户 [5] - 内部实践"吃自己的狗粮"策略 业务人员自主搭建智能代理处理CRM数据识别 支持指标跟踪等任务 [5] AI系统提示词的价值 - AI独角兽企业使用的系统提示词(5000-6000字)被视为提示工程"大师课" [1] - 系统提示词占核心技术的20% 剩余80%为"提示增强"基础设施 [2] - Superblocks公开分享19个来自Windsurf Manus Cursor等热门AI编程产品的系统提示词文件 [2] 系统提示词研究框架 - 包含三部分:角色提示(如Devin的提示赋予目标与个性) 上下文提示(设立防护机制) 工具使用(指导模型超越文本生成) [3][4] - 自然语言编写的系统提示词需极度特异 需像对待人类同事般精确 [3] - 不同工具侧重点各异:Loveable V0 Bolt专注快速迭代 Manus Devin等输出原始代码 [4] 商业机会洞察 - 研究系统提示词可发现价值十亿美元的创业点子 [1] - 通过处理安全性 访问Salesforce等企业数据源 赋能非程序员编写应用程序 [5] - CEO推文浏览量近200万 引发硅谷大咖广泛关注 [2]
5 万行代码 Vibe Coding 实践复盘:最佳实践、关键技术,Bitter Lesson
海外独角兽· 2025-06-05 19:00
Vibe Coding实践与验证 - Vibe Coding指完全依赖AI生成代码的编程方式 代表产品包括Windsurf Cursor Cline Devin等 [7] - 资深工程师通过3个月实践验证 完全依赖AI生成5万行代码 成功开发3个功能产品 包括增强型Cline Twitter订阅系统和浏览器自动化工具 [7][8] - 开发效率达到每天生成1万行代码 其中约5000行可直接采纳 远超人工编程速度 [9] - 开发成本控制在100-200美元/项目 耗时主要集中于假期和周末 [8] Coding Agent关键技术架构 - 核心三要素为模型(Model) 上下文(Context) 工具(Tools) 类比企业人力资源管理体系 [15] - 顶尖模型代表包括Cursor调教的Claude 3.7 Max和Gemini 2.5 Pro Max 在复杂任务中表现优异 [15][43] - 上下文管理系统需包含1000+行system prompt 动态用户输入及反馈闭环机制 [16] - 关键工具链包含代码语义搜索(codebase_search) MCP协议支持 浏览器自动化(browser use)等特色功能 [17][32] 语义搜索技术突破 - Cursor通过codebase_search实现工程级语义搜索 支持10万行以上代码库的精准定位 [18][26] - 技术实现包含AST语义分块 向量嵌入存储 余弦相似度搜索三阶段 类似百度搜索引擎架构 [29] - Cline因缺失语义搜索功能 处理1万行以上代码库时效率显著下降 需通过第三方方案补足 [31] MCP协议生态发展 - MCP(Model Context Protocol)实现工具链标准化 使同一工具可跨平台(Cline Cursor Copilot)通用 [33] - 协议优势包括开发流程简化(仅需修改JSON配置) 端到端SOP自动化 避免重复开发排队 [38] - 2025年5月技术格局:Cline对MCP支持最佳 Cursor次之 Copilot仍在追赶 但差距可能快速变化 [36] 主流Coding Agent产品对比 - Cursor当前领先 凭借Claude 3.7 Max模型和语义搜索能力 可驾驭10万行级工程 [43][44] - Cline优势在于开源可定制 对MCP支持最完善 但需补足语义搜索和上下文管理短板 [44][45] - GitHub Copilot在上下文管理和MCP支持方面暂处劣势 但微软生态整合能力可能带来变数 [46] Agent开发核心原则 - 实践验证"苦涩教训"(The Bitter Lesson):过度植入人类经验会限制AI潜力 应侧重搜索和学习元方法 [47][49] - 质量Agent案例显示 减少人为干预后测试覆盖率从70%提升至99% 证明通用方法的扩展性价值 [48] - 行业需建立能自主发现复杂性的系统 而非简单封装现有知识 [49]
“由 AI 生成的代码,从诞生那一刻起就是「遗留代码」!”
AI科技大本营· 2025-05-12 18:25
AI生成代码的特性分析 - AI生成的代码缺乏上下文记忆和维护连续性,一诞生就处于"他人旧作"的状态 [1] - AI生成的代码具有"无状态"特性,无法真正理解作者意图或拥有时间点记忆 [3] - 每次AI生成的代码都像是"由别人写的",跳过了"新代码"阶段直接进入"旧代码"模式 [5] 代码生命周期与维护行为 - 代码演进速度取决于编写时间远近和维护者是否为原作者 [1] - 人类维护者对不同时期代码的四种典型态度:近期自写代码最易改进,他人旧代码最不愿改动 [4] - 遗留代码的本质是支撑代码的"理论"随原作者离开而失传,仅保留低保真表达的代码和文档 [8] 行业解决方案与发展趋势 - 开发者尝试通过精心构造提示、设计上下文窗口和详细注释来弥补AI缺陷 [5] - Chain of Thought技术可能解决AI无状态问题,通过重新激活上下文理解代码 [10] - 未来代码可能更依赖模型推理和提示生成,而非长期维护的静态结构 [5] LLM时代的理论构建探讨 - LLM可能隐含某种尚未被理解的"程序理论",或能从代码中逐步构建理论 [12] - 技术债管理新思路:保存Prompt可帮助理解代码存在原因,优于人类记忆 [10] - 理论掌握权可能转移至写prompt的人而非写代码的人 [12] 行业观点与讨论 - 软件开发本质是开发者集体心智构建的"理论",代码只是其低保真表达 [8] - 人类开发者常通过"时代写法"解释代码,部分确实反映历史约束条件 [9] - 代码提示生成可能成为短期/中期的过渡桥梁,而非长期维护对象 [6]