Workflow
提示词工程
icon
搜索文档
一篇论文,读懂上下文工程的前世今生
36氪· 2025-11-07 15:11
上下文工程的定义与本质 - 上下文工程被定义为设计和优化上下文的收集、管理、使用,以提升机器理解和任务表现的努力 [4] - 其本质是通过建立更丰富有效的上下文,弥合人类高熵表达与机器低熵理解之间的认知鸿沟,达成系统性的熵减过程 [3] - 该学科并非全新概念,在AI技术出现前已发展超过20年,目前处于上下文工程2.0时代 [5] 上下文工程的发展阶段 - **1.0时代 (1990年代-2020年)**:核心是翻译,通过图形界面和编程语言将人类自然语言意图工程化为机器可理解的交互流程 [7] - **2.0时代 (2020年至今)**:随着GPT-3发布,用户可直接用自然语言对话,但熵减需求转移至用户身上,催生了提示词工程 [11][13] - 2.0时代典型系统包括ChatGPT、LangChain、AutoGPT,核心机制为提示工程、RAG、CoT、记忆代理,上下文容忍度和类人程度相对更高 [12] AI与人沟通的理解差距根源 - AI感官残缺,仅能获得用户明确输入,无法像人类一样接收文字外的大量环境信息 [14] - AI理解能力有限,难以处理和整合复杂逻辑及图像中的关系信息 [14] - AI存在记忆缺失,Transformer架构有长上下文性能瓶颈,缺乏长期记忆系统,难以捕捉长距离依赖关系 [14] - AI注意力涣散,面对海量信息时存在“上下文选择困难”,不知该关注何处 [14][15] 上下文工程的核心构件 - **构件一:上下文收集与记忆系统**:通过多模态融合和分布式收集修复感官残缺,通过分层内存架构解决记忆缺失 [16][18][21] - **构件二:上下文管理**:通过上下文抽象实现“自我烘焙”,将高熵上下文预处理为AI能理解的低熵结构,方法包括自然语言摘要、模式化提取、在线蒸馏 [23][24] - **构件三:上下文使用**:构建高效上下文选择机制,通过理解逻辑依赖、平衡新近度与频率、主动需求推断来解决注意力涣散问题 [25][26] 上下文工程的未来演进 - **3.0时代**:机器智能达到人类水平,能处理情绪等复杂上下文,主动理解场景并与人类协作,但长期记忆问题仍未完全解决 [30] - **4.0时代**:机器智能达到“超人智能”,人机交流的熵被彻底消除,上下文工程本身将消失或融入核心架构 [30][31] - 当前的技术如工具使用能力正从外挂演变为标准协议并融入模型核心,遵循脚手架最终融入基础架构的普遍技术发展模式 [32][33][34]
企业培训| 未可知 x 国家电网: 生成式AI与具身智能新趋势
生成式AI技术趋势 - 生成式AI与传统决策式AI存在本质区别,前者专注于创造新内容,后者侧重于做出最优决策[4] - 全球AI市场规模持续扩张,其中生成式AI占比不断提升,正成为产业革新和经济增长的新引擎[4] 生成式AI在电力行业的应用 - 国家电网的“光明大模型”项目荣获2025世界人工智能大会最高奖项,成为能源领域唯一入选“SAIL之星”的项目[6] - 营业厅AI服务机器人能主动引导客户、识别情绪,无人机通过AI识别实现智能巡检,轨道机器人自动采集设备数据[6] - 提示词工程可显著提升与AI的沟通效率,在电力行业复杂技术场景中应侧重使用推理型提示词让AI自主思考解决方案[8] 具身智能发展前景 - 具身智能机器人采用“大脑”和“小脑”模块分工协作,大脑负责感知理解与决策行为,小脑专精于运动控制与协调[9] - 具身智能在电力巡检、设备维护等高风险作业中能够有效保障人员安全,提升作业精度[9] - 从文娱商演到安防巡检,从物流分拣到工业智造,具身智能展示了在电力场景的多样化应用可能[9] 研究院服务能力 - 未可知人工智能研究院专注于AI培训、AI战略转型咨询、机器人技术方案落地以及生成式AI搜索排名优化等核心业务[10] - 研究院致力于为电力等传统行业提供完整的智能化解决方案,助力龙头企业实现智能化升级[10]
谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性
AI前线· 2025-10-29 08:44
谷歌推出LLM-Evalkit工具 - 谷歌推出开源框架LLM-Evalkit,旨在通过Vertex AI SDK使大语言模型的提示词工程变得有序且可衡量,以统一的数据驱动工作流替代分散文档和基于猜测的迭代方式[2] - 该工具将实验、提示词保存和结果评估整合到一个连贯环境中,支持创建、测试、版本控制和并排比较提示词,帮助团队通过共享记录清晰跟踪提示词性能改进,摆脱对模糊记忆或电子表格的依赖[2] - 工具核心理念是停止猜测并进行精准衡量,用户可定义具体任务、构建代表性数据集,并利用客观指标评估输出,使改进可量化,将直觉判断转变为有据可依的实证分析[2] 工具集成与设计理念 - LLM-Evalkit与现有谷歌云工作流无缝集成,基于Vertex AI SDK构建并与谷歌专业评估工具紧密相连,在实验与性能跟踪间建立结构化反馈循环,使团队能便捷运行测试、精确比较输出并为所有提示词迭代维护统一真实数据源[3] - 框架设计体现包容性理念,提供无代码界面以降低操作门槛,使开发人员、数据科学家、产品经理和用户体验作家等广泛专业人士都能轻松使用,促进技术与非技术团队成员间的快速迭代和紧密协作,将提示词设计变为跨学科工作[3] 市场反响与获取方式 - 项目开发者Michael Santoro在LinkedIn上宣布了这一开源框架,旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程[4][5] - 该领域从业者对此表示广泛关注,有用户评论指出其解决了缺乏集中化系统跟踪提示词的问题,尤其是在模型不断升级时更为突出[6] - LLM-Evalkit已在GitHub上作为开源项目发布,与Vertex AI深度集成,谷歌云控制台提供详细教程,新用户可利用谷歌提供的300美元试用积分进行探索[6]
“直播教父”的新“赌注”:等我看不懂年轻人,我就退出
虎嗅APP· 2025-10-25 00:02
公司核心业务与战略 - 公司名称为四十三集团 专注于提示词工程领域 业务不涉及算法和模型本身 [14][15] - 公司业务围绕提示词展开四个引擎 包括自研孵化、培训、咨询和投资 [19] - 自研孵化引擎像APP梦工厂 有好的创意就配团队快速上线验证 每月约发布一款产品 如山顶传记、Beatix和Zenya [19][37] - 培训引擎负责培训提示词工程师人才 认为未来该岗位需求将达5000万人 远超算法工程师的100万需求 [19][21][36] - 咨询引擎为企业提供提示词相关服务 [19][38] - 投资引擎通过小基金孵化年轻人 明确永不对赌和回购 [19][37] - 公司目前有100多人 但理想项目团队为5到7人 不设OKR或KPI 靠内在动力驱动 [42][64][70] 行业观点与市场定位 - 人工智能生产力来自双引擎 算法代表模型内核 提示词表现出的生产力可能比算法更大 [15] - 提示词工程是被低估的洼地 行业过度关注算法 提示词工程师如同使用武器的战士 [21] - 提示词工程可拆解为系统提示词、上下文工程、RAG、工作流和用户提示词等 有机协作可让模型在特定场景聪明10% [21] - AI原生被定义为没有AI就无法存在的新物种 而非简单的技术叠加 [28] - 未来AI原生组织可能更加松散 不完全是公司制形式 [8][64] 产品与技术应用 - 核心产品"山顶传记"通过与用户对话 让模型自主追问和整理 最终输出传记长文 上线两周日活翻倍 [21][22] - 山顶传记产品背后集成70多套提示词和100多个工作流 通过复杂网状结构拼接调用 [21][41] - 产品目标是通过提示词赋予模型人设和共情能力 如35岁女性传记作家的完整背景故事 提升对话质量 [40] - 早期产品Opencord.ai用户可指令AI Agents自行组成团队 完成从选材到上传汇报的全流程 [17] - 在音乐模型领域 通过将需求映射到类似音乐元素并解构 提示词能显著提升生成内容的质量和意境 [35] 创业历程与经验 - 创始人刘岩经历多次科技变革创业 包括中国第一家宽带公司、视频网站六间房和虚拟偶像开发 [9] - 六间房在2008年金融危机中转型直播 设计用户打赏50%分主播和引入家族体系 最终扭亏为盈并在2015年与宋城演艺合并 [24] - 虚拟偶像项目AND II安菟投入1亿人民币研发 但因政策风向变化和受众断层无疾而终 [24] - 创始人认为每次当赛道稳定就会转向下一个 并非因为贪心 而是能看到下一个赛道的可能性 [13][25] - 早期风险投资经历帮助建立对宏观趋势的判断 并参与设计VIE架构促成首批中国互联网公司赴美上市 [26][48]
“直播教父”的新“赌注”:等我看不懂年轻人,我就退出
虎嗅· 2025-10-24 12:01
公司核心业务与战略 - 公司名称为四十三集团,专注于提示词业务,不设“科技”后缀或“.ai”尾巴 [11] - 公司业务基于“人工智能双引擎”理念,即算法和提示词,并认为提示词带来的生产力可能比算法更大 [11] - 公司通过四个引擎开展业务:自研孵化、培训提示词工程师、企业咨询和小规模投资,投资明确永不对赌、永不回购 [13][29][30] - 公司孵化产品速度较快,例如每月发布一款应用,代表性产品包括“山顶传记”、记录食品卡路里的应用以及音乐领域的Beatix和Zenya [29] - 公司不计划进行融资,认为应用层业务不需要大量资金,一个5到7人的团队即可运作顺畅 [36] 产品与技术细节 - 核心产品“山顶传记”通过与用户对话,由模型自主追问、录音并整理,最终输出完整的传记长文 [15][31] - 该产品上线两周后日活翻倍,背后已集成70多套提示词和100多个工作流,通过复杂网状结构拼接调用 [15][35] - 产品未来升级方向包括为AI赋予具体人设背景以增强共情能力,以及提升生成内容的文学性 [34] - 提示词工程可拆解为系统提示词、上下文工程、RAG、工作流和用户提示词等部分,其有机协作可使模型在特定场景中“聪明10%” [14] - 公司认为提示词工程的难点在于用户需求表达门槛高、不同模型价值表达方式不同、测试调优复杂以及需要深入理解垂直行业经验 [14] 行业观点与市场判断 - 提示词工程被视为“一片被低估的洼地”,行业当前过于关注算法 [14] - 预测未来市场对算法工程师的需求为100万人,而对提示词工程师的需求可能达到5000万人,提示词工程师的比例将决定一家公司是否属于人工智能时代 [14] - AI原生被定义为“没有AI就无法存在”的新物种,其不同于简单的技术叠加,而是由AI直接提供结果 [21] - 认为中国创业环境对于“一人公司”不友好,流量机制不平权,大公司掌握流量,这反创业 [59] - AI时代的原生组织形式可能更加松散,不完全基于股权或期权,但目前公司每个项目仍维持5到7人的团队规模 [2][57][58] 创业者背景与经历 - 公司召集人刘岩是中国最早从事风险投资和推动VIE架构接轨国际资本市场的人士之一,曾促成亚信、新浪等中国第一批互联网公司赴美上市 [2][19][42] - 其创业经历包括1998年创立中国第一家宽带公司(长城宽带前身)、2006年创立视频网站六间房并最早实现盈利,以及早期开发虚拟偶像 [2][16][17] - 在六间房创业期间,公司首创“专辑”功能但导致行业带宽成本飙升,2008年金融危机时资金链断裂被迫大幅裁员,后转型直播并设计出用户打赏五五分成和“家族”体系,最终扭亏为盈并于2015年与宋城演艺合并 [17][48][50] - 曾投入1亿人民币研发虚拟偶像组合“AND II安菟”,项目曾夺冠但后因政策风向变化和受众断层而无疾而终 [17] - 近期与音乐人包小柏合作,尝试用AI进行“数字复生”或“社交复活”,旨在还原已故亲人的思维模式和人设 [2][15][42][55]
浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
中国经营报· 2025-09-21 22:52
文章核心观点 - 当前大语言模型存在“幻觉”输出问题,其根源在于训练数据质量低下,高质量数据集是AI可信发展的基石 [1][2] - AI发展正从以模型为中心转向以数据为中心,两种范式相互补充,高质量数据对模型训练、推理和验证有关键作用 [2][3] - 提示词工程是提升AI模型效能的关键,能显著提高专业领域应用效率,并生成新的高质量交互数据反哺模型迭代 [4] - 政策层面强调以应用为导向加强高质量数据集建设,产业数智化需以实体经济需求为牵引实现高质量发展 [5] 大语言模型的数据挑战 - 大语言模型训练数据多源自互联网,质量参差不齐,生成内容依赖“概率性匹配”而非“事实性判断”,导致“幻觉现象” [2] - 研究显示,当训练数据集中仅含0.01%的虚假文本时,模型输出的有害内容会增加11.2% [2] - 高质量数据供给不足,尤其是专业领域数据的缺失,是导致模型产生“幻觉”的核心痛点 [2] 高质量数据集的分类与作用 - 高质量数据集分为通识数据集、行业通识数据集和行业专识数据集,是支撑通用大模型和行业模型落地应用的基础 [2] - 行业通识数据集包含需要专业背景理解的行业通用知识,如医疗健康领域的个人属性、健康状况、医疗应用等数据 [3] - 行业专识数据集包含需要较深专业背景理解的特定业务场景专业知识,如医疗病理数据需临床专家标注以确保准确 [3] 提示词工程的价值 - 提示词工程核心是通过精准设计提示语引导大语言模型生成有用内容,优秀工程师需具备专业知识、行业洞察和创意设计能力 [4] - 在工业、医疗、法律等领域,专业提示词工程师能让AI模型效率提升30%以上,例如通过设计精准提示提高医疗AI辅助诊断准确率 [4] - 提示词工程是人与AI的协同对话,此过程产生的新高质量交互数据可反哺数据集迭代,形成“数据→提示词→新数据→更优模型”的闭环 [4] 政策与产业发展方向 - 政策要求以应用为导向持续加强人工智能高质量数据集建设,支持数据标注、数据合成等技术,培育数据处理和服务产业 [5] - 产业数智化需推动以实体经济需求为牵引的高质量发展,加快形成与新质生产力相适应的数智化生产关系 [5]
政务培训| 未可知 x 浙江省科协: 省科协系统信息员和新媒体工作人员培训圆满结束
公司活动与培训 - 未可知人工智能研究院高级授课专家吴小楠受邀为浙江省科协系统培训班开展专题培训 主题为《DeepSeek提示词技巧与新闻宣传写作》 [1] - 培训覆盖全省120余名科协系统宣传骨干 内容聚焦AI辅助写作核心方法论 包括提示词工程优化 科学叙事逻辑重构和多场景宣传文案生成三大模块 [1] - 现场学员通过实时操作掌握精准控制AI输出风格和快速生成适配内容的实操技能 培训基于DeepSeek等智能工具提升新闻稿件传播效能 [1] 公司定位与业务 - 未可知人工智能研究院聚焦AI前沿趋势 商业落地与人才发展 致力于成为AI时代的认知基础设施 [2] - 公司开发DeepSeek职场应用 AI战略工坊等系列课程 将提示词工程 智能体应用和AI知识库部署等前沿技术转化为落地培训方案 [5] - 未来公司计划结合垂直行业应用 推动AI技术在各行各业的生根发芽 [5] 合作伙伴与资源 - 公司合作伙伴包括中国建设银行 深圳职业技术大学 杭州联合银行等机构 [6] - 其他合作资源涉及博物馆 RSM会计师事务所 山东广电传媒集团和山东广播电视台等 [7][8]
GPT-5差评启示录:用户与AI交互方式还停留在上一个时代
36氪· 2025-08-21 16:49
产品发布与市场反馈 - GPT-5于8月8日正式发布,定位为具有博士水平智能的AI产品,但发布后口碑不佳并引发大量用户退订诉求[1][7] - 官方在发布前下架旧模型,但因使用体验问题被迫紧急恢复旧版模型访问权限[1] - 尽管技术测试和跑分显示其优势明显,但用户实际体验中存在严重问题[1] 技术能力与性能表现 - 在数学、真实世界编码、多模态理解和健康领域表现突出,被评测人员称为"理科生"[4][5] - 处理大型代码库重构、复杂Bug修复及从零构建完整应用的能力显著提升,相当于全栈工程师水平[13][14] - Tau-Bench测试(零售场景)分数从73.9%提升至78.2%,体现性能优化[23] - 逻辑推理、常识理解和创造力较旧版本增强,但存在智能不稳定性,简单任务可能出错[5][15] 核心功能演进 - 智能体任务性能:从问答式交互升级为可自主规划步骤、选择工具并持续完成复杂任务的项目管理模式[10][12] - 可引导性:对指令细微差别高度敏感,支持精确控制行为、语气和输出风格[17][18][19] - Responses API新增支持远程连接MCP服务器和图像生成,通过"previous_response_id"实现上下文记忆,降低token消耗成本[20][21][22] 用户交互模式变革 - 需从传统搜索引擎式交互转变为与"数字心智"协作,旧沟通方式导致使用效率低下[8][9] - 新增推理强度(reasoning_effort)和详细度(verbosity)双参数控制系统,分别控制思考深度和回答长度[29][53] - 指令冲突问题显著:严格遵循所有指令的特性导致矛盾指令会引发资源消耗和逻辑混乱[54][56][61] 优化策略与应用场景 - 效率优先场景:通过降低推理强度、设置工具调用预算及提前停止标准来简化输出[29] - 复杂探索场景:提高推理强度并明确困难处理机制,鼓励自主决策[32][33][35] - 代码开发场景:采用"自我反思提示法"先进行需求架构设计再生成代码,提升输出质量[39][42][43] - 风格一致性控制:通过提供详细规则手册确保AI输出与现有项目风格匹配[46] 高阶功能与工具 - 极速模式:在低延迟场景下最小化推理能力以提升速度,但需配合高质量提示词和持久性提醒[69][70][72] - 元提示(Metaprompting):通过AI自我优化提示词设计,降低用户修改负担[73][74] - Prompt optimizer tool官方工具可自动识别指令逻辑冲突问题[65]
阿里图像生成模型登顶 HuggingFace,一句话把马斯克“变老”
36氪· 2025-08-20 16:34
模型技术特点 - 通过系统性的数据工程、渐进式学习策略、改进的多任务训练范式和可扩展架构优化,解决复杂文本渲染和精准图像编辑的核心难题 [1] - 构建包含数十亿级别图文数据的大规模数据处理体系,采用七阶段精细化过滤管道提升数据质量与图文对齐度 [5] - 通过"纯粹渲染"、"组合渲染"和"复杂渲染"三种策略合成高质量文本图像数据,弥补自然数据不足 [5] - 采用由简到繁的"课程学习"策略训练,显著增强复杂中英文文本渲染能力 [5] - 提出增强的多任务学习框架,将输入图像编码为高层语义特征和低层重建特征两种互补特征 [5] - 采用多模态扩散Transformer(MMDiT)作为模型骨干,配合"双重编码"设计平衡语义连贯性与视觉保真度 [6] - 模型架构由Qwen2.5-VL条件编码器、VAE图像压缩与解码器和MMDiT核心生成网络三部分组成 [6] - VAE采用"单编码器、双解码器"独特架构,在保证高质量图像重建的同时为视频生成任务扩展奠定基础 [6] - MMDiT内部引入MSROPE新型位置编码方法,通过将文本信息置于图像网格对角线改善文本与图像特征对齐 [6] - 训练过程采用从低分辨率到高分辨率、从无文本图像到有文本图像的渐进式策略,结合监督微调和直接偏好优化等强化学习方法 [6] 性能表现 - 在通用的图像生成、复杂文本渲染及指令式图像编辑任务上达到业界领先水平 [6] - 在自然界不存在物体的生成任务中,冰山渲染效果优于GPT-5,但火焰与冰山的融合表现存在改进空间 [7] - 在图像重构任务中,能准确理解"漂浮空中"指令并保持背景一致性,而GPT-5则过度解读导致背景完全改变 [12] - 在处理包含特定元素(如星条旗)的图像编辑任务时展现出色能力,成功完成GPT-5和Gemini无法实现的修改指令 [20] - 能保持人物姿态和尺寸不变的情况下,将对象置于火星沙尘暴环境并添加未来主义太空车背景元素 [20] 应用场景比较 - 展现与Photoshop相似的核心编辑能力,但通过自然语言指令而非直接操作工具实现功能 [25] - 通过文本指令实现对象增删操作,并能理解风格要求自动匹配背景,对标Photoshop的内容识别填充功能 [25] - 具备材质与风格转换能力,可通过指令完成如"珐琅彩玻璃艺术"风格的渲染,直接对标Photoshop滤镜库和纹理叠加功能 [26] - 在图像结构性变化处理上超越传统工具,能理解复杂姿态调整指令并保持人物身份、服装细节和背景一致性 [26] - 提供语义级、概率性控制而非像素级精确控制,用户通过描述"什么"而非"如何做"来实现编辑效果 [27] - 采用"一次性"再生成工作流而非基于图层的非破坏性工作流,与Photoshop的图层堆栈逻辑存在根本差异 [28] - 大幅降低图像编辑技术门槛,但需要掌握提示词工程这一新技能来准确描述视觉意图 [28] - 代表全新的图像内容创作与编辑范式,更侧重于创意构想快速实现和语义层面内容调整 [28] - 与传统编辑软件形成互补关系,专业设计场景仍需Photoshop的精确控制,而创意概念图和营销素材场景则更具效率优势 [29] - 标志着专业软件与语义生成引擎深度融合的发展趋势,为未来AI赋能专业工具提供技术基础 [29]
“现在读AI博士已经太晚了”
量子位· 2025-08-19 13:25
行业观点 - 谷歌生成式AI团队创始成员Jad Tarifi认为,当前AI领域发展过快,不建议为追赶热潮而攻读AI博士学位,因为AI技术可能在博士毕业前就被解决[1][5][8] - Tarifi建议要么选择AI生物学等早期细分领域,要么完全避开AI领域,并强调博士学位需要牺牲大量时间和承受痛苦,仅适合对该领域极度痴迷的人[8][9][10] - Tarifi认为传统需要长时间完成的学位(如法律和医学)也面临挑战,因为所学内容可能过时且基于死记硬背[12][13] 就业市场影响 - 生成式AI已成为裁员主要推手之一,2025年前七个月美国因AI裁员超过1万人,AI被列为劳动力减少的五大原因之一[14] - 2025年美国公司已宣布裁员80.6万人,为2020年以来同期最高,科技行业裁员8.9万人,其中2.7万个岗位直接归因于AI驱动的冗余[15][16] - 应届毕业生就业市场收紧,计算机科学专业毕业生需投递2500份简历才能获得10次面试机会,应届生失业率攀升至6%,高于全美平均水平4%[19][20][22] 人才需求变化 - Tarifi建议发展社交技能和同理心,认为AI专业知识涉及"情感谐调"和"良好品味",而非掌握所有技术细节[23][24][25] - Y Combinator创始人Paul Graham指出低级别编程工作正在消失,建议深耕某一领域至远超AI杂活水平以抵御冲击[27][28] - 近50%美国Z世代求职者认为AI已使其学位贬值,企业如多邻国以"AI使用流畅度"作为招聘晋升标准[18][21]