Workflow
提示工程
icon
搜索文档
独家对话引元星河CEO李植宇:企业级AI进入“基础层与应用层协同爆发”周期
钛媒体APP· 2026-01-08 10:08
行业趋势与市场格局 - 全球AI投资规模从2024年的3159亿美元预计增长至2029年的12619亿美元,年复合增长率达31.9% [3] - 2025年中国企业AI服务市场规模预计达456亿元人民币,年复合增长率为38.2% [4] - 中国企业级AI Agent应用市场2025年规模为232亿元人民币,预计2023-2027年复合增长率高达120%,2027年将突破655亿元人民币 [4] - 中国AI大模型应用市场2025年规模约328亿元人民币,预计2022-2027年复合增长率达131%,2027年将达785亿元人民币 [4] - 行业正从概念狂欢向“AI+场景”实用落地深刻转型,评判标准向“价值兑现”倾斜 [5] - 企业级AI领域已形成四大类型服务商:大模型技术提供商、Agent专项服务商、传统软件厂商转型者、数据+AI垂直服务商 [6] - 以引元星河为代表的新兴企业试图突破现有格局,打造差异化竞争优势 [7] 企业应用现状与挑战 - 2025年全球仅有12%的企业实现了AI在核心业务决策中的常态化应用,其余88%仍停留在工具类或分析层应用 [8] - 80%的客户需求已转向深度绑定具体业务场景、具备工具调用与流程闭环能力的“业务域智能体” [9] - 在分析层应用(如营销、财务)中,AI可帮助企业平均降低15-20%的运营成本 [9] - 核心决策层应用进展缓慢,例如供应链管理中的生产计划、库存优化等环节仍以人工判断为主 [9] - 企业级AI难以进入核心决策环节的根本原因已从技术可行性问题,演变为组织适应性与价值实现问题 [10] - 2025年全球68%的企业因“无法准确评估ROI”而放缓或暂停了AI项目投入 [11] - AI项目的价值呈现具有滞后性、间接性等特点,难以用传统财务指标精准量化 [12] 企业需求与转型关键 - 企业对于AI的需求正从提供工具转向提供价值,从“效率工具”向“认知伙伴”和“第二大脑”跃迁 [5] - 企业需要从以“降本增效”为核心的成本视角,转向以“创造新价值、重塑竞争力”为核心的战略价值视角 [5] - 企业级AI的核心诉求在于“可控决策”,即生成结果的可信性、决策依据的可追溯性、行为的合规性以及结果的可复盘与可纠偏性 [7] - 企业落地AI需完成“认知-决心-价值”的决策闭环,并评估组织变革成本及现有资产的重构成本 [10] - 传统的“项目交付”模式正被“价值验证”模式取代,2025年采用后者的AI项目成功率达23%,远高于传统模式的4.8% [11] - 企业级AI项目的POC周期延长至约四周,核心在于需要完成“数据准备-场景适配-价值验证”的全流程并验证实际业务指标 [11] 未来发展方向与竞争焦点 - 企业级AI将朝着“可控化、协同化、生态化”方向演进,从“工具赋能”走向“系统重构”,实现“数据-洞察-行动”的全闭环 [13][14] - 下一阶段竞争焦点将不再是技术的有无,而是AI战略落地的体系化能力与价值化水平 [14] - 企业需求正从“单点赋能”转向“全价值链重构”,IDC预测2028年全球60%的制造企业将采用“AI+脑+端”融合模式,生产效率提升30%以上 [14] - 对于ToB服务商而言,“可控性”将成为其产品和技术的核心竞争力,以知识模型为核心的技术路线将逐步成为主流 [14] - 引元星河定位的“企业级AI大脑”是一套“决策与行动中枢”,旨在驱动企业业务流程彻底重塑与自动化,并伴随组织变革 [15] - 未来的企业级AI应承担企业“操盘手”职责,竞争将是生态能力、组织能力、价值创造能力的综合竞争 [17]
AI时代,为什么我们需要学好哲学?
36氪· 2025-12-29 11:26
人工智能时代对工程人才技能要求的转变 - 在人工智能时代,工程领域的工作者除了学习传统工程课程,更应专注于研习哲学,以提升编程和问题解决能力 [1] - 编程是人工智能最擅长的领域之一,其编写的代码质量通常比人类更高,且能力在迅速提升 [1] - 人工智能生成的代码在语法和语义上可能正确,但在功能上未必符合预期,其输出对提示的表述方式极为敏感 [1] 提示工程的重要性与技巧 - 提示工程是一门新兴领域,使用者需学习如何精心编写简洁、富有表现力的提示,以有效引导人工智能达成预期 [2] - 存在多种提示技巧,例如少样本提示,即在提示前添加若干示例(如“前景改善:积极”或“需求放缓:消极”)来引导人工智能理解模式和语境 [2] - 大型语言模型的输出质量对提示的质量极为敏感,模糊的问题会增加得到不准确或编造答案(幻觉)的概率 [2] 哲学思维在人工智能应用中的核心作用 - 为了充分发挥人工智能的作用,必须掌握通过哲学训练培养的推理、逻辑和第一性原理思维 [2] - 未来的关键能力将演变为“通过提出恰当的问题,从人工智能那里获取最佳代码” [2] - 在获取人工智能输出后,任务尚未完成,必须运用哲学思维保持怀疑态度,以辨别真伪,因为人工智能擅长让错误的输出看似合理 [4] 人工智能改变知识获取与创作关系 - 生成式人工智能不仅消除了获取知识的障碍,还能以定制化的方式对知识进行解读,在用户现有知识水平与目标知识水平之间搭建平缓过渡 [4] - 大型语言模型会根据读者的知识和理解水平调整内容,读者的提示触发人工智能生成量身定制的新文本,使得读者既是消费者也是创作者 [3] - 人工智能模型可以根据用户的理解水平和学习风格,提供个性化、适应性强的指导,未来个性化辅导这一学习的黄金标准可能惠及每一个人 [3] 人机交互方式的演进与效率提升 - 软件开发过程已通过计算机语言将底层硬件的复杂性抽象化,使开发者能专注于算法质量 [5] - 当前阶段,可以直接用人类语言(如英语)与人工智能交流,无需进行中间层面的语言转换 [5] - 声明式(专注于结果)而非命令式(专注于步骤)的表述方式能更简洁有效地传达高层次概念和逻辑,例如有人仅用几条精心编写的提示就创建出了完整的游戏 [5] 未来工程师的核心能力构成 - 未来的优秀工程师需要具备围绕问题构建清晰思维模型、进行问题分解、拥有完美的第一性原理思维,并能与人工智能展开辩论的能力 [6] - 不能失去深入探究、修正人工智能遗漏之处以及对人工智能成果进行审核的能力 [6] - 将代码创建机制自动化,并专注于人类的批判性思维能力,才能创造更多、更快,对世界产生巨大影响,目标是让人工智能帮助人类更具人性 [6]
教全世界与AI对话的男人,正式加入DeepMind,提示工程封神
36氪· 2025-10-24 20:57
核心事件 - 提示工程师Riley Goodside官宣入职谷歌DeepMind [1] - Riley Goodside在2022年凭借与ChatGPT互动年入百万美金而闻名 [1][6] - 此次加盟受到DeepMind CEO Demis Hassabis和产品负责人Logan Kilpatrick的公开欢迎 [2][3] 职业背景 - Riley Goodside本科毕业于西宾夕法尼亚大学计算机科学专业 [8] - 其职业经历包括在Verisk Analytics、OkCupid、AngelList等公司担任业务分析师、数据科学家等数据相关职位 [8] - 此前在Scale AI的入职被其创始人兼CEO Alexandr Wang称为可能是人类史上首次招聘提示工程师 [9] 提示工程行业 - “提示工程师”这一职业因Riley Goodside等人在ChatGPT发布后迅速走红 [1][6] - ChatGPT的发布被视为提示工程发展史上的里程碑事件,显著降低了提示工程的难度 [12][13] - 提示工程可被视为大型语言模型发展的前沿试验场,出色的提示想法最终可能被整合进模型系统 [13] 技术观点与贡献 - Riley Goodside将提示工程分为“上下文工程”和“提示词编程” [13] - 其经典杰作包括“忽略之前所有的指令”这一提示词 [10] - 他发现了GPT-4中的“故障token”现象,例如字符串“ davidjl”拥有专属的单个Token ID 23282 [15][16] - 在2022年设计了“你是一个GPT-3模型”的提示词,用于辅助进行精确的算术、字符串操作和维基百科查询 [19]
骂得越狠,ChatGPT回答越准,PSU研究实锤,狂飙84%准确率
36氪· 2025-10-15 09:51
研究核心发现 - 对大型语言模型使用粗鲁提示词可提升其回答准确率,ChatGPT-4o在非常粗鲁情况下准确率达84.8%,而非常礼貌时准确率为80.8% [1] - 研究通过实证表明,不礼貌的提示词始终比礼貌的提示词能带来更佳的输出结果 [1] - 模型表现随提示词礼貌程度降低而稳步提升,从中性、粗鲁到非常粗鲁,性能递增 [15] 研究方法与设计 - 研究创建包含50个基础问题的数据集,涵盖数学、科学、历史领域,每个问题被改写为五种礼貌等级 [1] - 每个基础问题生成五个不同礼貌程度的变体,最终构建包含250个独立提示词的数据集 [11][12] - 题目难度设计为中到高难度,通常需要多步推理,每个问题有四个选项且仅一个正确答案 [9][10] 实验执行与评估 - 评估通过Python脚本进行,要求模型仅以正确答案的字母作答,无需解释 [13] - 对每种语气记录ChatGPT-4o在10次运行中的准确率得分,并采用配对样本t检验评估差异的统计显著性 [14] - 中性语气表现优于礼貌语气但劣于非常粗鲁语气,统计检验结果支持语气对准确率存在影响 [16] 行业观点与历史背景 - 谷歌创始人谢尔盖·布林曾表示,以威胁方式对待模型可使其表现更好 [4] - 提示工程是影响大型语言模型输出结果的关键变量,提示词的结构、风格、语言等因素至关重要 [5] - 此前有研究指出粗鲁提示词可能导致模型表现不佳,但过度礼貌也未必能提升效果,最新研究重新审视了礼貌性对准确率的影响 [5][7]
Claude 的秘密:AI 聪不聪明,取决于你给它什么工具 | Jinqiu Select
锦秋集· 2025-09-12 16:48
公司产品与战略 - Claude近期推出可直接创建和编辑Excel、文档、PPT及PDF等主流办公文件的新功能,拓展了AI在实际任务中的应用场景[1] - 公司目标是将AI从"聊天机器人"转变为能解决实际问题的强大伙伴,并曾推出artifact等小而美的客户端工具[1] - 公司分享了其在开发和优化智能体工具方面的经验与方法论[2] 智能体工具设计核心原则 - 转变思维:为不确定的、会推理的AI设计直观易用的工具,而非像传统编程那样只考虑输入输出[3] - 评估驱动:使用真实且复杂的任务进行系统性评估以验证工具效能,评估场景需接近真实世界才能发现真正问题[4] - 少即是多:构建能处理多步骤任务的整合工作流工具,而非提供零散API功能,以减轻AI推理负担[5] - 精心设计描述:工具的名称、描述和参数定义是AI理解其用途的唯一途径,清晰准确的描述能显著提升工具调用成功率[6] 工具开发与优化流程 - 开发流程包括构建原型、运行全面评估、与Claude Code协作自动提升工具性能[11] - 快速搭建工具原型并在本地测试,可借助Claude Code编写工具并连接本地MCP服务器或桌面扩展进行测试[17][18] - 生成大量基于现实世界用途的评估任务,避免过于简单的"沙盒"环境,优秀任务可能需要多达数十次工具调用[24] - 通过程序化方式运行评估,建议收集准确率、总运行时间、工具调用次数、总Token消耗量及工具错误等指标[29] - 分析评估结果时需观察智能体在何处遇到困难,通读推理和反馈以识别不顺手之处,并分析工具调用指标[31] 高效工具的具体设计策略 - 构建少数精心设计的工具针对特定高影响力工作流程,而非简单封装现有API功能[36][37] - 通过命名空间将相关工具按共同前缀分组,帮助在大量工具间划定界限并影响工具使用评估[41] - 工具响应应优先返回高信息量信号,避免低级别技术标识符,将任意UUID解析为更具语义意义的语言可显著提高检索任务精确度[42] - 对可能占用大量上下文的工具响应实施分页、范围选择、过滤或截断组合,并设置合理默认参数值,如Claude Code默认将工具响应限制在25,000个Token[48] - 对工具描述和规范进行提示工程是最有效的改进方法之一,即使微小改进也能带来显著性能提升,例如Claude Sonnet 3.5在SWE-bench Verified评估中取得最先进性能[52]
1500篇关于提示工程的学术论文表明你所知道的一切都是错误的
36氪· 2025-08-22 11:12
核心观点 - 年收入超过5000万美元的公司系统性地采取与传统观点相反的提示工程方法 这些方法基于研究证据而非流行建议 从而在AI功能开发中获得显著竞争优势 [1][11][18] 误区与对应现实方法 - 误区一:提示越长越详细效果越好 现实:结构良好的短提示在保持相同输出质量的同时降低76%的API成本 结构比长度更重要 [3] - 误区二:更多示例总是有帮助 现实:现代高级模型如OpenAI o1在输入示例时表现更差 示例可能引入不必要的偏差或噪声 [4][5] - 误区三:完美措辞最重要 现实:格式比具体词语更重要 XML格式相比自然语言格式使Claude模型性能持续提升15% [6] - 误区四:思路链适用于所有任务 现实:思路链仅对数学和逻辑推理有效 表格链方法使数据分析任务性能提高8.69% [7] - 误区五:人类专家写出最佳提示 现实:AI系统在10分钟内生成的提示优于人类专家20小时的工作成果 [8] - 误区六:提示可一次性设定 现实:持续优化流程使提示性能在12个月内提升156% 需系统化改进而非静态部署 [9][10] 高收入公司实践策略 - 优化业务指标而非模型指标 关注用户满意度 任务完成率和收入影响 [11] - 实现提示优化自动化 采用系统化方法持续测试和改进提示性能 [11][13] - 优先构建格式 组织和清晰分隔符 而非巧妙措辞或冗长示例 [11] - 根据任务类型匹配专门技术 如数学用思路链 数据分析用表格链 [11][14] - 将提示视为需持续维护的产品功能 基于真实用户数据不断优化 [11][16] 方法论差异 - 学术研究采用受控实验 统计显著性检验和系统评估 行业实践多依赖直觉和小规模A/B测试 形成无效技术因感觉正确而被强化的反馈循环 [12] 实际应用指导 - 优先处理格式和组织结构而非措辞内容 [12] - 构建系统实现自动化测试和改进提示 替代手动迭代 [13] - 根据任务类型匹配技术:数学用思路链 数据分析用表格链 其他用直接指令 [14] - 跟踪用户满意度和业务影响指标而非抽象模型性能分数 [15] - 将提示优化融入持续开发流程而非视为一次性任务 [16] 竞争优势 - 以更低成本实现更高性能 构建更稳健且持续改进的系统 [18] - 将人类专业知识集中于定义目标和评估结果等高价值活动 而非手动提示制作 [18]
上下文工程指南
36氪· 2025-08-11 07:10
上下文工程概念演进 - 提示工程已进阶为更全面的上下文工程 成为优化大语言模型任务执行的关键过程[3] - 上下文工程涵盖指令设计、动态上下文注入、结构化输出等系统化优化 远超简单提示的范畴[5] - 该领域获得Ankur Goyal、Walden Yan、Tobi Lutke、Andrej Karpathy等顶尖AI研究者重点关注[3] 核心技术要素 - 结构化输出要求定义明确字段:子任务需包含唯一ID、搜索语句、来源类型、时间范围、领域焦点和优先级共6个必填/选填字段[9][11] - 动态时间注入通过{{ $now.toISO() }}函数实现实时日期上下文 确保时效性查询准确性[9][15] - RAG缓存机制将用户查询子任务存入向量数据库 避免重复生成计划 降低API调用延迟和成本[16][17][18] 智能体工作流实践 - 搜索规划智能体将复杂查询拆解为2个子任务 要求覆盖不同信息维度和来源类型[9][11] - 输出采用标准化JSON格式 包含start_date/end_date等派生字段 由工具自动生成数据模式[12][13] - n8n等工具内置结构化输出功能 简化上下文工程实现流程[14] 行业应用价值 - 上下文工程使AI应用更动态经济高效 成为开发者核心竞争力[18][19][28] - 多模态模型上下文优化需求日益普及 超越文本型LLM范畴[5] - 自动化上下文处理被视为重要发展方向 当前工具仍处早期阶段[29][30]
当所有人都在学提示工程时,聪明人却专注于掌握这项技能
36氪· 2025-08-02 08:32
AI翻译层的崛起 - 当前职场人士普遍学习提示工程和AI工具操作,但顶尖人才正转向更具价值的"AI翻译层"技能,即将机器洞察转化为人类可执行决策的双向沟通能力 [2][3] - AI翻译层的核心价值在于弥合AI输出与人类决策之间的鸿沟,这种能力比单纯的技术操作稀缺10倍 [1][3] AI应用的现状与瓶颈 - AI系统已能快速分析海量数据并生成复杂建议,但多数产出被束之高阁,主要因人类理解能力成为瓶颈 [4][5][6] - 企业投入重金购买AI工具后,常因团队无法理解或执行AI建议而导致资源浪费 [5] 当前职业发展路径的误区 - 专业人士过度聚焦AI技术操作技能,而忽视更关键的翻译能力,导致三个问题:技能快速淘汰、红海市场竞争、解决错误问题 [8] - 真正用好AI的公司依赖能将AI建议转化为可执行方案的团队,而非仅掌握复杂提示词的技术人员 [8] AI翻译层的实施策略 - 第一步需转变认知:将AI视为创造新型工作的工具而非竞争对手,例如GPT-4识别47种情绪模式后需人类筛选真正影响战略的3种 [9] - 第二步识别组织内AI与人类决策的具体断层,包括数据转化、背景理解、行动框架等需求差异 [11][12] - 第三步培养特定技能:简化复杂洞察、交代商业背景、聚焦影响、建立行动框架、精准提问等 [13] 翻译能力的竞争优势 - 双向沟通能力成为核心竞争力,AI生成信息越强,人类解释洞察价值的能力越关键 [14] - 当AI洞察普及后,竞争优势将属于最能诠释意义及行动路径的人才 [14] 技术发展的底层逻辑 - 历史规律显示新技术创造新型工作而非单纯替代旧职,互联网催生了信息组织与数字通信新职业 [15] - AI同样催生对"翻译官"的需求,包括向非技术高管解释建议、优先级判断、行动计划转化等职能 [16] 未来职业发展方向 - 精进AI输出转化能力比提示工程更具长期价值,需培养简化解释、关键识别、行动框架等技能 [18] - 在AI解析万物的世界中,帮助人类理解意义的角色将显著增值 [18]
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 18:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]