Workflow
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心·2025-06-16 12:04

大型语言模型提示工程研究 核心观点 - 研究首次构建量化Prompt搜索空间复杂度的理论框架 将提示工程从经验性"炼丹"转向科学化 [5][7] - Prompt在CoT推理中扮演"信息选择器"角色 通过精确提取隐藏状态关键信息引导模型推理路径 [7][12][14] - 最优提示设计可使LLM推理性能提升超50% 显著优于无监督CoT和次优监督CoT [29][36] 理论框架突破 - 提出Prompt空间与答案空间的双层搜索模型 Prompt空间决定信息提取策略 答案空间执行具体推理步骤 [20][22] - 定义Prompt空间复杂度公式 取决于隐藏状态总信息量n与单步提取信息量s的比值 [14][17] - 最优提示需满足三要素:明确每步输出内容 聚焦核心s比特信息 编码任务算法蓝图 [28] 实验验证 - 在Modular Arithmetic等任务中 S-CoT准确率达100% 较无CoT提升78个百分点 [27] - 监督CoT在Parity Check任务中准确率98.6% 较次优监督高19.7个百分点 [30] - ToT/GoT等变体仅优化答案空间导航 无法突破底层Prompt模板的性能上限 [32][33] 技术机制解析 - CoT通过文本生成实现递归计算 将高维隐藏状态离散化为可解释中间步骤 [9][15] - Transformer原生架构计算深度有限 无法直接处理复杂多步推理任务 [10] - 错误提示会导致模型提取冗余信息 如S-CoT-SUB准确率骤降至26% [10][29] 行业应用启示 - 研究为AutoPrompt等自动化方法提供理论基准 需同步优化Prompt与答案空间 [4][22] - 证实人类监督在提示设计中的不可替代性 最优模板需结合领域知识 [23][36] - 通用提示如"think step by step"存在性能天花板 需定制化设计 [36]