Workflow
工具调用
icon
搜索文档
从 Prompt 到 Agent:AI 思维跃迁的核心逻辑
36氪· 2026-01-19 10:30
核心观点 - 在AI训练领域,Prompt思维与Agent思维存在本质差异,前者类似“文学创作”,后者类似“工程管理”,从前者向后者的转型是提升AI应用效能的关键[1] - 构建“数字员工集群”的Agent架构,通过结构化设计、逻辑规划、长期记忆和工具调用,能够将复杂任务拆解为可执行的微小步骤,实现业务闭环,其产出比依赖长提示词(Prompt)更可靠[1][3][8] 思维模式差异 - Prompt思维如同“面试官”,向模型提出一堆要求后等待完美答案,若结果不佳则倾向于增加更多限定词和语气词,易陷入“低水平勤奋”陷阱[2] - Agent思维要求成为“SOP(标准作业程序)的制定者”或“工程管理者”,核心是设计工作流而不仅是单点指令[2][3] - 示例:撰写行业分析报告时,Prompt思维是下达一个笼统的“写一篇5000字深度报告”指令,而Agent思维会将其拆解为搜索新闻、筛选素材、列大纲、撰写校对等具体步骤[6] Agent架构的核心要素 - **逻辑规划 (Planning)**: Agent接收到指令后,第一步是“思考”而非直接执行,会生成一个多步推理的任务清单,本质是进行“压力分担”[4][5] - 采用ReAct(Reasoning and Acting)框架,通过“思考-行动”循环,将上一步输出作为下一步输入,从而将每个环节的误差控制在最小范围[5][8] - **长期记忆 (Memory)**: 解决AI“鱼的记忆”问题,通过RAG(检索增强生成)技术引入向量数据库,使Agent能记住历史交互细节,如老板对周报用词的偏好[9][10] - 长期记忆存储公司模板、绩效目标等,短期记忆记录本周关键发言和需求变动[19] - **工具调用 (Tool Use)**: 这是Agent与聊天机器人的关键分水岭,赋予AI“管理员权限”执行外部操作,例如通过API抓取数据、调用绘图工具等[11][21] - 工具调用流程示例:数据接入→智能意图识别→绘图工具调用→报告合成输出,最终生成图文并茂的自动化周报[11][12][13][14][15][16][17][18][20][21] 实战应用与效果 - 以“全自动写周报”为例,Agent会先规划步骤:提取业绩关键数据、分析延期风险、匹配下周规划[7] - 在数据获取上,Agent通过飞书API直接抓取表格中的行列信息(如项目名、进度百分比),并将其转化为结构化数据(JSON格式)[11][12][13] - 在数据分析与呈现上,大模型(LLM)会判断数据价值并生成图表指令,Agent随后调用可视化工具库(如Matplotlib)生成高清图表[14][15][16][17] - 效果对比:Agent能基于记忆(如老板不喜欢“基本完成”而要求具体百分比)产出更符合职场要求的周报,具备“懂规矩”的核心竞争力[10] 实施避坑指南 - 警惕“过度工程化”:并非所有场景都适合Agent,简单的翻译任务若设计复杂步骤会导致速度慢且Token成本翻十倍,能用一条Prompt解决就不必用Agent[23] - 注意幻觉的递归风险:Agent步骤越多,误差累积风险越大,第一步规划错误会导致后续步步皆错,必须在关键节点设置“人工确认点”或“逻辑门控”[23] - 不要迷信模型的“自我评价”:让模型检查自身错误往往无效,有效的自省需要配合外部工具(如Linter、代码解释器)进行客观验证[23] 行业影响与趋势 - AI能力的提升正导致职场分化:一部分人仍在苦练“咒语”般的Prompt,其天花板受限于模型原生能力;另一部分人则开始搭建自己的“数字员工集群”,转型为“AI架构师”[22] - 未来的高阶玩家关注点在于“如何管理AI的执行过程”而非“如何乞求AI的结果”,Agent思维决定了业务落地的底座[22]
开源最强!“拳打GPT 5”,“脚踢Gemini-3.0”,DeepSeek V3.2为何提升这么多?
华尔街见闻· 2025-12-02 12:21
模型性能突破 - DeepSeek-V3.2在推理测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro [1] - DeepSeek-V3.2-Speciale在IMO 2025等四项国际顶级竞赛中斩获金牌 [1] - V3.2在AIME 2025测试中达到93.1%通过率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0% [20] - V3.2在HMMT 2025测试中得分92.5%,与顶级闭源模型差距进一步缩小 [20] 技术创新亮点 - 采用DeepSeek Sparse Attention稀疏注意力机制,将注意力复杂度从O(L²)降低至O(Lk) [6][7] - 实现"思考+调工具"融合机制,成为首个在"思考模式"下支持工具调用的模型 [2][9] - 通过大规模Agent训练数据合成方法,构造1800多个环境、85000多条复杂指令的强化学习任务 [2][11][12] - 后训练计算预算超过预训练成本的10%,为高级能力释放奠定基础 [15] 技术能力表现 - 在代码智能体任务SWE-Verified中获得73.1%解决率,在Terminal Bench 2.0中达到46.4%准确率 [20] - 在搜索智能体评估BrowseComp中通过上下文管理技术,从51.4%提升至67.6%通过率 [20] - 在工具使用基准测试τ2-Bench中获得80.3%通过率,在MCP-Universe中达到45.9%成功率 [20] - 在代码修复、搜索路径规划、多步骤任务中泛化能力大幅领先过往版本,接近闭源商业模型 [14] 行业影响意义 - 证明开源模型完全有能力成为世界级选手,打破闭源模型的绝对技术垄断 [3][21] - 大模型军备竞赛从"谁参数大"升级为"谁方法强" [22] - 为开发者提供成本更低、可定制性更强的高性能模型选择 [22] - 企业不必再完全依赖海外API,也能构建强大AI系统 [22]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-12 00:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]