Tool Use
搜索文档
软件会不值钱吗?黄仁勋在思科一句反问:谁会从零做工具
36氪· 2026-02-05 11:53
全球软件股下跌与市场恐慌 - 全球软件类股票普遍下跌,导火索是Anthropic发布的Claude更新展示了前所未有的自动执行能力,能调取日历、理解流程、执行任务,直接切入传统生产力工具的核心领域[1] - 市场开始恐慌,担忧AI会从头重做工具,彻底替代现有软件[1] AI与软件工具的关系:使用而非替代 - AI不会重做工具,而是会使用工具,就像人不会重新发明螺丝刀,AI会直接使用已经成熟、被验证有效的软件,通过调用接口和组合功能来完成任务[2][4] - 真正的改变不是工具被替代,而是使用者从人变成了AI[3][7] - 最新一代AI的核心进展在于“Tool Use”(工具使用),即AI能真正干活,如打开浏览器、填写申请表、写代码、调服务,这些过去需要人手动操作的事情AI现在都能自己完成[8] - 这意味着原本被担心会过时的软件工具反而变得更重要,它们不再只是给人用的界面,而是变成了AI可以调用的功能模块[9] 软件角色的根本性转变 - 软件的使用方式彻底改变:以前工具是给人用的,需要人点按钮、填表单、跑流程;现在工具是给AI用的,AI通过调用接口、调度动作、组合功能来完成一整套任务[6][7] - 软件从使用工具变成AI持续学习的载体,需要承载AI的每次经验积累[10] - 软件的运行方式从预录制、流程写死,转变为实时生成,AI根据意图动态决定调用哪个模块、走什么流程[10] - 软件需要记录每一次使用的经验,这些记录不是静态存档,而是可以被后续的AI调用学习,形成更好的判断,逐渐沉淀为企业的可复用知识资产[11][12][13] - 核心理念是让AI始终在场、全程参与,让软件成为能够持续进化的平台[14] AI工厂与软件价值标准重构 - 在“AI工厂”场景下,AI持续运转完成生产任务,软件必须能被AI高频调用,核心标准是有API接口、能程序化调用[15] - 软件的使用形态从交互界面变成任务节点,不再是人去点,而是AI去调;不再靠界面吸引用户,而是靠API吸引AI[17] - 软件价值标准重构:以前软件值钱看用户数、收费规模、粘性强度;现在看的是AI能不能调、能不能高频调、能不能生成结果[19] - 软件的战场已经从争夺用户,变成了争夺AI的调用[17] - 对软件企业的建议是盘点现有工具,优先开放那些有API接口、能通过代码调用、能被程序化执行的工具,让AI能立刻用起来[17] 行业合作与未来展望 - 行业领导者正不断强化与Synopsys、Cadence、SAP、ServiceNow等传统工程及企业软件工具企业的合作,而不是另起炉灶[8] - 软件不再是人机交互的终点,而是变成了被AI调用、组合、嵌入的起点[18] - 最终问题不是软件会不会被淘汰,而是软件产品能否被AI用得上[18]
2025上半年,AI Agent领域有什么变化和机会?
虎嗅· 2025-07-11 08:11
核心观点 - 2025年上半年AI Agent迅猛发展,行业进入"万物皆可Agent"的热潮,模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段,核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径,编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注,ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧:DeepSeek打破OpenAI垄断,推动推理模型赛道"军备竞赛",OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧:OpenAI发布Operator与Deep Research两款Agent产品,2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃:Manus、Genspark等产品引发关注,Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF:Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进:从Prompt(对话交互)到Workflow(预设流程)再到Agent(自主决策) [17][18][19] - 核心能力:感知环境(理解用户需求与上下文)、自主决策(突破Workflow固定流程限制)、工具使用(浏览器/计算机操作) [19][20] - 技术驱动:Tool Use能力突破(MCP通用接口普及)与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈:上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式:订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向:垂直领域Agent(行业knowhow优势)、ToC长链条任务(如Deep Research类产品) [43][44] - 竞争格局:模型厂商与创业公司边界模糊,端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow:前者性能上限高但可控性差,后者更适合短期商业化 [30][31] - 《苦涩的教训》启示:Agent应减少人类先验干预,依赖算力与数据自主迭代 [30][31] - 环境构建争议:需平衡先验能力与反馈闭环,多模态交互或成关键 [33][34][35]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]