Tool Use - 财报，业绩电话会，研报，新闻

Tool Use

搜索文档

2025上半年，AI Agent领域有什么变化和机会？

虎嗅· 2025-07-11 08:11

核心观点 - 2025年上半年AI Agent迅猛发展，行业进入"万物皆可Agent"的热潮，模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段，核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径，编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注，ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧：DeepSeek打破OpenAI垄断，推动推理模型赛道"军备竞赛"，OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧：OpenAI发布Operator与Deep Research两款Agent产品，2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃：Manus、Genspark等产品引发关注，Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF：Cursor、Windsurf被OpenAI收购，Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进：从Prompt（对话交互）到Workflow（预设流程）再到Agent（自主决策） [17][18][19] - 核心能力：感知环境（理解用户需求与上下文）、自主决策（突破Workflow固定流程限制）、工具使用（浏览器/计算机操作） [19][20] - 技术驱动：Tool Use能力突破（MCP通用接口普及）与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈：上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式：订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向：垂直领域Agent（行业knowhow优势）、ToC长链条任务（如Deep Research类产品） [43][44] - 竞争格局：模型厂商与创业公司边界模糊，端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow：前者性能上限高但可控性差，后者更适合短期商业化 [30][31] - 《苦涩的教训》启示：Agent应减少人类先验干预，依赖算力与数据自主迭代 [30][31] - 环境构建争议：需平衡先验能力与反馈闭环，多模态交互或成关键 [33][34][35]

AI Agent

强化学习

Tool Use

Artificial Intelligence

Artificial Intelligence

Deep Research

Project Mariner

Deep Research类产品深度测评：下一个大模型产品跃迁点到来了吗？

Founder Park· 2025-04-23 20:37

产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统，能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比，Deep Research 是迈向 Agent 产品雏形的跃迁，可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估，Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色，在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值，OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳，提供完整项目文件且网页功能和美观性达标，五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令，存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系，Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估，各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google，OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线，但消除短板、触及天花板需市场耐心，Agent 产品下一级阶梯或更快降临[162][164]

Agent

Tool Use

Instruction Following

Memory

Artificial Intelligence

Perplexity

Agent

Tool Use

Instruction Following

Memory

Artificial Intelligence

Perplexity