Workflow
Tool Use
icon
搜索文档
2025上半年,AI Agent领域有什么变化和机会?
虎嗅· 2025-07-11 08:11
核心观点 - 2025年上半年AI Agent迅猛发展,行业进入"万物皆可Agent"的热潮,模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段,核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径,编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注,ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧:DeepSeek打破OpenAI垄断,推动推理模型赛道"军备竞赛",OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧:OpenAI发布Operator与Deep Research两款Agent产品,2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃:Manus、Genspark等产品引发关注,Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF:Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进:从Prompt(对话交互)到Workflow(预设流程)再到Agent(自主决策) [17][18][19] - 核心能力:感知环境(理解用户需求与上下文)、自主决策(突破Workflow固定流程限制)、工具使用(浏览器/计算机操作) [19][20] - 技术驱动:Tool Use能力突破(MCP通用接口普及)与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈:上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式:订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向:垂直领域Agent(行业knowhow优势)、ToC长链条任务(如Deep Research类产品) [43][44] - 竞争格局:模型厂商与创业公司边界模糊,端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow:前者性能上限高但可控性差,后者更适合短期商业化 [30][31] - 《苦涩的教训》启示:Agent应减少人类先验干预,依赖算力与数据自主迭代 [30][31] - 环境构建争议:需平衡先验能力与反馈闭环,多模态交互或成关键 [33][34][35]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]