通用Agent

搜索文档
90%被大模型吃掉,AI Agent的困局
投中网· 2025-07-25 16:33
通用Agent行业现状 - 通用Agent面临尴尬境地,90%的市场份额可能被大模型吞噬[3][4][8] - Manus等头部公司出现收入下滑和用户活跃度下降,Manus 6月访问量1781万次,较3月峰值2376万次下降25%[5][22] - Genspark发布45天即达3600万美元ARR,但6月MRR环比下跌13.58%至295万美元[20][22] 商业化与竞争格局 - 头部产品商业化表现分化:Manus 5月ARR达936万美元,但6月MRR环比暴跌51.79%至167万美元[20][21] - 国内大厂主导市场,百度、字节等通过免费策略挤压创业公司空间[26][27][29] - 收费模式对比:Manus Pro会员199美元/月限积分制(约10次/天),Claude Opus 4同价但支持不限量使用[9][11] 技术瓶颈与场景困境 - 大模型能力溢出直接冲击Agent价值,用户更倾向使用基础模型API[9][12] - 垂类Agent在企业端优势显著,可对接内部知识库实现精准输出[15][16] - 当前通用Agent核心场景局限在PPT生成、深度研究等办公功能,但存在信息错漏和低价值输出问题[24][32][34] 技术演进方向 - MiniMax采用线性注意力机制支持100万上下文输入,强化法律文书处理能力[35] - 强化学习(RL)成为突破关键,月之暗面Agent模型在HLE测试得分从8.6%提升至26.9%[36][38] - OpenAI最新Agent产品ChatGPT Agent在HLE测试创41.6%的SOTA成绩[38] 市场趋势 - 行业呈现"模型即Agent"趋势,大模型公司直接切入Agent赛道[28][29] - 开发者生态成竞争焦点,阿里、字节等通过平台推广和比赛吸引开发者[26] - 深度研究功能因成本较低成为主流方向,多模态能力成为标配[30][32]
Manus“删博、裁员、跑路新加坡”后,创始人首次复盘经验教训
虎嗅· 2025-07-19 14:44
公司发展历程 - 公司Manus因"全球首个通用Agent"概念在3月走红,被称为中国的"第二个DeepSeek时刻" [4] - 5月完成由硅谷顶级风投Benchmark领投的7500万美元B轮融资,估值飙升至5亿美元 [5] - 6月底被曝出无预警裁员、创始团队删博、公司主体搬到新加坡等争议事件 [6][7] 技术策略与创新 - 选择上下文工程而非端到端自研大模型,基于开源或商业大模型最大化现有能力 [8] - KV缓存命中率是代理系统核心指标,输入输出Token比高达100:1,缓存可节省10倍成本 [20] - 用文件系统作为无限上下文,解决长上下文窗口限制问题,信息可随时存取 [9][37] - 通过显式"背诵"机制操控模型注意力,自动生成todo.md文件保持任务聚焦 [10][46] - 保留错误信息帮助模型自我修正,减少同类错误发生概率 [11][50] 产品设计原则 - 遮蔽而非移除工具管理,通过屏蔽Token概率保持灵活性同时避免缓存失效 [8][28] - 避免动态增减工具,确保提示前缀稳定和上下文仅追加不修改 [25] - 增加动作和观察的多样性,打破固定模式提升代理鲁棒性 [54][55] 行业影响与争议 - 公司被质疑利用中国工程师资源打造产品后迅速融资并裁员跑路 [2] - 联合创始人发长文回应技术路线但未解释裁员和搬迁新加坡等关键问题 [14][15] - 公司技术探索获认可,但能否将技术转化为实际用户价值仍存疑 [16] 创始人观点 - 上下文工程是新兴实验科学,核心在于通过上下文塑造代理行为而非比拼模型本身 [12][56] - 智能代理未来需通过精心设计的情境逐步构建,强调实践迭代的重要性 [57]
90%被大模型吃掉,AI Agent的困局
36氪· 2025-07-18 18:48
通用Agent市场现状 - 通用Agent面临增长放缓困境,Manus访问量从3月2376万次下跌至6月1781万次(跌幅25%),Genspark访问量下降8% [10] - 商业化表现波动明显:Manus 5月ARR达936万美元但6月MRR环比下跌超50%至254万美元,Genspark同期ARR 3600万美元但MRR下跌13.58%至295万美元 [9][11] - 核心问题在于缺乏杀手级应用场景,当前功能集中于PPT生成、多模态处理等办公场景,用户付费持续性不足 [2][11] 竞争格局变化 - 基础模型能力溢出侵蚀市场:Claude Opus 4等模型提供不限量服务(200美元/月),相较Manus Pro会员199美元/月但限制每日约10次任务更具性价比 [4][6] - 垂类Agent在企业端形成优势:Head AI等垂类产品能对接内部知识库,准确度显著高于通用Agent [7] - 大厂主导国内市场:百度、字节等通过免费策略挤压创业公司空间,MiniMax等采用积分制但难敌大厂资源 [12][13] 技术演进方向 - 强化学习(RL)成为突破重点:月之暗面Kimi-Researcher通过RL将HLE测试得分从8.6%提升至26.9%,OpenAI ChatGPT Agent最新达41.6% [18][20] - 长文本处理能力升级:MiniMax M1模型支持100万token上下文,优于Gemini 2.5 Pro的200K上限 [17][18] - 多模态集成趋势明显:MiniMax融入视频生成能力,百度心响整合原有对话系统 [15] 商业模式挑战 - 成本转嫁矛盾突出:Manus采用积分制导致高频用户成本高企,对比基础模型API无使用次数限制 [6] - B端落地障碍:企业需求与通用Agent"黑盒"特性存在冲突,需深度集成内部系统 [7] - 大厂生态战略:阿里、字节等侧重开发者平台建设,通过比赛推广而非直接产品竞争 [11]
梁文锋等来及时雨
虎嗅APP· 2025-07-16 08:05
行业竞争格局 - 国内大模型行业竞争加剧,"AI六小龙"中的阶跃星辰、智谱AI计划7月底发布新一代基础大模型,科大讯飞也将推出全新模型 [1] - Kimi K2模型发布后成为国内首个总参数量达1万亿的MoE架构开源模型,在代码和数学推理任务上反超DeepSeek [7] - 阿里、字节、百度等科技大厂通过推出更低价的API模型,正在夺走DeepSeek的性价比标签 [7] DeepSeek市场表现 - DeepSeek月活跃用户规模从1月爆发式增长后,4月开始下滑,5月MAU为1.69亿,环比下降5.1% [1] - 官网访问量下降29%,用户使用率从年初7.5%峰值回落至5月底的3% [2] - 苹果App Store免费应用下载榜排名从榜首跌至30名开外 [2] 技术发展动态 - DeepSeek近期仅进行小版本升级,如DeepSeek-R1-0528仍基于2024年12月的V3 Base模型微调,未推出新一代V4模型 [6] - Kimi K2支持128K上下文窗口,MiniMax-M1支持100万上下文输入,远超DeepSeek R1的64K窗口 [10] - DeepSeek是主流AI助手中唯一暂不支持多模态功能的产品,缺乏语音、图片生成等能力 [13] 算力与供应链 - 英伟达H20芯片因美国出口管制被禁售,导致DeepSeek算力储备紧缺,影响R2模型上线 [3] - 7月15日英伟达公告正在申请重新销售H20芯片,美国政府已承诺授予许可证 [4] - MiniMax-M1模型训练仅用512块H800三周时间,租赁成本53.47万美元,远低于DeepSeek V3模型的557万美元 [8] 商业模式与策略 - DeepSeek选择开源路线但忽视C端应用,专注AGI研发,导致产品体验落后竞争对手 [10] - OpenAI通过高频更新保持热度,GPT-4.1系列发布后份额迅速增至10%,而DeepSeek R1使用率从7%峰值降至3% [12] - 第三方平台托管的DeepSeek R1与V3模型使用量自发布以来增长近20倍,显示开发者生态活跃 [9]
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 17:10
AI Agent技术发展 - Manus项目引爆AI Agent热潮,展示从语言理解向任务执行的演化能力[2] - 行业对Agent Scaling Law和通用Agent可行性存在争议,部分研究者认为技术进步将实现通用能力跨越[2] - OWL项目在GAIA Benchmark位列第一,是最强开源Agent之一,十天斩获1w+ Star[6][8] - CAMEL框架是全球首个多智能体框架,已有两年技术积累[6] - OWL项目构建初衷是为开发者提供开源可拓展基础框架,而非与Manus比拼产品化能力[8] 开源社区与技术迭代 - OWL项目上线后收到大量社区反馈,GitHub上关闭200+ Issue,微信群反馈达上千条[9] - 社区开发者积极贡献PR,改进UI/UX和交互体验[10] - OWL进行重要重构,平衡性能与成本控制,GAIA-58.18分支为性能最优版本[11] - 新增Terminal Tool Kit功能,支持Agent调用终端安装依赖库并执行代码[12] - CAMEL团队计划将40多种常用工具接入MCP Server,构建工具生态[31] 多智能体系统研究 - 在多智能体协作实验中,70%任务场景中双Agent协作效果优于单Agent[21] - OASIS项目支持100万Agent交互,开展社会模拟研究[22] - 探索利用Agent生成合成数据提升多智能体系统质量[23] - 多智能体系统优化涉及协作机制、任务调度、工具调用流程等多个维度[27] - 未来可能形成分工明确、组合灵活、成本可控的Agent生态[29] 行业协议与生态 - MCP协议简化Agent开发流程,提供统一接口调用外部工具[30][32] - Google推出A2A协议,侧重统一Agent间接入范式[34] - 协议价值取决于参与者数量和生态繁荣程度[34] - CAMEL团队同时支持MCP和A2A协议[35] 开发者经验与建议 - 建议开发者从模型底层机制入手学习Agent开发,而非直接使用抽象框架[38] - 使用AI Coding工具需进行代码审查,修改量约20%[44] - AI生成代码可能仅提供局部最优解,需关注全局结构[46] - 保持学习能力和辨别能力是应对AI快速迭代的关键[37]
为什么AI浏览器可以聚集一切
虎嗅· 2025-07-01 10:31
互联网与AI时代浏览器演变 - 互联网时代发展路径为网页-浏览器-门户-搜索-社交网络,AI时代企业参照该路径在不同节点寻找AI化可能性 [1] - 浏览器是互联网首个全民级应用,微软30年前通过IE赢得首轮平台之争,Google后来用Chrome颠覆IE并强化搜索入口地位 [2] - AI浪潮中浏览器竞争白热化,参与者包括Fellou、Dia、Opera等原生AI浏览器,以及Chrome、QQ浏览器等植入AI功能的传统产品 [2] AI浏览器功能转型 - AI浏览器从搜索容器升级为AI能力躯体,从信息窗口变为代理执行伙伴,整合搜索、决策、执行功能 [4] - 产品形态包括豆包(AI助理)、夸克(AI搜索)、ima(知识库)等浏览器形态产品,以及扣子空间等基于浏览器的Web工具合集 [4] - 进化方向是成为AI时代操作系统,类似Google曾试图通过Chrome OS构建的云端生态 [5] 用户交互与硬件生态变革 - AI浏览器简化人机交互范式,硬件将分化为本地算力提供者(高配PC)和云端连接者(智能眼镜等轻量化设备) [6] - 全球数亿用户仍依赖浏览器处理复杂信息获取,共享文档和多维表格主要通过浏览器打开 [7] - AI浏览器产品如Fellou、Dia采用邀请制注册,出现"一码难求"现象 [7] AI浏览器三大类别 - **原生AI浏览器**:Dia侧重流畅浏览体验,Fellou强调代理式深度行动,60%用例涉及数据查询与爬取 [9][15] - **类AI浏览器**:豆包、夸克等以浏览器为功能载体,核心仍围绕AI助手/搜索优化 [10] - **AI化传统浏览器**:QQ浏览器集成QBot支持多模态搜索,Chrome嵌入Gemini,Edge上线Copilot Vision,采用渐进式改造策略 [10] 行业竞争逻辑 - **入口争夺**:云端营收增长、WebAssembly等技术推动浏览器成为AI搜索/生图/视频的核心入口,地址栏可能进化为"超级框" [12] - **操作员角色**:Perplexity等产品管理投资组合等完整工作流,Fellou用户通过自动填表功能成功求职案例显示行动力需求 [14][15] - **智能伙伴定位**:Dia定位聊天工具辅助工作,Fellou强调赋予用户自由时间,最终目标是打造具记忆力和执行力的AI伙伴 [17][18] 技术演进与生态构建 - Opera Neon通过DOM树分析网页内容,跳过传统浏览方式直接获取信息 [21] - OpenAI计划开发整合ChatGPT的AI浏览器,接入旅游/零售等服务商能力,可能通过Agent间交互实现 [23] - 浏览器向操作系统进化,Dia目标成为Agent指挥中心,Chrome OS的成功预示AI浏览器或匹配专属硬件(如Chromebook) [24][27][28]
从 GPT 到 Agent,技术与业务如何“双向奔赴”
36氪· 2025-06-20 08:05
大模型技术演进与行业影响 - GPT的出现标志着AI技术从垂直领域专用转向具备通用推理和自然语言能力的划时代突破 [2][3] - 大模型成本呈现指数级下降趋势:2024年5月DeepSeek模型效果媲美GPT-4但成本仅为其10%,2025年AI NPC交互场景中数千玩家月消耗仅几十美元 [10][11] - 行业认知从"必须自研大模型"转向聚焦应用层创新,LLaMA开源和RAG技术普及加速了这一转变 [8] 产品落地与商业模式 - 未来产品形态将演变为MAAS(Model as a Service),交付物从代码转变为模型驱动的动态能力 [5][13] - 构建"产品-数据-模型"铁三角闭环成为核心竞争力,Cursor通过积累用户行为数据训练专属编程小模型形成壁垒 [9][12] - 通用大模型将基础设施化,真正创新发生在垂直场景应用层,需结合领域专业知识构建数据飞轮 [5][18] 技术突破与挑战 - 模型基座能力达到临界点驱动Function Calling等技术的实际应用爆发,Claude 3.7发布是重要里程碑 [16] - 当前技术瓶颈包括记忆机制缺陷(需依赖RAG变体解决)和多模态情境理解能力不足 [23][25][26] - 任务拆解策略可缓解模型能力限制,将复杂需求分解为简单子任务能显著提升输出稳定性 [22] 人才结构与能力要求 - 传统垂直专精人才向具备跨领域视野的"超级个体"转型,工程师代码产出量通过AI工具实现20倍提升 [27][28] - 未来核心能力是Agent管理与战略架构,需掌握从商业设计到技术实现的全局规划能力 [27][29] - AI时代淘汰机械执行者(码农),但具备创新能力和跨学科思维的创造型人才(程序员)价值凸显 [31] 创业机会与竞争格局 - 通用Agent创业窗口期短暂,Manus的成功依赖首因效应和资本叙事,后续模仿者面临巨大挑战 [20][21] - 垂直领域Agent因深度结合行业know-how和数据闭环仍具价值,但需警惕巨头下场垄断 [12][16] - 数据孤岛构成独特优势,通用大模型难以复制的私域数据和产品耦合形成真正壁垒 [11][12]
深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
Founder Park· 2025-06-14 10:32
核心观点 - 行业正经历从通用Agent向Agentic Browser的范式转移,浏览器因其内容通用性、用户习惯和跨应用能力成为通用Agent的天然载体 [13][17][20] - Agentic Browser的核心是"代替用户行动",而不仅是"辅助用户浏览",其终极目标是成为全新的AI操作系统并催生定制化硬件生态 [13][31][41] - 未来AI之争的本质是对用户跨应用、全链路"上下文"控制权的争夺,浏览器凭借其深度与广度兼备的上下文获取能力成为关键战场 [21][25][28] 概念定义 - 通用Agent:具备自主理解、规划、执行能力的智能实体,强调自主性和通用性,代表产品包括ChatGPT、豆包等 [17] - AI搜索:利用AI技术改进搜索结果相关性和呈现方式,代表产品包括Perplexity、秘塔搜索等 [17] - AI浏览器:传统浏览器集成AI功能如侧边栏助手、内容总结等,代表产品包括QQ浏览器、夸克等 [17] - Agentic Browser:以浏览器为载体使Agent具备深度上下文感知和跨应用操作能力,代表产品包括Comet、Fellou等 [17][18] 行业驱动力 - 操作系统厂商通过生态霸权限制第三方AI创新,如谷歌阻止摩托罗拉预装Perplexity,微软深度绑定Copilot [9] - 传统浏览器同源策略形成数据孤岛,使通用Agent无法获取用户真实行为数据执行跨网站任务 [10] - 反垄断诉讼为突破生态封锁创造机会,如美国司法部强制谷歌剥离Chrome的提案促使Perplexity开发Comet浏览器 [11] 技术载体优势 - 上下文控制:浏览器可获取用户全维度数据包括浏览时长、交易信息、跨站点行为等,远超单一APP的数据维度 [25][27] - 本地OS控制:通过混合影子空间技术实现本地即时响应、虚拟化执行和云端协同,具备操作系统级资源调度能力 [30][34] - 跨应用连接:支持跨网站工作流自动化如自动关注Twitter博主、电商比价加入购物车等复杂操作 [35][36] 未来演进路径 - 短期:通过Agent Store构建开放生态,如Fellou的VIEP技术和Eko框架实现任务动态规划 [27][35] - 中期:发展为AI优先操作系统,重构资源调度和交互设计围绕任务执行为核心 [31][43] - 长期:催生定制化硬件如AgentBook,在芯片层面集成AI计算单元和先进传感器 [41][43]
深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
Founder Park· 2025-06-14 04:27
核心观点 - Agentic Browser正成为AI领域的新兴趋势,有望成为通用Agent的下一站载体[3][6][13] - 传统操作系统生态霸权限制通用Agent发展,浏览器成为突破封锁的关键路径[9][11][13] - 浏览器凭借上下文控制、跨应用连接和本地OS整合能力,是通用Agent的理想载体[19][22][37] - Agentic Browser可能沿"浏览器→操作系统→硬件"路径发展,具备重构数字生态的潜力[40][42][43] 概念定义 通用Agent - 具备自主理解、规划、执行能力的智能实体,强调通用性和自主性,代表产品包括ChatGPT、豆包等[17] AI搜索 - 侧重改进搜索结果相关性和呈现方式,代表产品包括Perplexity、秘塔搜索[17] AI浏览器 - 传统浏览器集成AI功能如侧边栏助手、内容总结,未改变核心架构,代表产品包括QQ浏览器、夸克[17] Agentic Browser - 将浏览器作为Agent执行任务的平台,强调主动行动而非被动响应,代表产品包括Comet、Fellou[18] 行业驱动力 生态霸权困境 - 操作系统厂商通过预装绑定和权限壁垒限制第三方AI助手发展[9] - 传统浏览器同源策略导致数据孤岛,阻碍跨网站任务执行[10] 反垄断契机 - 谷歌反垄断诉讼中剥离Chrome的提案为创新者提供机会窗口[11] 技术载体优势 - 浏览器可合法获取全维度用户数据作为Agent行动燃料[11] - 能绕过iOS/Android预装封锁,实现更广泛覆盖[11] 核心能力 上下文控制 - 可记录用户跨网站行为、标签页状态、历史对话等全维度数据[26] - 通过VIEP技术分析鼠标轨迹等细粒度交互数据构建精准用户画像[26] 本地OS整合 - 突破安全沙箱限制,直接调用日历、邮件等本地应用[28] - 混合影子空间技术实现本地/云端资源动态调度[33] 跨应用连接 - 支持跨网站工作流自动化如电商比价、数据同步等场景[34] - 通过MCP协议实现多智能体协作和原子化操作重组[34] 演进路径 技术演进 - 从信息入口升级为任务中枢,重构人机交互范式[42] - 发展AI优先的操作系统内核,优化Agent任务执行[42] 生态扩展 - 通过Agent Store构建开放开发者生态[41] - 挑战平台数据垄断,促进能力自由流动[41] 硬件延伸 - 可能催生专用硬件如AgentBook,侧重AI计算能力[42] - 沿袭Chrome OS路径但强化AI特性[40] 代表企业动向 创业公司 - Perplexity孵化Comet浏览器作为对抗生态霸权的战略产品[12][16] - Fellou开发VIEP技术和Eko框架提升交互感知能力[26][41] 科技巨头 - OpenAI秘密研发浏览器作为ChatGPT新技术载体[3] - 传统浏览器厂商如Chrome、夸克加速AI功能整合[3]
线性郑灿:AI应用正处“Pre-iPhone6”时代
暗涌Waves· 2025-06-11 11:20
行业趋势与投资策略 - 模型竞争持续但并非初创公司主战场 应用层创新成为新竞赛焦点 投资人需快速应对每小时涌现的新项目 [1] - 2023年共投资17个AI项目 最警惕创始人仅将AI作为BP包装而缺乏场景落地执念 [1] - 2024年市场风向转向通用Agent、AI硬件肉搏战及具身智能天价融资领域 [1] 通用Agent市场分析 - C端通用Agent最终可能仅需一个头部产品聚集注意力 B端市场则存在多玩家共存空间 如OpenAI与Anthropic用户量差10倍但B端收入相近 [2] - 更看好解决垂直问题的Agent 因场景明确、商业化直接 虽想象力不及通用产品 [2] 重点投资方向 - 编码工具领域存在机会 现有工具处理代码库时仍有局限性 [3] - 声音模型已跨过拟人化及格线 应用场景扩展至电话访谈等交互场景 如美国think labs案例 [3] - AI+银发经济成为战略方向 需从情感陪伴切入应对严峻老龄化 [3] 投资额度调整逻辑 - 早期项目单笔投资额从2023年150-200万美元提升至2024年300-500万美元 因团队成熟度提高且转型AI的传统公司具备数据优势 [3] AI应用发展阶段判断 - 当前处于"Pre-iPhone6"时代 存在大量重构机会但未现巨头 所有传统业务均可通过AI重做 [4] - 过往AI应用以工具为主 现探索"技术×人群"的结构性机会 社区形态可能成为新方向 [5] 融资策略差异 - 具身智能需准备三年无收入期 依赖强融资能力 AI应用则需快速验证商业化能力 [5] - 早期投资核心评估指标:创业者达成里程碑所需资金及容错成本 [5] 创业方向选择标准 - 不看好单纯生成类项目 应选择受益于模型进步的场景 壁垒在于场景挖掘能力 [5]