通用Agent

搜索文档
从 GPT 到 Agent,技术与业务如何“双向奔赴”
36氪· 2025-06-20 08:05
大模型技术演进与行业影响 - GPT的出现标志着AI技术从垂直领域专用转向具备通用推理和自然语言能力的划时代突破 [2][3] - 大模型成本呈现指数级下降趋势:2024年5月DeepSeek模型效果媲美GPT-4但成本仅为其10%,2025年AI NPC交互场景中数千玩家月消耗仅几十美元 [10][11] - 行业认知从"必须自研大模型"转向聚焦应用层创新,LLaMA开源和RAG技术普及加速了这一转变 [8] 产品落地与商业模式 - 未来产品形态将演变为MAAS(Model as a Service),交付物从代码转变为模型驱动的动态能力 [5][13] - 构建"产品-数据-模型"铁三角闭环成为核心竞争力,Cursor通过积累用户行为数据训练专属编程小模型形成壁垒 [9][12] - 通用大模型将基础设施化,真正创新发生在垂直场景应用层,需结合领域专业知识构建数据飞轮 [5][18] 技术突破与挑战 - 模型基座能力达到临界点驱动Function Calling等技术的实际应用爆发,Claude 3.7发布是重要里程碑 [16] - 当前技术瓶颈包括记忆机制缺陷(需依赖RAG变体解决)和多模态情境理解能力不足 [23][25][26] - 任务拆解策略可缓解模型能力限制,将复杂需求分解为简单子任务能显著提升输出稳定性 [22] 人才结构与能力要求 - 传统垂直专精人才向具备跨领域视野的"超级个体"转型,工程师代码产出量通过AI工具实现20倍提升 [27][28] - 未来核心能力是Agent管理与战略架构,需掌握从商业设计到技术实现的全局规划能力 [27][29] - AI时代淘汰机械执行者(码农),但具备创新能力和跨学科思维的创造型人才(程序员)价值凸显 [31] 创业机会与竞争格局 - 通用Agent创业窗口期短暂,Manus的成功依赖首因效应和资本叙事,后续模仿者面临巨大挑战 [20][21] - 垂直领域Agent因深度结合行业know-how和数据闭环仍具价值,但需警惕巨头下场垄断 [12][16] - 数据孤岛构成独特优势,通用大模型难以复制的私域数据和产品耦合形成真正壁垒 [11][12]
深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
Founder Park· 2025-06-14 10:32
核心观点 - 行业正经历从通用Agent向Agentic Browser的范式转移,浏览器因其内容通用性、用户习惯和跨应用能力成为通用Agent的天然载体 [13][17][20] - Agentic Browser的核心是"代替用户行动",而不仅是"辅助用户浏览",其终极目标是成为全新的AI操作系统并催生定制化硬件生态 [13][31][41] - 未来AI之争的本质是对用户跨应用、全链路"上下文"控制权的争夺,浏览器凭借其深度与广度兼备的上下文获取能力成为关键战场 [21][25][28] 概念定义 - 通用Agent:具备自主理解、规划、执行能力的智能实体,强调自主性和通用性,代表产品包括ChatGPT、豆包等 [17] - AI搜索:利用AI技术改进搜索结果相关性和呈现方式,代表产品包括Perplexity、秘塔搜索等 [17] - AI浏览器:传统浏览器集成AI功能如侧边栏助手、内容总结等,代表产品包括QQ浏览器、夸克等 [17] - Agentic Browser:以浏览器为载体使Agent具备深度上下文感知和跨应用操作能力,代表产品包括Comet、Fellou等 [17][18] 行业驱动力 - 操作系统厂商通过生态霸权限制第三方AI创新,如谷歌阻止摩托罗拉预装Perplexity,微软深度绑定Copilot [9] - 传统浏览器同源策略形成数据孤岛,使通用Agent无法获取用户真实行为数据执行跨网站任务 [10] - 反垄断诉讼为突破生态封锁创造机会,如美国司法部强制谷歌剥离Chrome的提案促使Perplexity开发Comet浏览器 [11] 技术载体优势 - 上下文控制:浏览器可获取用户全维度数据包括浏览时长、交易信息、跨站点行为等,远超单一APP的数据维度 [25][27] - 本地OS控制:通过混合影子空间技术实现本地即时响应、虚拟化执行和云端协同,具备操作系统级资源调度能力 [30][34] - 跨应用连接:支持跨网站工作流自动化如自动关注Twitter博主、电商比价加入购物车等复杂操作 [35][36] 未来演进路径 - 短期:通过Agent Store构建开放生态,如Fellou的VIEP技术和Eko框架实现任务动态规划 [27][35] - 中期:发展为AI优先操作系统,重构资源调度和交互设计围绕任务执行为核心 [31][43] - 长期:催生定制化硬件如AgentBook,在芯片层面集成AI计算单元和先进传感器 [41][43]
深度拆解:为什么通用 Agent 的下一站是 Agentic Browser?
Founder Park· 2025-06-14 04:27
核心观点 - Agentic Browser正成为AI领域的新兴趋势,有望成为通用Agent的下一站载体[3][6][13] - 传统操作系统生态霸权限制通用Agent发展,浏览器成为突破封锁的关键路径[9][11][13] - 浏览器凭借上下文控制、跨应用连接和本地OS整合能力,是通用Agent的理想载体[19][22][37] - Agentic Browser可能沿"浏览器→操作系统→硬件"路径发展,具备重构数字生态的潜力[40][42][43] 概念定义 通用Agent - 具备自主理解、规划、执行能力的智能实体,强调通用性和自主性,代表产品包括ChatGPT、豆包等[17] AI搜索 - 侧重改进搜索结果相关性和呈现方式,代表产品包括Perplexity、秘塔搜索[17] AI浏览器 - 传统浏览器集成AI功能如侧边栏助手、内容总结,未改变核心架构,代表产品包括QQ浏览器、夸克[17] Agentic Browser - 将浏览器作为Agent执行任务的平台,强调主动行动而非被动响应,代表产品包括Comet、Fellou[18] 行业驱动力 生态霸权困境 - 操作系统厂商通过预装绑定和权限壁垒限制第三方AI助手发展[9] - 传统浏览器同源策略导致数据孤岛,阻碍跨网站任务执行[10] 反垄断契机 - 谷歌反垄断诉讼中剥离Chrome的提案为创新者提供机会窗口[11] 技术载体优势 - 浏览器可合法获取全维度用户数据作为Agent行动燃料[11] - 能绕过iOS/Android预装封锁,实现更广泛覆盖[11] 核心能力 上下文控制 - 可记录用户跨网站行为、标签页状态、历史对话等全维度数据[26] - 通过VIEP技术分析鼠标轨迹等细粒度交互数据构建精准用户画像[26] 本地OS整合 - 突破安全沙箱限制,直接调用日历、邮件等本地应用[28] - 混合影子空间技术实现本地/云端资源动态调度[33] 跨应用连接 - 支持跨网站工作流自动化如电商比价、数据同步等场景[34] - 通过MCP协议实现多智能体协作和原子化操作重组[34] 演进路径 技术演进 - 从信息入口升级为任务中枢,重构人机交互范式[42] - 发展AI优先的操作系统内核,优化Agent任务执行[42] 生态扩展 - 通过Agent Store构建开放开发者生态[41] - 挑战平台数据垄断,促进能力自由流动[41] 硬件延伸 - 可能催生专用硬件如AgentBook,侧重AI计算能力[42] - 沿袭Chrome OS路径但强化AI特性[40] 代表企业动向 创业公司 - Perplexity孵化Comet浏览器作为对抗生态霸权的战略产品[12][16] - Fellou开发VIEP技术和Eko框架提升交互感知能力[26][41] 科技巨头 - OpenAI秘密研发浏览器作为ChatGPT新技术载体[3] - 传统浏览器厂商如Chrome、夸克加速AI功能整合[3]
线性郑灿:AI应用正处“Pre-iPhone6”时代
暗涌Waves· 2025-06-11 11:20
行业趋势与投资策略 - 模型竞争持续但并非初创公司主战场 应用层创新成为新竞赛焦点 投资人需快速应对每小时涌现的新项目 [1] - 2023年共投资17个AI项目 最警惕创始人仅将AI作为BP包装而缺乏场景落地执念 [1] - 2024年市场风向转向通用Agent、AI硬件肉搏战及具身智能天价融资领域 [1] 通用Agent市场分析 - C端通用Agent最终可能仅需一个头部产品聚集注意力 B端市场则存在多玩家共存空间 如OpenAI与Anthropic用户量差10倍但B端收入相近 [2] - 更看好解决垂直问题的Agent 因场景明确、商业化直接 虽想象力不及通用产品 [2] 重点投资方向 - 编码工具领域存在机会 现有工具处理代码库时仍有局限性 [3] - 声音模型已跨过拟人化及格线 应用场景扩展至电话访谈等交互场景 如美国think labs案例 [3] - AI+银发经济成为战略方向 需从情感陪伴切入应对严峻老龄化 [3] 投资额度调整逻辑 - 早期项目单笔投资额从2023年150-200万美元提升至2024年300-500万美元 因团队成熟度提高且转型AI的传统公司具备数据优势 [3] AI应用发展阶段判断 - 当前处于"Pre-iPhone6"时代 存在大量重构机会但未现巨头 所有传统业务均可通过AI重做 [4] - 过往AI应用以工具为主 现探索"技术×人群"的结构性机会 社区形态可能成为新方向 [5] 融资策略差异 - 具身智能需准备三年无收入期 依赖强融资能力 AI应用则需快速验证商业化能力 [5] - 早期投资核心评估指标:创业者达成里程碑所需资金及容错成本 [5] 创业方向选择标准 - 不看好单纯生成类项目 应选择受益于模型进步的场景 壁垒在于场景挖掘能力 [5]
拾象李广密:Coding Agent是观测Agent趋势的关键点
快讯· 2025-05-25 17:02
AI行业趋势 - 年内将出现两个确定的AI趋势:长窗口和Agent,特别是Coding Agent的规模化应用 [1] - Coding Agent将端到端地完成有经济价值的软件应用开发 [1] - Coding Agent是观测通用Agent发展的关键,因其逻辑性、可验证性和闭环性 [1] - 若Coding Agent未能大规模替代初级程序员或完成经济任务,其他通用Agent的发展可能更慢 [1] Coding Agent的重要性 - Coding Agent被视为最简单且可验证的通用Agent类型 [1] - 其发展进度可能直接影响其他通用Agent的推进速度 [1] - 规模化应用将聚焦于替代初级程序员和创造经济价值 [1]
AI创业访谈④丨Flowith,10个95后想把自由思考变成Agent
晚点LatePost· 2025-05-23 15:41
核心观点 - 通用Agent的终局是AGI,这不是创业公司的机会,垂直Agent更适合落地[11] - flowith定位为AI创作工具,Neo是其最新发布的创作领域Agent产品,主打无限步骤、无限上下文、无限工具[6][14] - 公司认为未来创作范式将由AI主导,人类角色转向指挥和审美,Multi-Agents协作是趋势[16][17][18] - 在技术壁垒难以建立的AI应用领域,速度和创新能力是创业公司核心竞争力[23][24] 产品与技术 - Neo产品特点: - 设计灵感来自《骇客帝国》,采用多线程画布交互形式,支持无限功能[6][7] - 任务处理效率显著提升(同类产品1小时完成的任务仅需5-10分钟),成本仅为同类1%[12] - 与Claude 4的长期推理能力形成技术互补[6] - 产品迭代路径: - 2023年8月推出Oracle,2024年5月发布Neo,计划年内推出社交媒体创作等垂直场景Agent[12][24] - 从自由画布优化为流式布局以降低使用门槛[17] 市场表现 - Neo发布后数据: - 国内B站热搜第一,微信指数单日达120w[9] - 海外平台X获数千条求邀请码私信,获科技KOL(如Chubby、Robert Scoble等)自发传播[9][13] - 团队背景: - 10人年轻团队(创始人Derek 96年出生),曾创办X ACADEMY(校友创业项目总融资数千万美元)[8][20] - 擅长裂变营销(如"后人类职业测试"单日破千万浏览量)[22] 行业认知 - 对Agent赛道的判断: - 当前通用Agent与物理世界交互能力不足,界限模糊[15] - Chatbot式交互将过时,需支持Multi-Agents并发处理[16][17] - 竞争策略: - 动态选取不同大模型,利用模型进步反哺产品[24] - 通过快速迭代(如封闭开发模式)保持创新领先[10][23]
高搜商给 AI 应用带来新方向
雷峰网· 2025-05-13 20:24
搜索技术演进与AI搜索 - 搜索技术从web端到App端持续演进,深刻改变人类获取信息的方式和认知模式 [2] - 推荐引擎在移动互联网时代盛行,因其比搜索更简单便捷,但搜索仍是用户主动获取信息的主要方式 [2] - AI搜索在LLM时代成为搜索跃进的契机,通过模型能力生成答案并置顶,使搜索结果更直观 [2] - Deepseek-R1率先实现联网搜索AI,提供不限量体验,推动搜索精准度和深度提升 [3] 深度搜索的技术突破 - 深度搜索在RAG技术基础上引入多步迭代机制,通过搜索、阅读、推理循环优化结果 [7] - 深度搜索通过拆解问题、尝试不同搜索策略,显著提升生成结果的精确率和召回率 [7] - 用户为更好结果愿意接受更长处理时间,Deepseek普及CoT(思维链)推动深度思考需求 [8] - 夸克推出深度搜索,具备深度思考能力、智能检索技术和精准回答功能,解决复杂问题 [4][9] 深度搜索的核心优势 - 深度搜索具备高情商特征,正确理解用户意图并生成合理可靠结果 [11] - 深度搜索采用先思考再检索方式,智能拆解任务并精读数百页面,调用不同Agent优化结果 [12] - 深度搜索在个性化问题、复杂问题和模糊搜索三类场景表现突出,显著降低用户决策成本 [20] - 深度搜索使信息获取效率提升40%以上,通过多维度交叉验证确保回答准确性 [22] 夸克的战略布局与超级Agent愿景 - 夸克AI超级框是阿里消费级AI战场关键落子,封装前沿技术为C端用户提供颠覆性体验 [24] - 夸克集成超百个垂直领域Agent,覆盖扫描、学习、医疗等场景,构建全链路服务闭环 [24] - 深度搜索PRO将上线,压缩复杂问题处理时间至分钟级,交付结构化专业结果 [25] - 夸克重新定义搜索价值链条,深度搜索是探索通用Agent和打开搜索新时代的关键一步 [26]
AI Agent赛道升温,字节百度争抢新增长点
搜狐财经· 2025-04-28 19:20
行业动态 - 人工智能领域通用Agent概念持续升温,成为科技公司竞相追逐的焦点 [1] - 明星初创公司Manus AI获得7500万美元新一轮融资,估值飙升至5亿美元 [1] - 百度推出类通用Agent产品"心响",字节跳动已推出"扣子空间",行业竞争加剧 [1][2] - 通用Agent与传统Agent的本质区别在于角色定位转变,从工具升级为用户"伙伴" [1] - 科技大厂加速技术创新,百度发布文心4 5 Turbo及X1 Turbo,字节跳动更新豆包1 5深度思考模型 [5] 公司产品对比 - 字节跳动"扣子空间"主要面向网页端,专注于企业办公场景,擅长文件检索、表格制作和报告生成 [2][4] - 百度"心响"专注于手机端,融入日常生活场景,内容生成更丰富细致但响应速度较慢 [2][4] - "扣子空间"可无缝对接飞书等办公平台,"心响"在交互元素和视觉优化上更具优势 [4] 技术发展与挑战 - 通用Agent面临高任务失败率、上下文理解不足、数据安全风险和偏见放大等技术难题 [5] - 科技公司正加大投入解决技术瓶颈,百度强调推理性能与成本优化,字节跳动主打多模态和性价比 [5] - OpenAI对AI Agent销售额持乐观态度,Manus AI的成功融资为行业注入信心 [5] 未来竞争格局 - 通用Agent有望成为科技公司AI产品体系的新增长点 [6] - 国内阿里、腾讯和国外Google、Anthropic、OpenAI等巨头均已布局该领域 [6] - 差异化应用场景解决方案将成为竞争关键,未来竞争将更加激烈和多元化 [6]
4 月,1000 个通用 Agent 爆发
Founder Park· 2025-04-28 19:00
Agent产品趋势 - 通用Agent技术迁移催生新形态产品如Manus、Deep Research 中国开发者迎来应用层机会[1] - 行业共识转向Agent产品化 代表性案例Genspark Super Agent发布9天ARR达1000万美元 付费用户超1万(按20美元/月计)[6][7] - 垂直领域Agent突破明显 飞猪旅行助手整合机票酒店真实数据 行程规划可达参考级精度[10][13][14] 头部Agent产品分析 - **Genspark** - 核心功能:行程规划+电话预订餐厅 新增AI幻灯片切入PPT赛道[8][9] - 商业化:付费模式验证成功 ARR达千万美元级[7] - **Fellou** - 差异化:本地化处理账号登录任务 支持小红书/抖音等平台深度搜索[17][18] - 交互设计:浏览器形态 左侧实时界面+右侧交互窗口[19] - **扣子空间** - 字节系产品 集成飞书全家桶工具 支持报告自动生成多维表格[21][22][23] - 增长策略:邀请裂变+免费策略快速获客[21] 垂直领域创新案例 - **atypica.AI** - 商业研究智能体 采用多智能体协作模式生成行业报告 参考斯坦福小镇论文[20] - **纳米AI** - 降低MCP使用门槛 预置100+免配置Server 覆盖图像生成/网页开发等场景[24][26][27] - **Trae** - 编程Agent支持MCP协议 实现Figma设计稿转HTML 可自定义专家Agent[30][31] 新兴应用方向 - **语鲸** - AI阅读助手 支持中英文RSS订阅 覆盖论文/研报等专业内容[33][35] - **动御Action&Link** - 体感游戏硬件 通过USB设备将3A游戏转化为健身场景 预售定价328元[37][39][40] - **Dia浏览器** - AI Native设计 支持多页面全局理解 上下文处理能力显著提升[43][44][46]
摸着 Manus,字节百度开始过AI Agent这条河
36氪· 2025-04-27 17:42
通用Agent市场动态 - 明星初创公司Manus AI完成7500万美元融资,估值飙升至5亿美元 [1] - 百度推出类通用Agent产品"心响",字节上线"扣子空间",科技大厂加速布局 [1] - 通用Agent定位从"工具"转向"伙伴",可处理复杂多步骤任务 [1] 字节与百度的差异化路径 - 字节扣子空间主打网页端办公场景,深度嵌入飞书生态提升企业效率 [2][3][8] - 百度心响聚焦移动端C端用户,设计"灵感广场"模块降低使用门槛 [9][15] - 字节强调生产力提升,百度注重生活场景交互与视觉优化 [3][13] 技术实现与商业潜力 - AI Agent依赖多模态推理能力,百度发布文心4.5 Turbo优化成本,字节采用豆包1.5模型降低成本 [19][20] - OpenAI预测2030年AI Agent相关营收达1740亿美元,成为大模型后新增长点 [17] - 大厂通过Agent盘活现有产品矩阵,如字节整合飞书文档/表格,百度接入高德地图等MCP [4][17] 行业竞争格局 - 阿里、腾讯、Google、Anthropic等国内外厂商加速入场,OpenAI规划高价Agent产品 [23] - 技术挑战包括任务失败率高、上下文理解不足,但长期增长潜力显著 [20][21] - 字节5个团队并行开发Agent,百度95后团队30天推出心响,行业进入快速迭代期 [21]