AI Agent

搜索文档
AI搜索已经过时?前百度高管创业转型后9天ARR破千万美元
创业邦· 2025-04-14 18:36
Genspark Super Agent 产品里程碑 - Genspark Super Agent 在发布9天内达成1000万美元ARR(年度经常性收入)里程碑,该数据基于9天收入平均值核算 [3] 产品定位与转型 - Genspark Super Agent 被定义为"AI助手的最终形态",具备自主思考、任务规划、行动执行和工具使用能力 [5] - 公司从AI搜索引擎转型为AI Agent平台,原AI搜索产品曾吸引500万用户但最终关停,因团队认为传统AI搜索已过时 [6] - 转型核心原因:传统AI搜索受限于线性架构,无法处理复杂需求;而AI Agent能交付完整"结果"而非碎片化信息 [8][9] 技术架构与功能 - 采用多模型协作框架(Mixture-of-Agents),整合OpenAI、Anthropic Claude、Google Gemini等主流LLMs,各模型在特定角色优化 [9] - 内置超过80种预设子代理和工具(如演示生成器、Python代码执行器),支持复杂任务处理 [10] - 接入精选验证数据集确保信息准确性,减少错误传播 [10] - 新增图片/视频生成功能,集成FLUX 1.1 Ultra、Kling V1.6等主流模型 [10] 商业化模式 - 付费模式:打包模型访问权限,按任务执行和内容生成消耗积分计费 [10] - 免费用户每日获200积分,可完成中等复杂度任务 [10] 产品性能验证 - 在跨文化分析任务中(比较中美贸易战报道差异并生成10页PPT),10分钟内完成全流程(包括信息检索、分析、PPT制作) [13][15][16] - 工作流显示其能自主分解任务并使用工具,信源选取策略性强(整合研究论文和权威媒体报道) [18] - 用户反馈评价其速度快、模型全、成功率高,生成视频外任务积分消耗较少,易用性优于竞品 [18]
独家|2033科技天使轮融资近亿元,打造基于Agent的AIGC内容平台
Z Potentials· 2025-04-14 10:30
连续创业者马宇驰,在上一波人工智能大潮中创立三角兽科技,带领公司被腾讯收购,去年重回 AI赛道,参与到新一轮大模型应用创业中, 2033科技 于 2024 年 已经完成天使轮融资,由商汤科技和东方国资共同投资近亿元 人民币。 2033科技 是一家大模型 2C应用的人工智能公 司, 致力于打造 AIGC内容平台,降低用户使用门槛,辅 助用户进行 IP原创和二创, 满足用户和 IP的深度 交互 , 用户可以在 平台上 高度自由 创造 "AI Agent+环境+情节+时间"的3D世界, 快速 将 喜欢的角色带到眼前,以 3D的形式呈现,方便分享转发给同 好,是 年轻用户的兴趣 内容平台。 经过 1年的筹备开发,目前2033科技的产品NYXverse,PC版已经登陆steam进行灰度测试,包括中国区在内全世界地区均可下载。 UGC 内容广场 NYXverse是UGC内容平台,由用户创造上传和定制自己喜欢的角色,目前平台上已经有数千个IP的Agent,支持用户自己上传VRM文件,降低用户形象创 作门槛,同时支持用户从名字到基础人设、背景故事和对话风格的高度自由定制。 用户创作塞尔达中的林克 用户创作的特朗普 用户在平台 ...
Anthropic工程师教你怎么做AI Agent:不做全场景、保持简单,像Agent一样思考
Founder Park· 2025-04-11 19:11
Agent系统构建原则 - 避免构建全能型Agent 大模型更适合处理通用任务 应专注于特定领域[3] - 明智选择应用场景 非所有任务都需要Agent 保持系统简单性优先[9] - 迭代过程中需从Agent视角思考 理解其局限性并提供必要支持[9] Agent系统演进路径 - **简单功能阶段**:早期处理摘要/分类等基础任务 现已成为行业标配[9] - **工作流阶段**:通过编排多模型调用形成预定义控制流 牺牲成本/延迟换取性能提升[9] - **Agent阶段**:模型能力强化后出现领域专用Agent 可自主决策行动路径[9] - **未来趋势**:可能向通用单一Agent或多Agent协作发展 系统自主权持续扩大但伴随成本/错误率上升[9] Agent适用性评估框架 - **任务复杂度**:模糊问题空间适合Agent 清晰决策路径应选工作流[11][13] - **任务价值**:需验证Agent探索成本 低于$0.1/任务选工作流 高于$1可考虑Agent[11][13] - **能力可行性**:关键环节需无严重瓶颈 否则应缩减任务范围[11][13] - **错误成本**:高代价错误场景需设置只读模式或人工干预[11][13] - 编码是典型适用场景 因复杂度高/价值大/结果易验证[12] Agent核心架构设计 - 基础结构=模型+工具+循环 在特定环境中运作[15][21] - 优先迭代三大组件(环境/工具集/系统提示) 避免过早复杂化[16][21] - 不同领域Agent共享相似后端架构 产品层表现差异化[17] 开发者优化策略 - 模拟Agent有限上下文窗口(10k-20k token) 体验决策局限性[19][22] - 直接询问模型(如Claude)以诊断指令模糊性/工具理解障碍[23] - 优化方向包括缓存轨迹/并行化工具调用/改进用户界面[16] 未来发展方向 - **预算感知**:需强化成本/延迟控制 定义时间/token预算机制[24] - **工具进化**:探索Agent自设计工具能力 提升工具通用性[25] - **多Agent协作**:预计年底出现生产级应用 需解决异步通信等挑战[26]
AI Agent 摩尔定律:每7个月能力翻倍,带来软件智能大爆炸
海外独角兽· 2025-04-11 19:03
AI Agent能力衡量标准 - 采用"任务长度"作为衡量AI Agent现实世界能力的核心指标,即人类专业人士完成特定任务所需时间[10] - 2022年ChatGPT发布时仅能完成30秒coding任务,当前已能完成1小时任务[10] - 任务长度与成功率高度相关(R²=0.83),4分钟以下任务成功率近100%,4小时以上不足10%[12][14] AI Agent能力增长趋势 - 头部模型完成任务长度呈指数增长,平均每7个月翻倍[19] - 2024-2025年加速至每4个月翻倍,若持续则2027年可完成1个月任务[26] - 预测2026年完成2小时任务,2027年8小时,2028年40小时,2029年167小时任务[24] Scaling Law加速原因 - 硬件突破:算力规模提升直接增强模型能力,如GPT-3相比GPT-2实现质的飞跃[32] - 软件进步:包含算法架构/训练方法等,效率改进(算力需求降低)和能力改进(新功能)双驱动[33] - AI能力进步速度超过算力成本下降,新能力涌现是经济价值主要来源[35] 终局猜想:Agent开发Agent - 可能出现ASARA(AI研发自动化系统),实现AI自主开发AI[35] - ASARA可并行运行数百万副本,认知输出相当于数百万顶尖研究者[35] - 可能触发软件智能爆炸(SIE),AI进步进入超指数增长阶段[35][49] - 关键取决于软件研发回报率r值,当前估计在1-4之间[51] 潜在瓶颈与突破路径 - 硬件限制可能通过算法效率提升(如笔记本训练GPT-3级模型)或小规模实验外推解决[55] - 长时间训练瓶颈可能通过微调优化、范式转变(如GOFAI)或算法加速突破[58][60] - 在强硬件限制下,r值可能降至0.5-2,但仍可能维持实质性进展[57]
OpenManus 00后主创现场演示,Agent开发的“快”与“痛” | 万有引力
AI科技大本营· 2025-04-11 17:49
项目背景 - OpenManus 复刻 Manus 核心功能,以开放姿态在不到一个月内于 GitHub 获超 42.2k Star 关注[2] 开发者经历 - 梁新兵和向劲宇因 MetaGPT 黑客松活动接触 Agent 领域,确定研究方向[8][9] - 梁新兵科班出身,向劲宇从物理转行,两人在合作中优势互补[8][9] 开发工具与工作流 - 开发者日常借助 Kimi、Repo Mix、Cursor 等 AI 工具学习新技术、提升编程技能,提高工作效率[11][14] - OpenManus 很多代码由 AI 辅助编写,但需人工审查和修改[15] 项目诞生与反响 - 向劲宇预判复刻 Manus 并开源会火,两人利用业余时间快速搭建 OpenManus,发布后 Star 数疯涨[18][19] - 开源目的主要是科普和推广简洁实现理念,让初学者易理解 Agent 核心逻辑[18][19] 项目设计与实现 - OpenManus 架构含 planning tool、Agent 和 tool 模块,采用 react 模式执行任务[24][27] - 定义 Agent 关键要素为工具和提示词,核心工具约 10 个,工具粒度较大[28][32][38] 开源社区贡献 - AWS 官方提交适配 Bedrock API 的代码,社区贡献者完善 Web Search 功能[43][44] - 因审核困难和缺乏测试用例,开发者会慎重考虑修改大量代码的 PR[46] 项目演示与挑战 - 演示 OpenManus 制定旅行规划时出现启动慢、卡住等问题,可能与上下文长度和代码 Bug 有关[52][53][55][56] MCP 协议 - MCP 是统一协议,目标是让大模型以统一方式使用工具,OpenManus 已实现部分支持[60][61][64] 未来规划 - 进行强化学习微调模型,基于 Agent Gym 开发 OpenManus RL 扩展项目[66][67] - 完善多 Agent 协调、MCP 协议支持、工具集成和测试用例建设等工作[68] 学习与借鉴 - 开发者通过 RepoMix 抓取代码,借助大模型理解代码逻辑和架构,将精华部分整合到项目中[69][72][73]
关于 DeepSeek 一体机落地真相,我们调研了 12 家上市公司
雷峰网· 2025-04-09 18:47
" 企业需要资产安全感、ToB需要新增长点,一体机在国内市场再 次爆火,实属必然。 " 作者丨赵之齐 编辑丨胡敏 过去两个月的一体机市场,一波三折: 曾经半年销售量两只手数得过来的一体机业务,在年后一天涌进两三百人电话咨询、一周内咨询近千条, 商机密度比往年翻两三倍,一体机"蜜月期"平等地降临在各厂商身上。 有行业人士透露,春节以来,有中小厂商卖出十几二十台一体机,收入上千万;运营商能卖出小几百台; 某大厂定下的目标是,今年卖三千台。 神州数码信创业务集团产品中心总经理李川也发现,去年对一体 机的需求相对垂直,主要还集中在机器视 觉、自然语言处理等领域中小型客户,今年则向更广泛的行业蔓延。 业务之外,还有更大的盈利场—— 在二级市场,DeepSeek概念股股价迎来较大涨幅,一体机相关上市公 司也一度领涨 。2月以来,浪潮信息、优刻得、神州数码、云天励飞等股价陡峭攀升,深信服从半年前的 42.70元/股涨到了最高142元/股,云从科技更是一度涨停。(更多一体机相关标的看法,可添加作者微 信 Ericazhao23 交流) 而进入三月,商机有所回落,有运营商的咨询从每天几百个下降到每天几十个;股价也开始跌宕。当用 ...
阿里云造“Agent工厂”,百炼MCP服务上线,无需代码5分钟人人都可搭建Agent
量子位· 2025-04-09 16:58
西风 发自 凹非寺 量子位 | 公众号 QbitAI 不是辅助设计宣传海报or制定营销策略,新姿势是: 帮忙质检 ,不仅包括产品质量,还包括每个店面当前实时的运行情况。 比如库迪咖啡,门店数量众多巡检成本高,为了给顾客提供更好的店面环境、产品质量、人工服务,就用上了AI智能检测。 刚刚,在 阿里 云AI势能大 会 上, 阿里云智能集团资深副总裁、公共云事业部总裁 刘 伟 光 介绍了AI大模型的社会价值在企业市场释放的 一系列最新成果和新趋势。 在上述质检任务中,AI大小模型协同,视觉专家小模型负责业务目标的理解,通义千问VL大模型负责通用场景理解,还有阿里云提供的异步 工程链路提高吞吐量, AI质检整体准确率达95%,事件准确率达80% 。 为加速AI落地最后一公里,在大会现场,阿里云宣布 百炼上线业界首个全生命周期MCP服务 。 业界首个全生命周期MCP服务 MCP已被公认为大模型连接软件应用的标准协议。 AI大模型在咖啡店怎么落地? 比如说,直接在百炼平台上选择通义千问大模型和高德MCP服务,就能快速搭建一个具备城市旅游美食规划的Agent应用。 这个Agent不仅能完成基础的地图信息查询任务,还可根据用 ...
为什么 AI Agent 需要自己的浏览器?
海外独角兽· 2025-04-08 19:05
核心观点 - 浏览器使用者正从人类转向AI Agent,传统浏览器无法满足AI Agent自动化抓取、交互和实时数据处理需求 [4] - Browserbase推出云端浏览器服务及StageHand框架,利用LLM让开发者用自然语言与网页交互,降低AI与网页交互门槛 [5][35] - 互联网40%流量来自bots,AI Agent需通过浏览器获取最新信息,推动浏览器自动化工具市场快速增长 [6][24] - 现有headless browser存在性能臃肿、部署复杂、脚本脆弱等问题,需打造AI-native的新一代解决方案 [22][33] - 浏览器自动化市场潜力巨大,Puppeteer下载量已与Next.js相当,参考公司UiPath年营收超10亿美元 [26][28] 目录总结 01 目前的浏览器无法满足AI Agent需求 - 传统浏览器为人类视觉交互设计,而AI Agent需要自动化抓取和数据处理能力 [6] - 40%互联网流量来自bots,因缺乏结构化API需模仿人类浏览行为获取数据 [6] - 现代网站动态加载内容需完整浏览器环境执行脚本,增加抓取难度 [7][8] - 网站反爬机制(验证码、复杂页面结构)使数据解析效率低下 [12][14] 02 Browser for AI市场正在快速增长 - LLM通过RAG和Web Agents两种方式依赖浏览器获取实时信息 [24] - Andrej Karpathy将浏览器列为LLM OS核心组件之一 [24][26] - Puppeteer周下载量与Next.js相当,参考公司UiPath年营收超10亿美元 [26][28] - 训练基础模型、数据商业化、Web Agents兴起等趋势推动需求 [31] 03 打造更好的headless browser - 现有工具问题:282MB臃肿依赖(Puppeteer)、脆弱CSS选择器、任意等待机制 [22] - 三大创新方向:1) 开源优化性能 2) LLM理解页面变化 3) 重构开发者接口 [33][34] - Browserbase StageHand框架实现自然语言转Playwright代码,降低维护成本 [35][36] 04 如何走向市场 - 开发者工具关键策略:卓越产品+开源社区+可信品牌+开发者教育 [37] - 口碑传播是最有效渠道,需注重文档质量和SDK适配性 [37] - 扩展机会包括数据存储服务、工作流市场、统一数据源API平台 [37] 05 风险与竞争 - 主要风险:市场颠覆难度、LLM成本、商品化压力、法律合规等 [39][43][44] - 竞争对手分三类:Browserless(Puppeteer托管)、BrowseAI(低代码)、ScrapingBee(API服务) [50][53][57] - 最大竞争来自开发者自建方案,目前无绝对市场领导者 [58] 06 总结 - Scraping需求长期存在,需非确定性工具应对不确定的互联网环境 [58] - 浏览器自动化是AI应用关键基建,当前投资不足带来创业机会 [58] - 成功创始人需兼具headless browser技术、开发者工具经验和AI洞察力 [58]
为什么 AI Agent 需要专属浏览器?
海外独角兽· 2025-04-08 19:05
文章核心观点 随着浏览器使用者从人类用户向 AI Agent 转移,传统浏览器无法满足 AI Agent 需求,Browser for AI 市场快速增长,公司需打造更好的 headless browser 并制定有效市场策略,同时应对风险与竞争,新兴创业公司有颠覆市场的机会 [3][5][25] 目前的浏览器无法满足 AI Agent 需求 - 互联网超 40% 流量来自 bots,AI Agent 也会通过浏览网站执行任务,但开发者构建网络数据自动化解析工具存在问题 [5] - Scraping 不简单,现代网站需模拟完整浏览器环境、实现页面交互自动化、绕过检测机制,且解析数据困难,内置工具难以构建有效 Scraping 流程 [6][8][13] - 现有的 headless browser 不 AI - native,主流的 Puppeteer 和 Playwright 存在开发体验不佳的问题,如 CSS 选择器脆弱、依赖体积大等 [20][23] Browser for AI 市场正在快速增长 - 大型语言模型依靠浏览器获取最新知识,有 RAG 和基于 Plugins/Web Agents 两种技术途径,主流 LLMs 编排框架已集成浏览器自动化功能 [26] - 浏览器对 LLMs 重要性日益明显,Scraping 和浏览器自动化市场可观,相关初创公司受财富 500 强企业关注,多个趋势将推动浏览器自动化工具普及 [27][31][34] 打造一个更好的 headless browser - 现有 headless browser 存在臃肿、部署复杂、集成方案脆弱等问题,开发者需要性能更强、可靠性更高、使用更简便的方案 [35] - 实现下一代浏览器自动化平台有三个关键创新点:打造开源、高度优化的 headless browser;用 AI 赋予浏览器“超能力”;提供全新层次接口,给开发者极致体验 [35][36][37] 如何走向市场 - 开发者工具类产品有效的分发策略包括打造一流产品、通过开源投资社区、建立值得信赖的品牌、教育并赋能开发者,产品卓越是关键 [39] - 开源是好的分发渠道,良好品牌重要,吸引开发者需互动并提供优秀文档和 SDK,自下而上策略可增强口碑传播,公司成功后有向外扩展机会 [39][40] 风险与竞争 风险 - 在已有市场成为默认选择困难,需用全新范式颠覆市场 [43] - 浏览器自动化可能与客户核心产品深度绑定,但外购更合理 [45] - LLMs 推理成本高,但长期可能下降,可将相关功能设为可选模式 [46] - 基础设施产品易商品化,需重新设计定价策略并控制单位成本 [47] - 存在滥用与法律合规风险,但 Scraping 合法且识别滥用变容易 [48] - 大公司可能开发此类产品,但浏览器与 LLMs 结合有复杂性,中小商家场景仍需浏览器自动化 [49][50] 竞争对手 - 浏览器自动化领域有 Browserless、Browse.ai、Induced.ai 等公司 [52][53][54] - Scraping APIs 公司提供 URL 接口返回非结构化数据并提供额外功能 [55] - 信息检索 APIs 公司专注特定信息搜索和检索服务,未来顶尖公司应吸取三类公司优势,最大竞争对手是自建方案的开发者 [56] 总结 - 浏览器自动化长期缺乏投资,AI 应用高度依赖该能力,市场有大量使用场景,为新兴创业公司提供颠覆机会,成功创始人需有相关背景和洞察力 [60]
喝点VC|a16z对话千万美金ARR的AI Agent 11x:倾听客户的痛点并以此指导产品路线图,让客户“参与”并建立信任感
Z Potentials· 2025-04-07 11:48
Prabhav Jain 目前担任 11x 的 CTO 。他曾是 Brex 的 Web3 总经理, Compose Labs 的 Co-founder 兼 CEO ,以及 EagerPanda 的 Co-founder 人兼 CTO 。 11x 致力于开发自主数字工作者,帮助组织优化流程。本文为 Prabhav Jain 和 a16z 的合伙人 Joe Schmidt 在 a16z YouTube 节目上的座谈实录。 Joe Schmidt : Prabhav ,感谢你的到来。 图片来源: a16z Prabhav Jain : 谢谢邀请。 Z Highlights Prabhav Jain : 这个问题很好。现在 Agent 这个词被频繁提及,似乎只要使用 LLM 就是一家 Agent 公司,也就是说,每家公司都可以被归到这一类。 但 对我们来说,真正的 Agent 必须具备规划、推理、反思、思考,并随着时间推移不断优化的能力。 对我而言,这才是真正的 Agency 。而真正让我感兴趣 的问题是那些没有明确答案的问题 —— 甚至连人类都无法给出唯一正确答案的问题。比如,什么样的文章算是好文章?这个标准很难量 ...