海外独角兽

搜索文档
AI Agent 摩尔定律:每7个月能力翻倍,带来软件智能大爆炸
海外独角兽· 2025-04-11 19:03
AI Agent能力衡量标准 - 采用"任务长度"作为衡量AI Agent现实世界能力的核心指标,即人类专业人士完成特定任务所需时间[10] - 2022年ChatGPT发布时仅能完成30秒coding任务,当前已能完成1小时任务[10] - 任务长度与成功率高度相关(R²=0.83),4分钟以下任务成功率近100%,4小时以上不足10%[12][14] AI Agent能力增长趋势 - 头部模型完成任务长度呈指数增长,平均每7个月翻倍[19] - 2024-2025年加速至每4个月翻倍,若持续则2027年可完成1个月任务[26] - 预测2026年完成2小时任务,2027年8小时,2028年40小时,2029年167小时任务[24] Scaling Law加速原因 - 硬件突破:算力规模提升直接增强模型能力,如GPT-3相比GPT-2实现质的飞跃[32] - 软件进步:包含算法架构/训练方法等,效率改进(算力需求降低)和能力改进(新功能)双驱动[33] - AI能力进步速度超过算力成本下降,新能力涌现是经济价值主要来源[35] 终局猜想:Agent开发Agent - 可能出现ASARA(AI研发自动化系统),实现AI自主开发AI[35] - ASARA可并行运行数百万副本,认知输出相当于数百万顶尖研究者[35] - 可能触发软件智能爆炸(SIE),AI进步进入超指数增长阶段[35][49] - 关键取决于软件研发回报率r值,当前估计在1-4之间[51] 潜在瓶颈与突破路径 - 硬件限制可能通过算法效率提升(如笔记本训练GPT-3级模型)或小规模实验外推解决[55] - 长时间训练瓶颈可能通过微调优化、范式转变(如GOFAI)或算法加速突破[58][60] - 在强硬件限制下,r值可能降至0.5-2,但仍可能维持实质性进展[57]
为什么 AI Agent 需要自己的浏览器?
海外独角兽· 2025-04-08 19:05
核心观点 - 浏览器使用者正从人类转向AI Agent,传统浏览器无法满足AI Agent自动化抓取、交互和实时数据处理需求 [4] - Browserbase推出云端浏览器服务及StageHand框架,利用LLM让开发者用自然语言与网页交互,降低AI与网页交互门槛 [5][35] - 互联网40%流量来自bots,AI Agent需通过浏览器获取最新信息,推动浏览器自动化工具市场快速增长 [6][24] - 现有headless browser存在性能臃肿、部署复杂、脚本脆弱等问题,需打造AI-native的新一代解决方案 [22][33] - 浏览器自动化市场潜力巨大,Puppeteer下载量已与Next.js相当,参考公司UiPath年营收超10亿美元 [26][28] 目录总结 01 目前的浏览器无法满足AI Agent需求 - 传统浏览器为人类视觉交互设计,而AI Agent需要自动化抓取和数据处理能力 [6] - 40%互联网流量来自bots,因缺乏结构化API需模仿人类浏览行为获取数据 [6] - 现代网站动态加载内容需完整浏览器环境执行脚本,增加抓取难度 [7][8] - 网站反爬机制(验证码、复杂页面结构)使数据解析效率低下 [12][14] 02 Browser for AI市场正在快速增长 - LLM通过RAG和Web Agents两种方式依赖浏览器获取实时信息 [24] - Andrej Karpathy将浏览器列为LLM OS核心组件之一 [24][26] - Puppeteer周下载量与Next.js相当,参考公司UiPath年营收超10亿美元 [26][28] - 训练基础模型、数据商业化、Web Agents兴起等趋势推动需求 [31] 03 打造更好的headless browser - 现有工具问题:282MB臃肿依赖(Puppeteer)、脆弱CSS选择器、任意等待机制 [22] - 三大创新方向:1) 开源优化性能 2) LLM理解页面变化 3) 重构开发者接口 [33][34] - Browserbase StageHand框架实现自然语言转Playwright代码,降低维护成本 [35][36] 04 如何走向市场 - 开发者工具关键策略:卓越产品+开源社区+可信品牌+开发者教育 [37] - 口碑传播是最有效渠道,需注重文档质量和SDK适配性 [37] - 扩展机会包括数据存储服务、工作流市场、统一数据源API平台 [37] 05 风险与竞争 - 主要风险:市场颠覆难度、LLM成本、商品化压力、法律合规等 [39][43][44] - 竞争对手分三类:Browserless(Puppeteer托管)、BrowseAI(低代码)、ScrapingBee(API服务) [50][53][57] - 最大竞争来自开发者自建方案,目前无绝对市场领导者 [58] 06 总结 - Scraping需求长期存在,需非确定性工具应对不确定的互联网环境 [58] - 浏览器自动化是AI应用关键基建,当前投资不足带来创业机会 [58] - 成功创始人需兼具headless browser技术、开发者工具经验和AI洞察力 [58]
Exa:给 AI Agent 的 “Bing API”
海外独角兽· 2025-04-07 20:09
Agentic AI与搜索基础设施 - Agentic AI的三大要素是工具使用(tool use)、记忆(memory)和上下文(context),围绕这些场景将出现原生Agent基础设施机会 [2] - AI Agent将成为网页信息搜索的主力用户,需要不同于人类的全新搜索基础设施 [6][7] - 现有搜索引擎主要服务于人类快速查询,无法满足AI Agent对复杂查询、丰富上下文和高吞吐的需求 [9] 搜索行为分类 - 高频快速查询:Google/Bing仍占优势,新玩家机会有限 [6] - 研究性质深入查询:LLM/LRM带来的新场景,代表产品为Chatbot和Deep research [6] - 个人偏好查询:大模型可处理更复杂语义查询,但面临长记忆能力不足等挑战 [6] - 长尾查询:覆盖用户小众兴趣领域 [6] - AI在第二、三类场景最具挑战传统搜索的潜力 [6] Exa公司概况 - 定位为LLM时代的"Bing API",为AI重新设计搜索系统 [13] - 主要产品包括面向开发者的API和面向专业用户的Websets [13][20] - 技术衍生自端到端神经网络和Transformer架构,将next token prediction改进为next link prediction [59] - 核心差异化:用户可通过投入更多计算资源获得更全面的搜索结果 [3][61] Exa API能力 - Search API:支持自然语言输入的语义搜索,可定制输出格式 [14] - Get Contents API:爬取多个网页内容 [14] - Answer API:对搜索结果进行智能问答 [14] - Find Similar Links API:返回内容相似的网站 [14] - 性能指标:延迟300ms,每秒处理100+查询,支持数千结果返回 [15] Websets产品 - 通过语义搜索生成完整信息列表,类似通用版Clay [22][23] - 支持任意类别搜索和自然语言筛选,准确性是核心卖点 [23] - 在内部测试中比Google和OpenAI Deep research多发现10倍正确结果 [24] - Pro版定价800美元/月,是OpenAI Deep research的4倍 [29] 使用场景 - 投资研究:辅助搜集初创公司信息 [32] - 超级写作补全:自动补全并附参考 [41] - Twitter分析:跨平台搜索分析能力 [44] - 学术论文搜索:可视化展示论文索引和分类 [48][49] 技术架构 - 选择性对互联网部分内容构建索引,采用"二八效应"策略 [54][57] - 基于Transformer架构改进模型,实现预测最相关网页 [59] - 部署基于NVIDIA H200 GPU的AI集群 [61] - 团队规模小但能力强,每个技术环节由1-2人负责 [65] 市场竞争 - 不与Google直接竞争,专注Google无法完成的复杂查询 [66] - 作为LLM补充工具,定位连接LLM智能与互联网知识 [75] - 相比Deep research产品更专注搜索相关性 [78] - 潜在竞争对手包括Brave Software等Agent基础设施提供商 [78] 融资与经营 - 2021年成立,先后完成种子轮和2200万美元A轮融资 [78] - A轮由Lightspeed领投,英伟达等跟投 [78] - 主要收入来自API销售,用户数量数千家 [79] - 收入在过去几个月增长3倍,ARR估算至少960万美元 [79]
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽· 2025-04-03 20:04
作者:linlin 编辑:haina 2025 年 3 月 11 日,语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资,距其 2700 万美元种 子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins 领投,Lightspeed、Index、A*、Greycroft、 Dell Technologies Capital 和 Samsung Ventures 等跟投。Cartesia 还同时推出了其旗舰产品 Sonic 2.0, 系统延迟从 90 毫秒缩短至 45 毫秒,为语音 AI 领域高效、实时且低成本的多模态交互提供了新动 力。 Cartesia 的核心团队均来自 Stanford AI labs,包括 Karan Goel、Albert Gu、Arjun Desai、Brandon Yang 四位校友及其共同导师 Chris Ré。团队共同的研究方向在于 SSM(状态空间模型)。从 S4 到 Mamba 的 SSM 系列研究,以线性时间复杂度,为解决 LLMs 主流架构 Transformer 在上下文长度的 固有局限提供了潜在解决方案,意味着更快的生成速度、 ...