海外独角兽
搜索文档
AI Agent 摩尔定律:每7个月能力翻倍,带来软件智能大爆炸
海外独角兽· 2025-04-11 19:03
AI Agent能力衡量标准 - 采用"任务长度"作为衡量AI Agent现实世界能力的核心指标,即人类专业人士完成特定任务所需时间[10] - 2022年ChatGPT发布时仅能完成30秒coding任务,当前已能完成1小时任务[10] - 任务长度与成功率高度相关(R²=0.83),4分钟以下任务成功率近100%,4小时以上不足10%[12][14] AI Agent能力增长趋势 - 头部模型完成任务长度呈指数增长,平均每7个月翻倍[19] - 2024-2025年加速至每4个月翻倍,若持续则2027年可完成1个月任务[26] - 预测2026年完成2小时任务,2027年8小时,2028年40小时,2029年167小时任务[24] Scaling Law加速原因 - 硬件突破:算力规模提升直接增强模型能力,如GPT-3相比GPT-2实现质的飞跃[32] - 软件进步:包含算法架构/训练方法等,效率改进(算力需求降低)和能力改进(新功能)双驱动[33] - AI能力进步速度超过算力成本下降,新能力涌现是经济价值主要来源[35] 终局猜想:Agent开发Agent - 可能出现ASARA(AI研发自动化系统),实现AI自主开发AI[35] - ASARA可并行运行数百万副本,认知输出相当于数百万顶尖研究者[35] - 可能触发软件智能爆炸(SIE),AI进步进入超指数增长阶段[35][49] - 关键取决于软件研发回报率r值,当前估计在1-4之间[51] 潜在瓶颈与突破路径 - 硬件限制可能通过算法效率提升(如笔记本训练GPT-3级模型)或小规模实验外推解决[55] - 长时间训练瓶颈可能通过微调优化、范式转变(如GOFAI)或算法加速突破[58][60] - 在强硬件限制下,r值可能降至0.5-2,但仍可能维持实质性进展[57]
为什么 AI Agent 需要自己的浏览器?
海外独角兽· 2025-04-08 19:05
核心观点 - 浏览器使用者正从人类转向AI Agent,传统浏览器无法满足AI Agent自动化抓取、交互和实时数据处理需求 [4] - Browserbase推出云端浏览器服务及StageHand框架,利用LLM让开发者用自然语言与网页交互,降低AI与网页交互门槛 [5][35] - 互联网40%流量来自bots,AI Agent需通过浏览器获取最新信息,推动浏览器自动化工具市场快速增长 [6][24] - 现有headless browser存在性能臃肿、部署复杂、脚本脆弱等问题,需打造AI-native的新一代解决方案 [22][33] - 浏览器自动化市场潜力巨大,Puppeteer下载量已与Next.js相当,参考公司UiPath年营收超10亿美元 [26][28] 目录总结 01 目前的浏览器无法满足AI Agent需求 - 传统浏览器为人类视觉交互设计,而AI Agent需要自动化抓取和数据处理能力 [6] - 40%互联网流量来自bots,因缺乏结构化API需模仿人类浏览行为获取数据 [6] - 现代网站动态加载内容需完整浏览器环境执行脚本,增加抓取难度 [7][8] - 网站反爬机制(验证码、复杂页面结构)使数据解析效率低下 [12][14] 02 Browser for AI市场正在快速增长 - LLM通过RAG和Web Agents两种方式依赖浏览器获取实时信息 [24] - Andrej Karpathy将浏览器列为LLM OS核心组件之一 [24][26] - Puppeteer周下载量与Next.js相当,参考公司UiPath年营收超10亿美元 [26][28] - 训练基础模型、数据商业化、Web Agents兴起等趋势推动需求 [31] 03 打造更好的headless browser - 现有工具问题:282MB臃肿依赖(Puppeteer)、脆弱CSS选择器、任意等待机制 [22] - 三大创新方向:1) 开源优化性能 2) LLM理解页面变化 3) 重构开发者接口 [33][34] - Browserbase StageHand框架实现自然语言转Playwright代码,降低维护成本 [35][36] 04 如何走向市场 - 开发者工具关键策略:卓越产品+开源社区+可信品牌+开发者教育 [37] - 口碑传播是最有效渠道,需注重文档质量和SDK适配性 [37] - 扩展机会包括数据存储服务、工作流市场、统一数据源API平台 [37] 05 风险与竞争 - 主要风险:市场颠覆难度、LLM成本、商品化压力、法律合规等 [39][43][44] - 竞争对手分三类:Browserless(Puppeteer托管)、BrowseAI(低代码)、ScrapingBee(API服务) [50][53][57] - 最大竞争来自开发者自建方案,目前无绝对市场领导者 [58] 06 总结 - Scraping需求长期存在,需非确定性工具应对不确定的互联网环境 [58] - 浏览器自动化是AI应用关键基建,当前投资不足带来创业机会 [58] - 成功创始人需兼具headless browser技术、开发者工具经验和AI洞察力 [58]
Exa:给 AI Agent 的 “Bing API”
海外独角兽· 2025-04-07 20:09
Agentic AI与搜索基础设施 - Agentic AI的三大要素是工具使用(tool use)、记忆(memory)和上下文(context),围绕这些场景将出现原生Agent基础设施机会 [2] - AI Agent将成为网页信息搜索的主力用户,需要不同于人类的全新搜索基础设施 [6][7] - 现有搜索引擎主要服务于人类快速查询,无法满足AI Agent对复杂查询、丰富上下文和高吞吐的需求 [9] 搜索行为分类 - 高频快速查询:Google/Bing仍占优势,新玩家机会有限 [6] - 研究性质深入查询:LLM/LRM带来的新场景,代表产品为Chatbot和Deep research [6] - 个人偏好查询:大模型可处理更复杂语义查询,但面临长记忆能力不足等挑战 [6] - 长尾查询:覆盖用户小众兴趣领域 [6] - AI在第二、三类场景最具挑战传统搜索的潜力 [6] Exa公司概况 - 定位为LLM时代的"Bing API",为AI重新设计搜索系统 [13] - 主要产品包括面向开发者的API和面向专业用户的Websets [13][20] - 技术衍生自端到端神经网络和Transformer架构,将next token prediction改进为next link prediction [59] - 核心差异化:用户可通过投入更多计算资源获得更全面的搜索结果 [3][61] Exa API能力 - Search API:支持自然语言输入的语义搜索,可定制输出格式 [14] - Get Contents API:爬取多个网页内容 [14] - Answer API:对搜索结果进行智能问答 [14] - Find Similar Links API:返回内容相似的网站 [14] - 性能指标:延迟300ms,每秒处理100+查询,支持数千结果返回 [15] Websets产品 - 通过语义搜索生成完整信息列表,类似通用版Clay [22][23] - 支持任意类别搜索和自然语言筛选,准确性是核心卖点 [23] - 在内部测试中比Google和OpenAI Deep research多发现10倍正确结果 [24] - Pro版定价800美元/月,是OpenAI Deep research的4倍 [29] 使用场景 - 投资研究:辅助搜集初创公司信息 [32] - 超级写作补全:自动补全并附参考 [41] - Twitter分析:跨平台搜索分析能力 [44] - 学术论文搜索:可视化展示论文索引和分类 [48][49] 技术架构 - 选择性对互联网部分内容构建索引,采用"二八效应"策略 [54][57] - 基于Transformer架构改进模型,实现预测最相关网页 [59] - 部署基于NVIDIA H200 GPU的AI集群 [61] - 团队规模小但能力强,每个技术环节由1-2人负责 [65] 市场竞争 - 不与Google直接竞争,专注Google无法完成的复杂查询 [66] - 作为LLM补充工具,定位连接LLM智能与互联网知识 [75] - 相比Deep research产品更专注搜索相关性 [78] - 潜在竞争对手包括Brave Software等Agent基础设施提供商 [78] 融资与经营 - 2021年成立,先后完成种子轮和2200万美元A轮融资 [78] - A轮由Lightspeed领投,英伟达等跟投 [78] - 主要收入来自API销售,用户数量数千家 [79] - 收入在过去几个月增长3倍,ARR估算至少960万美元 [79]
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽· 2025-04-03 20:04
文章核心观点 - 文章认为,以Mamba为代表的状态空间模型(SSM)架构,为解决Transformer模型在长序列处理上的计算效率瓶颈提供了新路径,尤其在音频等连续信号处理领域展现出巨大潜力 [9] - 文章指出,语音生成初创公司Cartesia是Mamba架构在商业化领域的核心代言人,其基于SSM的“高语音质量+低延迟”产品,正在语音AI市场获得竞争优势并推动实时多模态交互的发展 [4][17] 从 Transformer 到 Mamba - Transformer是当前大语言模型的主流架构,但其自注意力机制具有O(n²)的二次计算复杂度,限制了模型处理长序列的能力 [7][8] - 为突破Transformer的局限,业界发展出两条技术路线:一是在Transformer框架内进行优化(如RAG、MoE),二是探索后Transformer架构,其中基于SSM的Mamba模型备受关注 [8][9] - Mamba模型由Albert Gu和Tri Dao提出,是SSM系列研究的延续,其通过选择性机制和硬件适配实现了线性时间复杂度O(N),在同算力规模下具备Transformer **5倍**的吞吐量 [9][14] - Mamba与Transformer并非简单的替代关系,两者在数学上存在紧密关联,最新的状态空间对偶(SSD)框架揭示了它们之间的等价性,业界也出现了Hybrid-Mamba-Transformer融合架构 [10][13] - 尽管Mamba在理论上具备线性复杂度、低延迟和低内存消耗的优势,但其实际应用仍面临迁移成本高、生态不完善、规模化验证不足以及缺乏杀手级应用等挑战 [15][16] Cartesia - Mamba 架构的代言人 - Cartesia是一家成立于2023年9月的语音AI初创公司,其核心创始团队均来自斯坦福大学AI实验室,是Mamba及SSM系列研究的提出者和核心贡献者 [4][17] - 公司的使命是构建“面向所有设备的实时多模态智能”平台,其长期愿景是将模型从数据中心依赖转向边缘设备,实现高效、实时、低成本的交互体验 [19] - 公司的核心技术是基于SSM架构的多流模型,能够在多个模态的数据流上持续推理和生成,实现端到端的高效流式推理和精准控制 [19] - 公司现阶段产品主要聚焦于语音领域,旗舰产品为Sonic系列文本转语音模型及API,最新版本Sonic 2.0将系统延迟从**90毫秒**缩短至**45毫秒**,在测试中被用户选择的概率是竞品Elevenlabs的**1.5倍** [3][23] - Sonic产品具备多项优势:首音频播放时间低至**95毫秒**、语音拟真度高、支持大规模并发、能精准解析关键信息,其困惑度较传统TTS模型降低**20%**,单词错误率降低**2倍** [22][23][24] - 公司另一重要产品是Voice Changer,可将输入语音转换为目标音色同时保留原始情感和表达特征,适用于内容创作、游戏开发及企业服务等多个领域 [25] - 公司的商业模式采用分层订阅制,其旗舰模型Sonic已吸引了**10,000多家**客户,包括Quora、Cresta等,并通过与11x、Toby、Daily.co、Vapi等平台合作,切入销售、实时翻译、视频通讯、医疗保健等垂直行业 [26][27] 团队及融资 - Cartesia的核心团队由斯坦福大学Stanford Statistical Machine Learning Group的成员构成,包括Mamba提出者Albert Gu、Karan Goel、Arjun Desai、Brandon Yang及其共同导师Chris Ré [4][32][34] - 团队在SSM领域有深厚积累,共同的研究成果包括HiPPO、S4等,为Mamba的诞生奠定了技术基础 [9][34] - 2025年3月11日,公司完成**6400万美元**的A轮融资,由Kleiner Perkins领投,Lightspeed、Index等机构跟投,至此公司融资总额达**9100万美元**,员工仅**26名** [3][35] 市场 - 语音生成市场正快速发展,Y Combinator孵化项目中,voice-native公司的数量在冬季和秋季周期之间增长了**70%** [4][36] - TTS作为通用技术,在销售代理、客户支持、内容创作、游戏、教育等领域应用广泛,2024年全球市场规模约**40亿美元**,并以超过**15%**的年复合增长率增长,预计到2033年将达到**146亿美元** [36][42] - 市场竞争者包括提供捆绑解决方案的云巨头(如AWS、Google Cloud)、开源模型(如Meta Llama)以及Elevenlabs、Deepgram等初创公司 [45][48] - 与主要竞品相比,Cartesia在“语音质量+延迟”维度具备优势:在LabelBox的评估中排名第一的概率为**27.93%**,而Elevenlabs为**10.68%**;其首次音频时间(TTFA)为**199毫秒**,远低于Elevenlabs自助服务层的**832毫秒** [51][55] - 竞争呈现差异化格局:Elevenlabs在内容创作领域凭借顶级音质占据领先地位;Deepgram在ASR和成本效益上领先;Cartesia则以低延迟(如**200毫秒**)、高音质和快速语音克隆技术抢占市场,目前在部分代理商份额中约占**20%** [58][60] - 未来趋势是技术路线的选择与融合,端到端语音交互、多模态能力是关键,基于Mamba的SSM架构为实时多模态AI提供了新的可能性 [60]