全球AI重要趋势 - 开发Agent简单但做好难,底层模型、框架、工具生态正在成熟,OpenAI、Anthropic等公司提供了模型API,调用浏览器、文件、搜索等组件已经有开源标准 [5] - Anthropic推出的Model Context Protocol(MCP)正在被更多公司接纳,规范了Agent如何与外部工具对接,OpenAI也已加入 [5] - 大模型自身局限:幻觉严重、逻辑跳跃、长文本处理能力不足、模型训练数据不够新鲜等,仍需要RAG(检索增强生成)等技术兜底 [7] - 系统设计难:难以精确引导模型行为,执行复杂任务容易陷入死循环;任务链越长,误差累积越多 [7] - 持续测试模型如何使用工具,观察模型犯的错误,然后不断迭代改进 [7] Agent开发与模型优化 - OpenAI的Deep Research用强化学习的方式在o3的基础训练一个新模型,让它具备搜索的能力,而不是调用外部的工具、增加提示词或者编排任务 [8] - 目前大多数Agent产品都是工作流(Workflows)产品,它在垂直场景有价值,但要实现重大突破,必须重新设计模型 [8] - 基础模型迭代仍是Agent性能提升的重要影响因素,基础模型迭代的速度持续放缓,一方面来自于预训练Scaling Laws边际效应递减 [9] - 大模型的发展,会推动垂直头部应用厂商升级,而非颠覆垂直应用的市场格局 [9] - 与互联网与移动互联网时期一样,大模型推动的智能应用时代,正在从通用技术的发展向应用能力提升过渡 [9] 大模型成为流量入口 - OpenAI CEO山姆·阿尔特曼设想了一个OpenAI成为互联网世界入口的未来:用户用OpenAI账户,能带着使用额度、定制模型等,自由使用任何集成了OpenAI模型API的第三方服务 [10] - Adobe Analytics分析了美国电商零售网站超万亿次访问后发现:近四成人正在使用大模型辅助购物,过半人计划今年这么做 [11] - 许多电商或本地生活应用的核心收入都是站内的推荐广告,如果访问这些网站的是AI,而不是人,这些广告系统还能起效吗 [11] - 沃尔玛美国业务的首席技术官哈里·瓦苏德夫提出应对策略:开发自己的Agent与其他的Agent互动,推荐产品或提供更多商品信息 [11] 算力投资与英伟达 - 3月,算力投资的分歧持续,英伟达股价持续波动:月初10天下降13%,随后反弹,然后又跌了下来 [12] - 参数更小的模型性能提升,Google开源的270亿参数模型Gemma 3模型,在Chatbot Arena上得分超过老版DeepSeek-V3 [12] - 2024年9月以来,大模型应用带来的流量每两个月翻一番;去年末两个月,这类流量同比增长1200% [13] - 英伟达CEO黄仁勋讲了关于推理的新故事:能够推理的AI,将问题一步步分解,可能以几种不同的方式接近并选择最佳答案,生成的Token数量轻松达到百倍以上 [16] - 2026年将推出的Vera Rubin架构芯片,会在B系列基础上再次大幅提升——消耗相同的电,可以生成更多Token [16] 投融资风向 - 3月宣布的大额并购交易超过前三月总和,6起金额超过1亿美元的交易公开,另有多起仍在谈判中 [19] - 英伟达3.2亿美元收购合成数据公司Gretel、正在洽谈数亿美元收购阿里前副总裁贾扬清创办的AI推理服务公司Lepton AI [19] - 3月,融资超过5000万美元的AI公司达31家,比上月增加8家 [21] - 基础模型方向,头部公司融资惊人:OpenAI又融资400亿美元,累计融资额达到586亿美元,最新估值超过3000亿美元;Anthropic又融资35亿美元,累计融资额达到180亿美元,估值达到615亿美元 [21] - 人形机器人创业公司迎来融资高潮,单月出现7笔大额融资,创近年新高 [21] 大模型内部机制研究 - Anthropic发布两篇论文,尝试用"AI显微镜"技术追踪模型内部运作机制,研究自研的大模型Claude如何识别指令、组织语言、执行推理 [22] - Claude具备多语言能力,依赖一个共享的跨语言抽象机制,在不同语言中提问"小的反义词"时,Claude激活的是相同的"小"与"相反"概念 [24] - Claude在写诗时并非逐字生成到末尾才凑韵,而是提前规划,具备语言规划能力和灵活性,能够根据目标调整生成策略 [24] - Claude并非靠死记硬背或模拟标准算法,而是用并行路径完成计算:一条估算总和,另一条精确确定末位数字,最终合成答案 [24] - 大语言模型天生会有"幻觉",即使不知道答案也必须输出下一个词,Claude训练中学会在不确定准确答案时默认拒答 [24]
开发 Agent 简单,让它好用难;如果大模型成为流量入口;英伟达的推理故事丨AI 月报