Proactive Agent
搜索文档
2026,是个“AI多模态大年”!普通人如何看懂十万亿美金的变局?
混沌学园· 2026-02-02 20:47
文章核心观点 全球AI产业格局正从“暴力美学”的预训练范式向“持续学习”的新范式演进 头部模型公司OpenAI、Google、Anthropic呈现“交替领先”与战略分化态势 投资应聚焦技术成长最陡峭的领域 包括领先模型公司、算力基础设施及技术溢出红利 并关注多模态、机器人、主动智能体等新物种的萌芽 [7][15][36][38][39] AI Labs竞争格局与战略分化 - **头部格局固化**:全球AI模型第一梯队由OpenAI(GPT)、Anthropic(Claude)和Google(Gemini)构成 这三家基础模型公司拿走了约90%的AI总收入 [7] - **交替领先成为常态**:在Tier 1阵营内 AI labs之间呈现“交替领先”状态 模型能力上个位数百分点的领先在商业回报上会被放大为数倍差距 [7][8] - **战略路线显著分化**: - **OpenAI坚定押注To C**:ChatGPT在消费端用户体验断档式领先 日活跃用户接近4.8-5亿 是Gemini(约9000万DAU)的5.6倍 正朝着“下一个Google”发展 [9] - **Anthropic专注To B与专业领域**:放弃通用To C市场 Claude Opus4.5在软件开发和Agent领域仍是SOTA 在处理长任务时更可靠、效果更好且更节省Token [9] - **Google优先发展多模态**:Gemini 3的多模态理解能力处于断档式领先地位 但在文本和编码能力上更多是追平OpenAI和Anthropic之前的水平 [10] 算力基础设施阵营对抗 - **GPU与TPU两大阵营对垒**:行业正形成NVIDIA(GPU)与Google(TPU)两大算力阵营 这将是贯穿一二级科技投资的主线 [11] - **生态模式对比**:Google凭借“模型+TPU+云+产品”构建了端到端、自成一体的生态 类似LLM时代的Apple 而NVIDIA则像Android 支撑起庞大的生态联盟 [11] - **性能与成本权衡**:GPU在综合性能上仍优于TPU 但受制于台积电产能且成本昂贵 Google通过TPU展现出更强的成本控制潜力 [11] 下一代技术范式:持续学习 - **范式转移的核心**:持续学习被认为是继预训练之后下一个极其重要的技术范式 旨在解决预训练面临的边际效应递减、数据枯竭等挑战 例如Gemini 3使用的50T数据量已接近极限 [17][18] - **核心目标**:从“存储知识”转向“样本效率” 让模型从“静态冻结的智能”转向能在推理和交互中实时学习的“鲜活智能” 实现真正的数据飞轮 [18][21] - **发展现状与挑战**:持续学习是长上下文、模型遗忘机制及数据分布漂移等5-10个学术难题的集合 难以短期内突破 但学界业界乐观预计2026年能看到明确信号 并希望在未来1-3年内逐步解决 [21] - **早期信号**:Google Research的Nested Learning展示了初步的In-weights Learning能力 Cursor通过捕捉用户对代码的接受或拒绝行为 能在小时级周期内更新模型 是Online RL的典型雏形 [22] 多模态与机器人发展 - **2026年为多模态大年**:多模态技术路径正向“Omni-in, Omni-out”收敛 视觉、音频、文本被统一Token化 纳入同一个自回归序列建模 模型开始具备跨模态“通感”能力 [46] - **机器人是多模态与世界模型的重要接口**:机器人可利用“合成世界”进行训练 解决现实数据不足的问题 Agent具备了“看懂UI、读懂屏幕”的能力 [46][47] - **机器人领域GPT时刻尚需3-5年**:与LLM不同 机器人领域“Day1就是分化的” 因缺乏统一预训练基础和硬件标准 目前正处于“百花齐放”阶段 [53] - **数据是机器人领域的核心赌注**:各家公司采用截然不同的数据方案 例如Generalist收集了27万小时真实机器人交互数据 Sunday通过“手套+众包”模式收集了1000万条人类动作数据 [55][56] - **强化学习作用关键**:在机器人领域 RL的作用比在LLM中更为显著 例如Physical Intelligence的RECAP策略能让机器人在叠衣服、冲咖啡等长时程任务中实现连续10小时稳定执行 [58] 智能体演进与商业模式 - **主动智能体成为主赛场**:下一代智能体将从被动Chatbot转向能主动提供服务的Proactive Agent 这要求模型具备意图识别、始终在线和长期记忆三大核心能力 并与持续学习范式紧密相连 [60][62] - **语音智能体成为新OS入口**:行业正从传统的“STT→LLM→TTS”三段式架构 转向Real-time Speech-to-Speech的端到端解决方案 大幅减少反应时间 ElevenLabs凭借早期数据规模与质量优势构建了护城河 [66][68] - **LLM推理价格快速通缩**:以MMLU为质量指标衡量 推理价格每年下降10倍 自GPT-3发布三年来 同等能力模型推理成本已下降约1000倍 但Agent复杂工作流导致的Token用量激增抵消了单价下降红利 [74][75] - **商业模式面临效率质疑**:市场对AI泡沫的担忧部分源于Sam Altman提出的1.4万亿美元财务承诺 分析指出其中约三分之二包含“有条件解锁”条款 相对容易撤销或展期 [26] - **收入想象力在于新增市场**:在可见的商业模式下 OpenAI未来收入规模预计在2000-3000亿美元之间 其真正想象力在于创造“看不清”的新增净市场 例如AI作为新劳动力释放价值甚至创造增量GDP [28][32] 投资策略与市场视角 - **投资核心策略**:只投资技术成长最陡峭的地方 具体包括三条主线:投资全球最领先的模型公司、投资最领先模型所需的算力与硅基基础设施、投资最领先模型技术溢出的红利 [36][38] - **构建AGI投资组合**:因技术变化快且各家交替领先 最佳策略是构建一个AGI指数组合 理想的配置包括OpenAI、ByteDance、Google、Anthropic、Nvidia以及台积电 [39] - **二级市场聚焦AI Beta**:AI Beta(行业红利)仍是科技创新主旋律 市场叙事已从“AI泡沫”转向“AI战争” 意味着看到堪比大航海时代的发展机遇 [89][90] - **硬件层投资逻辑**:在GPU与TPU阵营对抗中 只要需求远大于供给 两者都具备投资价值 策略上可向暂时落后的一方稍作倾斜 NVIDIA下一代Rubin芯片设计激进 功耗从1800W拉高到2300W HBM带宽从13TB/s提升到20TB/s [96][98][99] - **关注智能体潜在赢家**:在Proactive Agent萌芽阶段 潜在受益公司包括与OpenAI深度合作的Intuit(已投资1亿美元)、作为电商基础设施的Shopify、数据基础设施公司Snowflake & MongoDB 以及通信API公司Twilio [108][109][110][113]
How To Play AI Beta:拾象 2026 AGI 投资思考开源
海外独角兽· 2026-02-02 09:14
文章核心观点 - AI领域竞争格局快速演化,市场共识频繁翻转,行业正进行系统性复盘 [2] - AI并非零和博弈,OpenAI与Anthropic仍有巨大赢面,Google的崛起共同做大市场 [2][12] - Continual Learning成为AI实验室押注的新范式共识,预计2026年将看到明确信号 [2][15] - AGI竞赛类似自动驾驶,全面实现L4难度大,但在知识工作等垂直领域已实现可观的效率提升和经济价值 [2] - “NVIDIA + OpenAI”主线短期内可能被市场低估,投资OpenAI是在下注AI时代的“前所未见之物” [2][30] - 理想的AGI投资组合应包含Google、Nvidia、OpenAI、Anthropic、ByteDance和TSMC [2][32] - 模型即产品,数据即模型,阶跃式产品体验提升依赖于底层模型换代,而模型能力提升的核心在于数据投入 [2][36][37] 当前竞争格局 - 全球AI模型头部格局已定,OpenAI、Anthropic和Google构成第一梯队,技术领先与品牌效应形成高溢价 [6] - AI实验室呈现“交替领先”与“分化”的竞争常态 [4] - 技术路线出现分化:OpenAI坚定押注To C市场,ChatGPT DAU接近4.8-5亿,是Gemini(约9000万DAU)的5.6倍;Anthropic专注于To B、Coding/Agent等专业领域;Google将多模态能力置于战略首位 [7][8] - 算力领域形成GPU与TPU两大对垒阵营:Google构建了类似Apple的端到端生态,而NVIDIA则支撑起庞大的Android式生态联盟 [10] 重要技术趋势 - Continual Learning是下一个范式级技术,旨在让模型从“静态冻结”转向“鲜活”,在推理中实时学习 [15][16] - 该范式是解决机器人、世界模型等多模态问题的关键,否则相关领域可能需走10年弯路 [15][17] - 其目标是实现“样本效率”,让AI具备“超级学习力”,但成熟需基础设施支持并解决5-10个学术难题,预计2026年能看到明确信号 [19] - 当前已有早期信号,如Google Research的Nested Learning和Cursor的Online RL雏形 [19][20] - OpenAI、SSI和Thinking Machines Lab在该领域投入领先 [20] 商业模式与效率挑战 - 市场对AI泡沫的担忧部分源于OpenAI提出的1.4万亿美元财务承诺,但其中约三分之二包含“有条件解锁”条款,相对容易撤销或展期 [24][25] - 在现有可见商业模式下,OpenAI未来收入规模预计仅在2000-3000亿美元之间,仅能勉强抵消资本开支折旧 [25] - To C市场:假设拥有40亿周活用户且订阅率达10%,年收入约800亿美元;在电商与广告领域,收入上限约在400亿至1000亿美元 [27] - To B市场:即使5000亿美元的SaaS市场全部被AI重构且收取20%“过路费”,收入上限也仅为1000亿美元 [27] - 真正的增长想象力在于创造增量GDP,例如Agent若能创造20%程序员或白领的价值,对应市场增量分别为3000亿美元和3.5万亿美元 [27] - 实现此目标需依赖Continual Learning的突破,解决模型可靠性和端到端能力 [28] - 目前AI投资更被视为一种“国防”开支,巨头为免被颠覆将持续投入 [30] 产品与模型发展 - “模型即产品”:阶跃式产品体验提升源于底层模型换代,例如Sora、Veo的视频生成能力进步及Nano Banana Pro的图文解读能力 [36] - 头部实验室的模型分化取决于其战略选择和服务对象 [36] - “数据即模型”:模型进步依赖对人类“未留痕数据”的蒸馏,Pre-training数据如石油即将枯竭,RL专家数据如新能源成本高,Continual Learning如核聚变潜力巨大 [37] - 2026年是多模态大年,技术路径向“Omni-in, Omni-out”收敛,视觉、音频和文本被统一Token化 [38] - 多模态进步直接利好机器人学习和多模态Agent [38] 机器人领域进展 - 机器人领域的“GPT时刻”可能还需3-5年,且从一开始就呈现分化态势,因缺乏统一的Pre-training基础和硬件标准 [43][44] - 2025年Q4湾区AI机器人公司集中发布,如Google DeepMind及其衍生公司Physical Intelligence、Generalist等 [44] - 这些公司强调真实世界数据、专注于上半身精细操作,并致力于打造泛化的机器人大脑 [44] - 数据是机器人领域最重要的投入,各家公司采用截然不同的数据配方:Generalist收集了27万小时真实机器人交互数据;Sunday通过“手套+众包”收集了1000万条家庭数据;Physical Intelligence在Airbnb真实环境中持续收集数据 [46][47] - RL在机器人领域作用显著,例如Pi的RECAP策略能让机器人实现连续10小时稳定执行长周期任务 [47] - 机器人商业化落地开始探索,如Dyna为B2B商家提供服务,同时硬件的重要性被重新评估 [48] Agent与语音交互演进 - Proactive Agent是模型公司主赛场,需具备意图识别、Always-on和长期记忆三大核心能力,与Continual Learning范式紧密相连 [50] - 它能构建更高维度的护城河,实现真正的个性化,OpenAI等公司已在此方向布局 [50][51] - Voice Agent过去12个月飞速发展,2025年底可能是市场结构性拐点,技术架构正从三段式转向端到端的Real-time Speech-to-Speech [53] - ElevenLabs凭借早期建立的数据规模与质量优势构建了护城河,并具备类似操作系统层级的防御性 [55] - Voice Agent的成功逻辑偏向垂直领域,需深度嵌入行业数据闭环与核心工作流 [56] - Infra层公司如Retell和Vapi的本质是将电话线托管成一套“语音操作系统”,Retell的ARR已接近4000万美元 [57][58] 市场竞争与用户洞察 - Gemini 3发布后,ChatGPT首次因模型竞争出现流量和用户下跌,但ChatGPT在用户粘性上保持优势 [62] - 流量争夺:Gemini的MAU已达ChatGPT的20%-25%,但Gemini的DAU/MAU仅约10%,远低于ChatGPT的约25% [63] - 地域差异:ChatGPT守住美、英、德等高价值市场;Gemini采取“农村包围城市”策略,在印度、巴西等新兴市场渗透率高,MAU达ChatGPT的1/3以上 [63][64] - 用户行为:ChatGPT正确立“Personal Assistant”心智,非生产力类查询比例上升,移动端活跃度高;Gemini更多被视为生产力工具 [66] - 入口之争:AI Chatbot已成为重要信息检索入口,Google Search与ChatGPT的流量比例已从95:5演变为85:15 [68] 投资视角与市场叙事 - AI Beta仍是科技创新主旋律,市场叙事已从“AI Bubble”转向“AI War”,后者即是对前者的否定 [69] - 当前“泡沫”本质是OpenAI承诺的泡沫,二级市场估值并未出现明显泡沫 [70][71] - 投资需坚守AI Beta并对新物种保持敏感,新物种涌现将带来更大Alpha机会 [72] - 硬件层面,GPU与TPU阵营势均力敌,应同时持有但可向暂时落后方倾斜 [73][74] - NVIDIA在产品路线图和商业模式上具备优势,是更纯粹的“军火商” [74] - 智能应用层,OpenAI已重新将资源集中到Pre-training,并在Agent布局上更充分 [75][76] - 若Gemini优势扩大,可能推动NVIDIA与OpenAI形成更紧密的“反Google同盟” [77][79] 潜在投资机会 - 投资应聚焦于技术成长最陡峭的领域:全球领先的模型公司、其所需的算力与硅基基础设施、以及技术溢出的红利 [32] - Proactive Agent处于早期萌芽阶段,2026年可能接近真正落地时刻 [79] - 应用新分发形态:Intuit作为OpenAI APP SDK的First Mover,已投入1亿美元,可能成为标杆案例 [81] - Agentic Commerce:Shopify作为电商后台基础设施,无论哪家模型胜出都可能受益 [81] - 企业定制化:Snowflake & MongoDB等Data Infra公司受益于企业大规模自建Agent的趋势 [82] - 新码农:JFrog可能受益于Coding Agent导致的代码构建物数量增长 [82] - 新客服:Twilio作为按量计价的通信基础设施,可能受益于Voice Agent使用量爆发 [83]
OpenAI 关键九问:2026 AI 战局升级后迎来叙事反转
海外独角兽· 2026-01-30 18:53
文章核心观点 文章认为,尽管OpenAI当前面临Google Gemini和Anthropic的激烈竞争,处于叙事最差的时期,但公司仍有望在2026年实现叙事反转,并从消费者市场、企业业务、新范式探索及商业化等多个维度展现出强大的增长潜力和竞争优势 [2] 竞争格局与OpenAI现状 - **竞争加剧**:2026年AI行业竞争格局不仅未稳定,反而更趋激烈,OpenAI自ChatGPT发布以来首次面临逆风局 [2] - **Google的影响**:Google凭借Gemini 3实现“王者归来”,在叙事上对OpenAI冲击最大,导致其跌落SOTA位置,并反映在资本市场:Google股价自Gemini 3发布后上涨20%,而软银(作为OpenAI的二级市场映射)下跌17% [3] - **模型策略差异**:Gemini 3在预训练(pre-training)上表现更好,而OpenAI在后期训练(post-training)和强化学习(RL)上更领先,但OpenAI自GPT-4o后未发布新一代预训练模型是其自身失误 [3] - **流量恢复与优势**:ChatGPT流量已从低点恢复,2025年1月网页端流量回到节前水平,移动端超过节前水平,且ChatGPT在移动端和用户留存上显著优于Gemini:移动端DAU/MAU接近45%,而Gemini不到20% [4][5][10] - **用户地域分布**:Gemini在发展中地区份额更高,主要通过免费和安卓渠道获取中低价值用户;ChatGPT在发达地区更有优势,并在印度市场于2023年下半年实现对Gemini份额的反超 [12][14] 市场机遇与增长潜力 - **市场空间巨大**:未来聊天(Chat)与搜索(Search)将强融合,Chat的查询总量和使用频次将超过搜索引擎,用户量至少与搜索相当,即50亿月活用户(MAU) [18] - **ChatGPT增长预测**:目前ChatGPT约12亿MAU,Gemini约4亿MAU,合计离50亿目标尚有距离,即使两者市占率从4:1变为1:1,ChatGPT仍有翻倍空间 [18] - **收入潜力测算**: - 若ChatGPT做到40亿MAU,假设10%为高价值付费用户(每人每年花费200美元),可产生800亿美元年经常性收入(ARR) [18] - 剩余90%免费或低价用户通过广告、电商等变现,假设单用户年收入(ARPU)为25美元(约为Meta全球ARPU的一半),可带来900亿美元收入 [18] - 健康管理是增量市场,每周有2.3亿用户在ChatGPT询问健康问题,美国健康保健市场约6.5万亿美元,若切分1%即有6500亿美元营收 [19] - 其他高价值场景(如编程、药物发现、教育等)可能带来远超每人每年200美元的ARPU [19] - **乐观收入展望**:乐观估计ChatGPT可见的ARR可达2000亿美元,且仍有巨大上行空间;保守估计(与Gemini 1:1,达25亿MAU)则在此基础上打六折 [19] 商业模式与商业化进展 - **2B业务被低估**:2025年OpenAI的ARR为200亿美元(收入130亿美元),其中API约占30%,即60亿美元;同期Anthropic的ARR约90亿美元(收入约45亿美元),其85%收入与编程和2B相关 [23] - **2B业务体量对比**:OpenAI的2B业务体量至少与Anthropic相当甚至更大,其API和ChatGPT企业版两部分收入合计占总收入40%(约52亿美元),已超过Anthropic整体收入(45亿美元) [23][27] - **广告业务潜力**:OpenAI付费订阅率约5%,消费者场景最有效的变现方式是广告,当前广告按CPM定价约60美元/千次展示,接近NFL等顶级视频广告水平 [37] - **电商闭环想象空间**:ChatGPT在电商闭环上进展迅速,其“即时结账”(Instant Checkout)已与Shopify整合,抽成率(take rate)为4%,超过100万Shopify商户接入,Etsy已上线,沃尔玛等大型零售商也在跟进 [39] - **电商市场更大**:全球电商GMV超过6万亿美元,4%的抽成率意味着每1000亿美元GMV可带来40亿美元收入,其天花板高于广告(Google广告收入约3000亿美元) [40] - **商业化目标**:OpenAI目标到2027年底,从非付费用户产生110亿美元年收入,主要依靠广告和电商 [40] 技术发展与未来范式 - **下一个胜负手**:OpenAI在2026年的三个关键词是记忆(Memory)、主动(Proactive)和个性化(Personalization),这些是产品也是研究问题,公司需在记忆和主动智能体(Proactive Agent)上寻求突破以应对Google在工程基础设施和算力上的优势 [30] - **记忆与主动智能体现状**:当前记忆方案更偏工程化,模型尚不能判断信息重要性;主动功能仅初步推出“Pulse”,未来目标是让其能代替用户采取行动(take action) [30][31] - **下一代交互愿景**:下一代ChatGPT不应是一问一答,而应在后台持续思考,更了解用户,主动给出更好答复 [31] - **新范式竞争**:持续学习(Continual Learning)被公认为下一个范式,OpenAI、Google以及Neolabs(如Thinking Machines Lab, SSI, Core Automation等)各有约三分之一概率率先实现突破 [33][34] - **OpenAI的范式探索历史**:过去两次范式变化(模型规模缩放和推理模型)均由OpenAI率先实现,公司仍具备前沿探索能力 [33] 行业趋势与战略方向 - **2026年战局升级**:竞争焦点从技术实力转向战略资源投入方向,OpenAI与Google将在消费者和广告端正面竞争,Anthropic则凭借战略定力在高价值任务(如编程、智能体、Excel处理)上获得先发优势 [15] - **搜索与聊天融合**:用户行为从搜索转向聊天,如同从图文转向短视频,是十年一度的底层习惯迁移,将对前者形成降维打击 [20] - **类比短视频竞争**:AI聊天增加了用户查询数量和token使用量,提高了产品对用户意图的理解;Google在ChatGPT发布三年后将AI模式置于搜索入口,与Meta在TikTok发布三年后推出Reels的反应时间相似 [20] - **Google面临的挑战**:传统搜索排名第一网页的点击率(CTR)为40%,而AI模式的CTR少于5%,Google在用户行为和广告模式变化中受到的威胁更大 [21] - **当前规模对比**:Google搜索日查询量约140亿次,ChatGPT日提示词(prompt)量约25亿次(截至2025年7月),已达Google查询量的18% [21]