Voice Agent
搜索文档
2026,是个“AI多模态大年”!普通人如何看懂十万亿美金的变局?
混沌学园· 2026-02-02 20:47
文章核心观点 全球AI产业格局正从“暴力美学”的预训练范式向“持续学习”的新范式演进 头部模型公司OpenAI、Google、Anthropic呈现“交替领先”与战略分化态势 投资应聚焦技术成长最陡峭的领域 包括领先模型公司、算力基础设施及技术溢出红利 并关注多模态、机器人、主动智能体等新物种的萌芽 [7][15][36][38][39] AI Labs竞争格局与战略分化 - **头部格局固化**:全球AI模型第一梯队由OpenAI(GPT)、Anthropic(Claude)和Google(Gemini)构成 这三家基础模型公司拿走了约90%的AI总收入 [7] - **交替领先成为常态**:在Tier 1阵营内 AI labs之间呈现“交替领先”状态 模型能力上个位数百分点的领先在商业回报上会被放大为数倍差距 [7][8] - **战略路线显著分化**: - **OpenAI坚定押注To C**:ChatGPT在消费端用户体验断档式领先 日活跃用户接近4.8-5亿 是Gemini(约9000万DAU)的5.6倍 正朝着“下一个Google”发展 [9] - **Anthropic专注To B与专业领域**:放弃通用To C市场 Claude Opus4.5在软件开发和Agent领域仍是SOTA 在处理长任务时更可靠、效果更好且更节省Token [9] - **Google优先发展多模态**:Gemini 3的多模态理解能力处于断档式领先地位 但在文本和编码能力上更多是追平OpenAI和Anthropic之前的水平 [10] 算力基础设施阵营对抗 - **GPU与TPU两大阵营对垒**:行业正形成NVIDIA(GPU)与Google(TPU)两大算力阵营 这将是贯穿一二级科技投资的主线 [11] - **生态模式对比**:Google凭借“模型+TPU+云+产品”构建了端到端、自成一体的生态 类似LLM时代的Apple 而NVIDIA则像Android 支撑起庞大的生态联盟 [11] - **性能与成本权衡**:GPU在综合性能上仍优于TPU 但受制于台积电产能且成本昂贵 Google通过TPU展现出更强的成本控制潜力 [11] 下一代技术范式:持续学习 - **范式转移的核心**:持续学习被认为是继预训练之后下一个极其重要的技术范式 旨在解决预训练面临的边际效应递减、数据枯竭等挑战 例如Gemini 3使用的50T数据量已接近极限 [17][18] - **核心目标**:从“存储知识”转向“样本效率” 让模型从“静态冻结的智能”转向能在推理和交互中实时学习的“鲜活智能” 实现真正的数据飞轮 [18][21] - **发展现状与挑战**:持续学习是长上下文、模型遗忘机制及数据分布漂移等5-10个学术难题的集合 难以短期内突破 但学界业界乐观预计2026年能看到明确信号 并希望在未来1-3年内逐步解决 [21] - **早期信号**:Google Research的Nested Learning展示了初步的In-weights Learning能力 Cursor通过捕捉用户对代码的接受或拒绝行为 能在小时级周期内更新模型 是Online RL的典型雏形 [22] 多模态与机器人发展 - **2026年为多模态大年**:多模态技术路径正向“Omni-in, Omni-out”收敛 视觉、音频、文本被统一Token化 纳入同一个自回归序列建模 模型开始具备跨模态“通感”能力 [46] - **机器人是多模态与世界模型的重要接口**:机器人可利用“合成世界”进行训练 解决现实数据不足的问题 Agent具备了“看懂UI、读懂屏幕”的能力 [46][47] - **机器人领域GPT时刻尚需3-5年**:与LLM不同 机器人领域“Day1就是分化的” 因缺乏统一预训练基础和硬件标准 目前正处于“百花齐放”阶段 [53] - **数据是机器人领域的核心赌注**:各家公司采用截然不同的数据方案 例如Generalist收集了27万小时真实机器人交互数据 Sunday通过“手套+众包”模式收集了1000万条人类动作数据 [55][56] - **强化学习作用关键**:在机器人领域 RL的作用比在LLM中更为显著 例如Physical Intelligence的RECAP策略能让机器人在叠衣服、冲咖啡等长时程任务中实现连续10小时稳定执行 [58] 智能体演进与商业模式 - **主动智能体成为主赛场**:下一代智能体将从被动Chatbot转向能主动提供服务的Proactive Agent 这要求模型具备意图识别、始终在线和长期记忆三大核心能力 并与持续学习范式紧密相连 [60][62] - **语音智能体成为新OS入口**:行业正从传统的“STT→LLM→TTS”三段式架构 转向Real-time Speech-to-Speech的端到端解决方案 大幅减少反应时间 ElevenLabs凭借早期数据规模与质量优势构建了护城河 [66][68] - **LLM推理价格快速通缩**:以MMLU为质量指标衡量 推理价格每年下降10倍 自GPT-3发布三年来 同等能力模型推理成本已下降约1000倍 但Agent复杂工作流导致的Token用量激增抵消了单价下降红利 [74][75] - **商业模式面临效率质疑**:市场对AI泡沫的担忧部分源于Sam Altman提出的1.4万亿美元财务承诺 分析指出其中约三分之二包含“有条件解锁”条款 相对容易撤销或展期 [26] - **收入想象力在于新增市场**:在可见的商业模式下 OpenAI未来收入规模预计在2000-3000亿美元之间 其真正想象力在于创造“看不清”的新增净市场 例如AI作为新劳动力释放价值甚至创造增量GDP [28][32] 投资策略与市场视角 - **投资核心策略**:只投资技术成长最陡峭的地方 具体包括三条主线:投资全球最领先的模型公司、投资最领先模型所需的算力与硅基基础设施、投资最领先模型技术溢出的红利 [36][38] - **构建AGI投资组合**:因技术变化快且各家交替领先 最佳策略是构建一个AGI指数组合 理想的配置包括OpenAI、ByteDance、Google、Anthropic、Nvidia以及台积电 [39] - **二级市场聚焦AI Beta**:AI Beta(行业红利)仍是科技创新主旋律 市场叙事已从“AI泡沫”转向“AI战争” 意味着看到堪比大航海时代的发展机遇 [89][90] - **硬件层投资逻辑**:在GPU与TPU阵营对抗中 只要需求远大于供给 两者都具备投资价值 策略上可向暂时落后的一方稍作倾斜 NVIDIA下一代Rubin芯片设计激进 功耗从1800W拉高到2300W HBM带宽从13TB/s提升到20TB/s [96][98][99] - **关注智能体潜在赢家**:在Proactive Agent萌芽阶段 潜在受益公司包括与OpenAI深度合作的Intuit(已投资1亿美元)、作为电商基础设施的Shopify、数据基础设施公司Snowflake & MongoDB 以及通信API公司Twilio [108][109][110][113]