GPT-5.4
搜索文档
人工智能行业专题(16):Agent驱动全球模型厂MaaS收入爆发,国产模型各有优势
国信证券· 2026-04-17 22:57
报告行业投资评级 - 投资评级:优于大市(维持)[1] 报告核心观点 - 自2026年以来,全球模型进入Agent智能体交互时代,驱动Tokens调用量爆发,中国AI大模型调用量已连续五周超越美国,国产模型正在崛起[2] - 国产模型的核心优势在于极致的性价比,通过工程化、数据能力优化和轻量化架构创新来弥补算力限制,并以接近成本价的定价策略换取市场份额[2] - 大模型的商业模式与传统互联网不同,用户网络效应和飞轮效应较弱,模型智力水平是驱动用户和商业化收入增长的最重要因素[2] - 行业正从通用榜单评估转向以业务价值为核心的私有化、场景化自定义评测体系,模型厂商开始构建自己的底层评测基准[26] - 全球头部模型已进入自训练、自进化阶段,能够通过自我优化的闭环系统持续提升能力[27][29] - AI Agent时代将改变用户获取服务的方式,从“人找App”转向“AI自主发现/调用技能”,服务入口和分发模式去中心化[34] 行业发展趋势 - **大模型进入Agent时代**:2026年大模型正式从对话走向智能体交互,Agent通过包装大模型并加上记忆、规划和工具使用能力,能够自主完成任务[8][10] - **Token需求非线性增长**:任务复杂度提升(从对话到智能体、视频)推动Token消耗呈指数级增长。例如,单Agent任务Token消耗是普通对话的4倍,多Agent协作可达15倍;生成15秒视频消耗30.9万Token,是普通对话的21倍[11][12] - **全球企业AI采用率快速提升**:自2025年起,美国企业AI采用量总体达48%,其中OpenAI占34%,Anthropic占24%[21] - **中国市场调用量激增**:截至2026年3月,中国国内日均Token调用量已突破140万亿,增长超1400倍[21] - **Agent关键能力构成**:包括记忆能力(取决于架构设计与工程)、规划能力(取决于架构与数据)、工具调用能力(短期取决于工程化,长期取决于数据精度)[23] - **技术架构收敛**:在Transformer/MoE架构未发生颠覆性变革的背景下,架构红利边际递减,工程化能力与高质量数据成为提升能力的关键[24] - **模型自进化趋势**:全球头部模型通过自训练实现自我进化,例如MiniMax的M2.7模型可执行超过100轮“分析-改进-验证”循环,实现约30%的效果提升[29] - **入口形态变迁**:AI时代从“对话助手”向“执行员工”范式跃迁,OpenClaw等智能体操作系统的出现标志着能力供给和分发模式去中心化[34] - **商业模式拓展**:大模型基座通过出售算力(Token)和调用许可收费,同时开始探索广告模式,例如OpenAI计划到2030年广告收入达到1000亿美元[36][37] - **工程范式演进**:从提示词工程(Prompt Engineering)、上下文工程(Context Engineering)演进到驾驭工程(Harness Engineering),以管控Agent在复杂工作流中的自主运行[38][39][40] 主要模型公司对比与总结 - **OpenAI**:最新模型GPT-5.4,激活参数2000亿+,上下文窗口1.05M tokens,API价格(输入/输出)为$2.50/$15.00每百万token,2026年3月年度经常性收入(ARR)达250亿美元,通过2C场景打造核心壁垒,发力企业与多模态[4] - **Anthropic**:最新模型Claude 4.5,激活参数1000亿+,上下文窗口1M tokens,API价格为$3.00/$15.00,2026年4月ARR达300亿美元,超越OpenAI,坚持2B路线和Coding场景[4][10] - **DeepSeek**:最新模型DeepSeek V3.2,总参数6710亿,激活参数370亿,上下文窗口128K,API价格$0.27/$0.42,性价比突出,组织架构扁平,算法架构积极创新(如DeepSeekMoE、MLA注意力技术),开源为国产模型提供基石,商业化压力小[2][4][52] - **智谱AI**:最新模型GLM-5,总参数7440亿,激活参数400亿,上下文窗口200K,API价格$1.00/$3.20,2026年3月API平台ARR达2.5亿美元,学术背景强、全栈自研、幻觉率低(GLM-4-9B幻觉率1.3%),拥抱国产算力[4][90] - **月之暗面(Kimi)**:最新模型Kimi-K2.5,总参数1万亿,激活参数328.6亿,上下文窗口262K,API价格$0.6/$3.0,2026年2月ARR达1亿美元,长上下文能力是核心优势,拥有智能体集群(Agent Swarm)技术[4][114][115] - **MiniMax**:最新模型M2.7,总参数2300亿,激活参数100亿,上下文窗口205K,API价格$0.3/$1.20,2026年2月ARR达1.5亿美元,质价比突出,积极拥抱全球模型变化,是亚洲首家实现MoE基础模型架构商业化的公司[4][67][70] - **阿里巴巴**:最新模型Qwen3.5,总参数3970亿,激活参数170亿,上下文窗口可扩展至1M,API价格$0.6/$3.6,2026年预计AI云收入约500亿元(包括MaaS),开源全家桶,架构创新驱动,在国内首先实现原生多模态[4] - **腾讯控股**:最新模型Tencent HY2.0,总参数4060亿,激活参数320亿,上下文窗口256K,API价格¥4.505/¥11.13,在3D生成、图片、世界建模多模态方面有优势,组织调整为AI原生驱动[4][7] - **字节跳动**:最新模型豆包2.0,上下文窗口256K,API价格(Pro版)¥3.20/¥16.0,2026年预计MaaS收入100亿+,多模态、视觉理解有优势,通过深度定制工程栈和性价比抢占份额[4] - **小米**:最新模型MiMo V2Pro,总参数1万亿,激活参数420亿,上下文窗口1M,API价格(小于256K)$1/$3,模型与终端产品融合[4] 国产模型核心优势与挑战 - **性价比优势显著**:国产模型输入输出价格仅为Claude/GPT的1/5至1/30,最具性价比的为MiniMax和DeepSeek[50] - **技术降本路径**: - **架构轻量化优化**:如DeepSeek独创MoE架构使总参数仅激活5.5%,MLA技术将KV Cache显存占用降至传统架构的1/10[52] - **长上下文链路优化**:Kimi、MiniMax等厂商创始初期即锚定长上下文路线,进行全链路成本优化[52] - **算力平替与调度**:擅长利用碎片化算力资源(如国产芯片)通过集群调度发挥最大效能[52] - **AI基础设施优势**:国内电、人工成本更低,算力中心建设周期短[52] - **主要挑战**: - **推理深度较弱**:在算力约束下,多采用思维链(CoT)而非思维树(ToT),推理深度和强度弱于海外[55] - **数据集质量与生态**:标注质量参差不齐,缺少“需求-推理-调用-结果-反馈”全链路闭环数据;开源生态较弱,数据更新迭代滞后[55][56] 重点公司分析 MiniMax - **全球化布局与收入**:从创业初期即着眼全球市场,海外收入占比73%(2025年上半年),新加坡和美国是主要海外市场[2][72][74] - **技术前瞻性**:管理层敢于实验新技术,如早期布局MoE架构、线性注意力(Linear Attention)并率先规模化落地[64][67] - **商业化与增长**:开放平台收入增长迅猛,预计2028年占比达66%,2026年2月ARR超过1.5亿美元,Token调用量增长超6倍[70][82][84] - **迭代方向**:2026年聚焦编程、办公、多模态三大核心赛道,深耕生产力场景[75][81] 智谱AI - **技术特色与定位**:脱胎于清华实验室,坚持AGI长期主义,追求技术稳定性与可控性,是国内开源大模型核心标杆[85][86] - **国产算力适配**:全面推进算力供应链国产替代,GLM-5原生适配七大主流国产芯片平台,计划2026年中发布与国产芯片协同设计的ASIC成果[98] - **商业模式与增长**:云端MaaS(模型即服务)成为核心增长引擎,2026年3月API平台ARR突破2.5亿美元,预计年底突破10亿美元,并对Coding Plan套餐提价30%[100][103][110] - **市场地位**:Artificial Analysis榜单中GLM-5.1位居全球第六、国内模型第一,发布行业首个OpenClaw专属模型GLM-5-Turbo及场景化评测基准ZClawBench[93] 月之暗面(Kimi) - **技术信仰与边界**:创始源于对AGI的好奇,核心技术信仰是长上下文能力,业务专注生产力场景,不做生活娱乐和多模态生成[113] - **核心能力壁垒**:长上下文原生先发优势,以及Agent Swarm智能体集群技术,可调度最多100个子智能体并行执行[114][115] - **商业化进展**:B端和C端双轮驱动,2026年1月底以来约20天累计收入已超2025年全年,ARR突破1亿美元,海外收入贡献已超过国内[116][120] - **迭代方向**:聚焦Token效率、长上下文和智能体集群三个维度的共振,优化编程、办公自动化、深度科研场景[121][124] DeepSeek - **发展理念**:背靠幻方量化,商业化压力小,早期重视前沿基础研究和开源,致力于成为基础模型生态的提供者[2][126] - **架构创新**:是国产大模型底层技术突破的先行者,其DeepSeekMoE架构和MLA多头潜在注意力技术大幅提升了模型效率[52][131] - **近期重点**:发力原生多模态融合与国产算力深度适配,预计2026年4月发布的DeepSeek V4将优先支持国产芯片生态[130]
Anthropic又发新模型了,但手里藏着更强的“杀招”
第一财经· 2026-04-17 14:53
2026.04. 17 本文字数:2264,阅读时长大约4分钟 作者 | 第一财经 刘晓洁 "这一次,用户可以将最艰难的工作交给新模型,同时不用太多监督。"当地时间4月16日,风头正盛的AI独角兽Anthropic又宣布更新了,这次是旗舰新 模型Claude Opus 4.7,距离上一代发布仅间隔两个多月。 Anthropic在推文中表示,新模型能以更严谨的态度处理长时间运行的任务,更精确地遵循指令,并在报告前验证自己的输出。看起来,"靠谱"是这次模 型升级的关键。 值得一提的是,Opus 4.7并非Anthropic手中的最强底牌。从基准测试来看,虽然新模型Opus 4.7在编程等方面已经超过市面上其他竞争对手,但都比 不过Claude Mythos Preview。 4月7日,Anthropic开放内测的 Claude Mythos Preview模型,但仅有少数科技公司、金融机构等有限群体能使用,Anthropic认为目前这一模型"过于 强大",在代码与漏洞扫描上展现出"破坏性"的跨代提升,"公开发布是不负责任的"。 看向基准测试数据,在编程能力方面,Opus 4.7在SWE-bench Verifie ...
实测Claude Opus 4.7,好好的模型也开始不说人话了。
数字生命卡兹克· 2026-04-17 05:32
文章核心观点 Claude Opus 4.7模型发布后,在编程、视觉等多方面能力显著提升,但同时也出现了“不说人话”的倾向,引发了对于AI模型过度追求编程等可量化能力而牺牲语言审美与人文价值的担忧 [18][24][65][101][107] Claude Opus 4.7发布与市场反响 - 新模型Claude Opus 4.7于近期发布,在作者监控的数十个精选信源中,有10个信源同时报道,热度远超一般热点(通常3-6个信源)[2][3][4] - 模型已全渠道上线,包括移动端和Claude Code开发框架,并维持了1M(一百万)的上下文长度 [7][8][10][12] 定价、成本与商业模式 - 模型API定价与4.6版本保持一致,为输入每百万token 5美元,输出每百万token 25美元 [19] - 尽管单价未变,但相同任务下,4.7模型的token消耗可能比4.6版本多出最多35%,导致实际使用成本上升 [28][29][31] - 公司解释称,更高的单次token消耗可被模型准确率提升、减少修改轮次所抵消,但此逻辑更适用于其擅长的高难度复杂任务 [32][33] 性能基准评测表现 - 在多项基准测试中,Claude Opus 4.7相比4.6版本有显著提升,例如在Agentic coding (SWE-bench Verified)中从80.8%提升至87.6% [21] - 视觉能力提升巨大,在XBOW的视觉测试中,成功率从4.6版本的54.5%跃升至98.5% [36][38] - 多模态能力增强,支持处理最高2576像素长边的图片,约3.75兆像素,是之前Claude模型处理能力的三倍多 [40][41] - 官方数据显示,Claude Opus 4.6在多数性能上未跑赢GPT-5.4,这是首次承认在编程上不如对手 [21] 关键能力更新与用户体验 1. **视觉与多模态能力** - 视觉识别精度大幅提高,能准确识别复杂界面截图中的文字和细节,对知识工作者是重大加成 [44][48][49] - 高分辨率图像处理能力可应用于法律合同审查、金融图表解析、竞品界面分析等专业场景 [50][51][52][53] 2. **编程与开发体验** - 编程能力(Agentic coding)在多个基准测试中领先于GPT-5.4和Gemini 3.1 Pro [21] - 在开发微型项目(如公司招聘网站)时,审美、对需求的理解以及动效实现比4.6版本更好,开发体验更优 [56][62] 3. **创作与语言风格** - 出现明显的“不说人话”倾向,生成文本带有类似GPT-5.4的“伪人”味道和行业黑话,文字品味下降,引发了核心用户群体的强烈不满 [65][68][71][77][79] - 此前Claude模型在创作和用户体验设计上被认为远优于GPT-5.4,尤其在影视编剧等创意领域备受青睐 [22] 新增功能与行业应用 - 在Claude Code中新增了`/ultrareview`命令,用于深度代码审查,Pro和Max用户有3次免费试用额度 [86][87] - 推出了“网络安全验证计划”,为合法的安全研究、渗透测试等场景提供申请使用受限能力的正式通道,这被认为是进入产业应用、具有长期价值的分级授权设计 [87][89][91][92][94] - 在模型“努力程度”档位中,于high和max之间新增了xhigh档,并设为默认档位,以平衡性能与消耗 [82][83][85] 行业观察与反思 - 行业普遍存在过度追求编程等可量化Benchmark能力的现象,导致模型在语言审美、人文关怀等“无法量化”的能力上出现系统性退步 [100][102][105][106][108] - 尽管编程能力对开发者至关重要,但语言作为人类智力活动的底座,其丰富性、创造性和情感价值不应被牺牲 [103][104] - 模型能力的差异化依然存在,Claude在创作和用户体验设计上具有优势,而GPT-5.4则在解决具体产品BUG等方面表现更强 [22][23]
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
量子位· 2026-04-13 13:22
文章核心观点 - 市场猜测Anthropic最新发布的Claude Mythos模型可能采用了字节跳动Seed团队提出的循环语言模型架构,特别是在图搜索等任务上表现出的异常优势,暗示其可能并非单纯依赖规模扩展,而是存在架构创新 [1][4][12] Mythos模型在图搜索任务上的异常表现 - 在GraphWalks BFS 256K-1M测试中,Claude Mythos得分80.0%,远超Claude Opus 4.6的38.7%和GPT-5.4的21.4%,领先优势接近4倍 [9][10][30] - 这种在特定任务上出现的巨大分差,表明其进步很可能源于架构创新,而非通用的规模扩展法则 [11][12] 循环语言模型的架构特点与优势 - 字节跳动Seed团队提出的循环语言模型能在模型内部潜空间进行迭代计算,不额外输出更多token [16][19] - 该架构允许模型根据问题难度自动调节思考步数,简单题少想几步,难题多想几步 [22] - 在预训练阶段,模型学习的是“如何在潜空间思考”,而不仅仅是“预测下一个token” [22] - 实验数据显示,1.4B参数的Ouro循环模型性能对标约4B参数的传统模型,2.8B的Ouro模型性能相当于8B–12B的传统模型,实现了小模型碾压大模型的效果 [21] 支持Mythos采用循环架构的线索 - **线索一:图搜索任务优势**:Mythos在广度优先图搜索测试中表现异常突出,得分是GPT-5.4的4倍,也比上一代Opus有大幅提升 [28][29][30] - **线索二:反常的token使用与速度**:Anthropic报告称Mythos每个任务使用的token数量是Opus 4.6的1/5,但生成速度反而更慢,这与标准Transformer的预期相悖,却符合循环模型在潜空间进行大量计算的特性 [30][31][32] - **线索三:网络安全能力突出**:Mythos在CyberGym测试中得分83.1%,领先Opus 4.6近17个百分点,并能发现大量零日漏洞 [34][35],漏洞发现的本质是对控制流图进行遍历,这同样是循环架构的强项 [36][37] 架构创新与规模扩展的差异 - 规模扩展法则通常带来相对均匀的能力改善,而架构创新则会在与其归纳偏置匹配的任务上创造出异常尖峰 [39] - 循环Transformer的归纳偏置是迭代图算法,而Mythos表现出的异常尖峰恰好出现在图遍历任务上,这进一步支持了其可能采用循环架构的猜测 [40]
OpenClaw大考!上海AI Lab InternLM团队WildClawBench 60题,把「龙虾」AI打回原形
机器之心· 2026-04-11 11:25
WildClawBench评测基准的推出 - 上海人工智能实验室InternLM团队推出了一个名为WildClawBench的全新AI Agent评测基准,旨在填补当前评测体系的空白[6] - 该基准不再关注碎片化的单次函数调用正确率,而是通过模拟真实、复杂的多模态多步骤任务,对AI的端到端闭环交付能力进行实战检验[5][6] - 基准将AI Agent置于一个名为OpenClaw的真实助手环境中,该环境配备完整的工具集,如浏览器、终端、文件系统、日历,以模拟真实用户场景[9] 评测基准的设计与内容 - 基准包含60道手工原创设计的任务,覆盖中英双语,分布在6个不同类别中[9] - 每项任务在独立的Docker容器中运行,评分用的标准答案和脚本在执行结束后才注入,从根本上杜绝了数据泄露,确保评测结果的真实性[9][10] - 任务类别包括:生产力流程(10题)、代码智能(12题)、社交互动(6题)、搜索检索(11题)、创意合成(11题)和安全对齐(10题)[11][17][18][19][22][25] - 任务设计高度复杂且贴近真实工作,例如要求AI逐篇阅读并分析arXiv论文的详细内容、在没有文档的情况下理解代码仓库并运行推理、处理多轮社交沟通、交叉验证矛盾信息、根据视频制作宣传材料以及识别隐藏的安全风险等[12][13][17][18][19][22][25] 主要模型评测结果 - 截至2026年4月1日,该基准已评测了14个前沿模型,结果显示整体表现天花板较低,排名第一的Claude Opus 4.6模型总体得分仅为51.6%[3][27][28] - 在成本效率方面差异显著,Claude Opus 4.6单次运行平均成本超过80美元,而得分50.3%的GPT-5.4成本约为20美元,智谱AI的GLM 5模型成本仅为11.39美元[28][29] - 国产模型表现突出,在14个参评模型中有9个来自中国团队,智谱AI的GLM 5以42.6%的得分位列总榜第三,是唯一进入前三的国产模型,其成本不到Claude Opus 4.6的七分之一[29] - 小米的MiMo V2 Pro模型以40.2%的得分排名第五,超过了Google DeepMind的Gemini 3.1 Pro模型,显示出国产模型在AI Agent端到端能力上的快速追赶[29] 基准的社区与开源价值 - 该基准设有一个“个人OpenClaw排行榜”,允许用户提交自己定制化训练的AI助手(被称为“龙虾”)进行评测,从而帮助社区理解哪些技能组合、人格设定和记忆策略能有效提升任务完成率[32][33][34] - WildClawBench项目采用MIT开源协议,全部60道任务的定义、评分代码、Docker镜像和数据集均已公开,并提供了任务模板,鼓励社区按照统一格式贡献新任务[15][35][36][37] - 该基准为衡量AI Agent在真实复杂任务中的能力提供了一把“刻度清晰的尺子”,当前最强模型的得分仍不足60%,表明行业距离开发出真正可靠的AI助手仍有距离[38]
藏师傅开发的 Codepilot 保姆级入门攻略
歸藏的AI工具箱· 2026-04-09 19:23
产品概述 - Codepilot是一款由开发者“藏师傅”自2024年1月起通过“Vibe Coding”方式开发的全平台通用开源AI智能体客户端,基于Electron和Next.js构建[3] - 截至发稿,该项目在GitHub上已迭代数百个版本,获得5.1k个Star,拥有540个Forks和16个Watchers[4][6] - 产品定位为多模型AI智能体桌面客户端,可连接任何AI服务提供商,并通过MCP和技能进行功能扩展,支持从手机进行控制[6] 核心功能与特色 - **多模型与多服务商支持**:支持通过授权登录或API Key连接Claude、OpenAI及几乎所有国产模型的Codeplan,包括智谱、MiniMax、Kimi、MIMO、火山方舟、阿里云百炼等[5][21] - **技能与MCP生态**:支持安装和使用Skills(技能)及MCP,内置技能市场(Skills.sh)供用户搜索和安装,例如用于操作飞书多维表格的`lark-base`技能[49][51][52] - **本地模型集成**:支持连接Ollama以运行本地AI模型,用户安装Ollama及所需模型后,可在Codepilot中配置使用[43] - **设计Agent与素材库**:内置设计Agent,可调用Nano Banana生成图片,支持连续编辑和批量生成,所有生成的图片会自动存入素材库便于管理[5][61][66] - **CLI工具集成**:内置CLI工具商店,推荐并帮助用户安装AI友好的命令行工具,如ffmpeg、飞书CLI等[5][57][58] - **远程连接能力**:支持通过飞书、微信、QQ、Discord等即时通讯工具远程连接和控制Codepilot[5][72] - **助理与长期记忆**:提供助理模式,可为助理设置项目文件夹(如Obsidian笔记库),使其具备长期记忆和类似“心跳”的主动任务执行与提醒机制[5][78][80] - **生成式UI与看板**:具备生成式UI能力,可根据用户指令实时生成解释概念的可视化图表或流程图,并可将生成的UI组件Pin到交互式看板上,且数据支持实时更新[5][90][92] 安装与配置 - **跨平台支持**:提供适用于Mac OS、Windows和Linux系统的安装包,用户需在项目GitHub主页的Releases部分下载对应版本[7] - **服务商配置**:作为开源产品,需用户自行配置AI模型的API,配置入口位于设置的服务商页面[13][14] - **Claude Code集成**:支持读取已安装的Claude Code状态及环境变量,可直接使用Claude Pro或Max会员的额度,并可导入Claude Code中的聊天记录[31][34][36] 使用模式 - **项目制聊天**:采用与ClaudeCode类似的项目制,每个聊天会话需关联一个本地文件夹作为项目,AI可查看和操作该项目下的所有文件[45] - **双模式输入**:提供代码模式和计划模式,对于复杂任务建议先开启计划模式[47] - **权限管理**:默认情况下,AI执行文件操作等敏感权限时需要用户授权[47]
Anthropic年化收入首次超越OpenAI
第一财经· 2026-04-07 12:23
公司财务与估值表现 - 公司年化收入超过300亿美元,较2025年底的90亿美元大幅增长[3] - 公司年化收入已超过行业披露的OpenAI的250亿美元[3] - 公司在上一轮融资中的投后估值为3800亿美元,规模从2025年9月的1830亿美元增长了108%[6] - 华尔街机构预估公司在上市前的估值将涨至4000亿美元至5000亿美元[6] - 付费企业贡献超300亿美元年化收入,拉高了公司毛利率和单位经济模型[9] - 市场预测,按照目前的增长斜率,公司极有可能在2026年底成为全球估值最高的AI初创公司[9] 业务增长与客户基础 - Claude需求持续加速[3] - 公司市场定位逐渐从“OpenAI的追赶者”变更为“分庭抗礼的竞对”[6] - 今年2月,公司已有超过500家商业客户每年支出均超过100万美元,如今这一数字已超过1000家,不到两个月就翻了一倍[8] - 公司通过精准切入企业高净值市场获得增长[9] - 公司通过Claude Code保持代码生成市场的优势份额[9] 算力基础设施与合作 - 公司已与谷歌和博通签署新协议,将获得数吉瓦的下一代TPU算力,将于2027年开始投入使用[6] - 此次合作标志着公司对2025年11月承诺的投资500亿美元用于加强美国计算基础设施的重大扩容[6] - 绝大多数新增计算能力将部署在美国[6] - 此次算力合作将深化公司与Google Cloud之间的现有合作,同时进一步巩固与博通之间的合作关系[7] - 公司的算力合作主要通过多元化合作路径展开,包括AWS Trainium、谷歌TPU与英伟达GPU[7] - 这种多平台布局为高度依赖Claude处理关键业务的客户带来了更优的性能与更强的系统稳定性[8] - 在多云多芯弹性算力架构加持下,公司较OpenAI的单一算力平台具备更灵活的算力调配能力,占据了更大规模的企业级优势[8] 产品与市场地位 - Claude是目前唯一一款能够在全球三大云平台——亚马逊云科技、谷歌云以及微软 Azure——同时向客户提供服务的前沿AI模型[8] - 亚马逊仍是公司目前主要的云服务提供商与训练合作伙伴[8] - OpenAI受成本拖累,正通过关停Sora等动作缩减业务、聚焦核心[9] 行业竞争格局 - 未来大模型领域的竞争将聚焦于算力层面的突围[9] - 行业正在关注OpenAI在“万亿级基础设施计划”Stargate与自研AI芯片Titan方面的进展[9] - 如果Stargate与Titan芯片能够在2026年底顺利落地,OpenAI有机会借此重新拉开与公司之间的距离[9] - 反之,巨大的资金压力与单云依赖,将使OpenAI在与公司的竞争中处于劣势[9]
AI 季报 26Q1:OpenClaw、OpenAI 与 Anthropic 的三重对阵、自进化丨晚点播客
晚点LatePost· 2026-04-03 11:24
OpenClaw的崛起与AI Agent生态 - OpenClaw是一个开源的个人AI Agent框架,能在60天内其GitHub星数超过前端库React过去10年的累计,周下载量超过165万次[5][9] - 其成功标志着AI从聊天工具转向实际生产力工具,核心突破在于交互范式:它运行在本地电脑,拥有系统权限并能接入飞书、WhatsApp等日常聊天软件,使AI主动融入用户生活,而非用户主动寻找AI[9][10][11] - OpenClaw的流行在中国尤为显著,原因包括用户习惯聊天优先产品、使用Claude等应用受限、对成本敏感,以及其与高性价比国产模型的结合[12] - 它形成了一个模型厂商的新战场,中国公司反应迅速,如智谱推出了专门面向OpenClaw优化的GLM 5 Turbo模型[14][16] - OpenClaw当前存在成本高、稳定性与安全性三大不足,例如在长任务中可能因上下文压缩而丢失关键安全指令[17] - 业界正通过安全加固版本、无损压缩插件、多Agent协作插件及Skill市场等方式完善其体验[18] 头部AI公司的竞争格局演变 - **竞争焦点转移**:行业竞争焦点从纯模型能力(Benchmark跑分)转向产品与生态建设[6][9][30] - **Anthropic的强势崛起**:从2025年12月到2026年3月初,其年度经常性收入从90亿美元增长至190亿美元,增长约100亿美元,其中约75%收入来自B2B API服务,Claude Code在2026年2月的ARR达到25亿美元,已超过Cursor同期的20亿美元[23][24] - **OpenAI与Anthropic的三重竞争**:竞争体现在公司、产品(Codex vs Claude Code)和最新模型(GPT-5.4 vs Opus 4.6)层面[6][24] - **产品体验差异**:Claude Code在开发者意图理解和交流上更聪明,被比喻为负责规划的“主人”,而Codex在纯写代码能力上强,被比喻为负责执行的“奴隶”[25] - **公司战略对比**:Anthropic极为聚焦于编程和企业用户;OpenAI则优势在于庞大的C端用户基础和资金,但注意力分散,其内部已开始反思并减少支线项目投入,聚焦coding和企业服务[26][27] - **其他竞争者动态**:xAI在2026年Q1经历团队震荡,有联合创始人级别人物离职,追赶其他公司面临困难;Google正将AI深度集成进其办公套件,拥有强大的分发能力[28][29] AI模型与成本趋势 - **模型能力收敛与竞争新维度**:GPT-5.4、Opus 4.6及Gemini 3.1的能力差距正在收敛,Benchmark不再是核心差异点,下一阶段竞争关键在于开发者生态、企业信任感(安全合规)以及推理成本[30] - **编程能力成为通用代理基础**:全行业都在All in编程方向,模型的coding能力是担任个人助理类任务的基础,长上下文(如100万Token)和长程任务处理能力成为标配[30] - **推理成本成为关键**:Agent场景需要频繁调用模型,成本差距巨大,例如使用MiniMax的成本仅为使用Claude的5%,每月费用从约200美元降至15美元[14] - **中国开源模型受认可**:在OpenRouter的Token消耗榜上,中国模型如阶跃、MiniMax、Kimi、智谱等占据前列,性价比是核心优势,Cursor使用Kimi的K2.5模型作为基座也体现了对中国开源模型的认可[14][33][34] - **垂直整合趋势**:单纯做模型的厂商面临被“商品化”风险,趋势是从底层模型到上层应用的垂直整合,需要自有产品作为触手来收集真实的用户“轨迹数据”以指导模型优化[31][32] AI自我进化与前沿研究方向 - **Autoresearch展示自进化潜力**:Andrej Karpathy的autoresearch实验让AI Agent自主优化训练代码,在两天内找到20多个有效改进,将训练时间压缩了约20%[35][36] - **自进化案例密集出现**:包括Google的AlphaEvolved项目用Gemini优化自身内核提升23%性能,GPT-5.3 Codex参与自我调试,以及MiniMax发布的M2.7模型副标题为“自我进化的早期回响”[36] - **持续学习的两种路径**:一是基于文本和记忆机制的“穷人版”持续学习,易受上下文压缩影响;二是更前沿的权重更新技术,如Test Time Training,目前仅在数十亿参数小模型上验证可行[39] - **世界模型创业活跃**:方向包括3D空间建模、JEPA架构、视频信息与机器人学结合、环境模拟与交互式视频模型等,应用领域聚焦交互式媒体和具身智能[42][43][44] - **新的创业机会**:包括支持大规模个性化定制的工具、从大模型中精炼专门负责学习能力的小模型、以及将单Agent自进化实验扩展为多Agent并行协作等[41] 算力基础设施与行业影响 - **算力重点从训练转向推理**:英伟达新一代Vera Rubin架构推理性能提升3-5倍,推理Token成本可能降低10倍,Groq的LPU技术被集成其中[45] - **推理优化空间巨大**:例如Google的TurboQuant工作将KV Cache存储需求压缩至原来的1/6,CPU在Agent任务调度和执行中的作用凸显,需求出现增长曲线[46][47] - **AI引发组织与就业变革**:硅谷出现科技大裁员,如Meta裁员20%约15000人,并将节省的资金投向AI资本支出,预计AI投资将增加至650亿美元[48][49] - **企业用人逻辑变化**:招聘更重质量而非数量,倾向于“超一流人才+Agent”模式,全员AI native能力成为重点,小团队创业成为可能[49][50] - **社会影响探讨**:AI加剧资源与能力集中,可能扩大社会不平等,出现了对消耗大量计算资源的AI征收“Token税”的新思路[53][54]
你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始
机器之心· 2026-03-30 14:52
文章核心观点 - OpenClaw的爆发并非底层算法突破,而是通过卓越的工程化整合,将现有大模型能力推过“可用阈值”,从而引爆了智能体的可用性革命[11][14][77] - OpenClaw代表了未来**智能体操作系统**的早期雏形,其意义在于重新定义了AI的使用范式,统一了模型、工具与交互方式[20][34][77] - 智能体技术的未来发展关键,将从追求单点模型能力增强,转向通过**端云协同、协议标准化和多智能体系统**实现系统能力的跃迁[4][50][73] 技术定位与市场影响 - **市场热度数据**:OpenClaw在24小时内获得9000星标,两个月内星标数超过27万,成为GitHub历史星标最多的项目,一周内在OpenRouter上消耗了4.73T Token,远超其他项目总和[6] - **技术本质**:项目本身未进行模型预训练、推理算法改进或底层工具学习等核心算法创新,其核心是优秀的软件工程设计,包括IM通讯平台接入、本地部署架构、分层记忆和Gateway标准化[14][15] - **行业跟进**:国内几乎所有大厂都在快速跟进OpenClaw项目,显示出其强大的行业影响力[6] - **历史定位**:OpenClaw对于大模型的意义,类似于浏览器之于互联网,它本身不创造内容,但重新定义了用户交互方式,让非技术用户也能顺畅应用大模型[14] 系统架构与工程价值 - **总体架构**:技术架构清晰,从底层系统控制到Agent循环,再到上层标准化封装和信息流管理,最后接入用户渠道,具备极强的兼容性[21] - **三大核心设计**: 1. **Gateway系统**:采用三层架构,统一路由和调度来自不同设备或IM软件的信息,使智能体无需关心底层平台差异[23] 2. **分层记忆机制**:包含四层记忆(L1当前会话、L2近两日日志、L3长期总结、L4文件语义召回),实现“越用越懂你”的个性化效果[24][26][27][28] 3. **Skill生态兼容**:通过三层加载(功能描述、工作流程、相关资源)帮助模型快速理解和执行专精任务[30] - **操作系统雏形**:OpenClaw尝试让所有AI模型、消息平台和工具在同一套标准下运行,对上统一抽象屏蔽模型API差异,对下管理资源,中间通过网关调度,其四层架构与操作系统经典分层高度对应[34] 当前暴露的核心瓶颈 - **可靠性**:在要求50%成功率时,Claude Opus 4.6能执行长达10小时的任务;但当可靠性要求提升至商用级别的80%-95%时,可完成任务时长会急剧下降至约1小时,限制了实际应用[51] - **长任务执行**:普通用户受算力限制,能接触到的模型可能只能完成几分钟的任务,使得纯端侧智能体路径短期内难以走通[51] - **Token成本**:OpenClaw仅一周就消耗了4.7T Token,若未来有两千万用户,现有基础设施无法承受。使用Opus 4.6运行每天成本约10美元,使用GPT-5.4也需5.5美元[57][58] - **记忆体系**:现有记忆架构(如隐状态记忆、参数化记忆)存在与特定模型绑定、无法跨模型迁移或无法用于闭源模型等问题[62][63] - **自主进化**:当前智能体依赖于已有模式,无法在部署后主动适应和进化,真正的自主进化距离实际应用尚有距离[65][66] 关键技术演进路径 - **端云协同**:短期可行路径是由云端进行长任务拆解,将子任务交给端侧执行再验证。随着端侧模型能力每3.5个月翻倍,未来端侧能处理的任务会越来越多[54][59] - **协议标准化**:生态竞争焦点包括MCP、A2A、IOA等协议,协议主导者将掌握生态话语权。模型竞争维度将从“跑分高”转向“用起来好”[40][42] - **交互执行演进**: 1. **API调用路线**(当前OpenClaw采用):可靠、执行快,但现有软件API覆盖率不足[45] 2. **GUI Agent路线**:通用性强,但速度慢、耗资源、点击准确率不稳定[45] - 长期趋势是软件将向“AI原生(Agent-Native)”设计演进,工具调用覆盖率将持续上升[49] - **多智能体系统**:规模从2020年的个位数Agent发展到2026年Moltbook上的150万Agent。增加Agent数量能持续提升任务解决质量,但真正的群体智能涌现需要Agent间有意义的分工与协调,而非单向广播[69][70] 未来发展趋势研判 - **第一阶段(工具化Agent)**:Agent作为增强工具,关键突破点是推理能力增强并落地端侧。当10B规模的端侧模型具备高级推理能力时,端云协同架构可大规模部署。预计到2027年,Agent可能处理数天甚至周级别的长任务[73] - **第二阶段(半自主/协作Agent)**:多个Agent能够自主分工、协调、纠错,在线学习成为标配功能。智能体操作系统需要应用生态建设期[73] - **第三阶段(自主进化系统)**:世界存在万亿级别能持续进化的Agent。此阶段面临自主性边界、模型无关记忆架构、群体涌现条件等根本性未解问题[74] - **行业影响**:OpenClaw等现象级产品正在倒逼传统软件向AI原生设计演进。未来模型和软件都必须主动适配主流智能体框架和协议,否则将面临被淘汰的风险[39][49]
中国人工智能-解答投资者十大关键问题-China Artificial Intelligence-Addressing Ten Key Questions for Investors
2026-03-30 13:15
行业与公司 * 行业:中国人工智能基础模型行业 [1] * 涉及公司:智谱AI (Zhipu AI) [1]、MiniMax [1]、阿里巴巴 [5]、腾讯 [5]、字节跳动 [5]、Anthropic [4]、OpenAI [11]、Google [43] 核心观点与论据 需求增长:非线性、拐点驱动 * AI需求增长是拐点驱动的,而非线性,当模型质量足够好以解锁实际应用时,使用量会加速 [2][3] * 预计到2030年,全球AI市场规模将达到1.4万亿美元 [3] * 中国市场在2026年有望复制美国2025年的需求曲线,尤其是在编码领域 [4][9] * 论据:美国市场已证明模型达到生产级后需求增长之快,例如Anthropic的年化收入从2024年12月的10亿美元增长至2026年3月的190亿美元,15个月内增长19倍 [4][10] * 论据:中国国内模型能力已接近甚至超过一年前的美国领先模型,且定价更符合本地劳动力经济学,提高了采用的投资回报率 [4] * 智能体(Agent)趋势(如OpenClaw)正推动使用从单轮交互转向多步骤执行,显著增加了每项任务的token强度,且已被腾讯、阿里巴巴、字节跳动等互联网巨头集成到现有生态中,加速规模化 [5] 竞争格局:从价格战转向能力竞争 * 主要竞争战场已从token价格转向模型能力,因为需求增长最快的是质量比单价更重要的场景(如编码、智能体) [22] * 在智能体工作流中,客户购买的是任务成功完成,而非廉价token;每token更贵的模型如果成功率更高、重试次数更少,总体成本可能更低 [24] * 拥有强大前沿模型的公司向下游市场拓展,比围绕低价构建的公司向上游市场拓展更容易 [25] * 行业结构:LLM基础模型行业是“生死之战”,技术差距小、产品周期快、商业模式趋同(API销售),失去动力的公司会迅速被淘汰 [27][29] * 互联网巨头与独立模型提供商之间的竞争正变得更加直接,核心变量回归到模型能力 [50][56] 定价趋势:分化,而非单边变动 * API定价不太可能单向变动,更可能分化 [18] * 能力创造定价权:能独特解锁高价值任务(如智能编码、长周期工作流、企业级可靠性)的模型可以维持溢价 [18][20] * 单位成本持续优化:硬件、系统和算法效率的提升,将推动同等性能的推理成本下降,导致不再显著改进的模型商品化,价格可能下行 [19][20] 盈利能力:取决于毛利增长能否超越研发投入 * 盈利能力主要取决于收入增长和毛利率扩张能否超过行业持续大规模训练投入的需求 [31] * 对于保持全球顶级地位的LLM提供商,毛利率应会改善:模型效率和推理芯片效率提升将降低服务单位需求的成本,而高价值工作负载将支持更好的收入结构 [32] * 运营利润更不确定,因为行业仍处于激烈的模型竞赛中 [33] * 基准预测:智谱AI和MiniMax均预计从2029年开始盈利 [34] * 智谱AI预测:毛利从2023年的1100万美元增长至2030E的48.21亿美元,研发支出从2023年的7500万美元增长至2030E的18.20亿美元 [35] * MiniMax预测:毛利从2023年的-100万美元增长至2030E的44.36亿美元,研发支出从2023年的7000万美元增长至2030E的21.94亿美元 [36] 模型能力评估:价格、使用量、第三方评估结合 * 投资者应通过价格、使用量和第三方评估的组合来跟踪模型强度,单一指标不够清晰 [38] * Token价格:最重要的指标,体现了公司对其产品的市场定位,与最佳模型的价差是有效模型定位的有用代理 [42] * Token使用量:显示用户和开发者愿意大规模使用什么,是应用层健康状况的代理,应用类别组合显示强度构建方向 [42] * 第三方评估:如Artificial Analysis和LMArena,提供不同形式的外部验证 [42] * 论据:根据Artificial Analysis Intelligence评分,智谱AI和MiniMax当前的模型能力已超过一年前的Anthropic模型 [14][15] 生存关键要素:人才、算力、资本、组织执行力 * 生存下来的公司将拥有最佳的研究人才、算力获取、财务持久力和组织执行力的组合 [57] * 人才是第一位的,因为这是一个研究主导的行业,包括技术团队的密度和广度,以及高层的判断力 [58] * 算力和资本次之,因为前沿训练昂贵,推理经济也依赖于基础设施质量 [59] * 组织能力同样关键,在快速迭代的市场中,将研究进展转化为产品、使用量和货币化的能力几乎与模型本身一样重要 [60] 行业终局:差异化共存,非赢家通吃 * 模型不会最终趋同,广泛能力可能收敛,但模型仍可能保留差异化优势,市场不太可能以赢家通吃的结构结束 [61] * 不同公司在架构、训练数据、产品优先级和技术方向上做出不同选择,这些差异应继续产生不同的优势 [62] * 在扩张的市场中,即使部分能力重叠,几家公司也可以同时增长 [63] * 更现实的终局是少数几家实力雄厚的参与者,各自在不同领域拥有优势,在一个仍足够大的市场中竞争 [64] 战略考量:迭代、开源与全球化风险 * 模型迭代是必须的,预期节奏大约每年一个主要模型代际(例如GLM4.7到GLM5) [65] * 开源与闭源是投资组合选择:闭源模型商业上更清晰,但开源具有战略价值(支持生态系统发展、鼓励采用、加速技术反馈) [66] * 全球化风险主要在于算力获取和合规:更严格的芯片限制将削弱模型进展和成本竞争力;数据和安全合规是另一关键风险 [67][68] 其他重要内容 具体公司投资观点 * **智谱AI (Zhipu AI / Knowledge Atlas Technology)**:评级“增持”,目标价800港元 [6][71] * 投资论点:公司已达到重要拐点,GLM-4.5/4.6/4.7的发布及向智能体系统的战略转变,使其技术路线与全球前沿能力(生产级编码、长上下文推理、多步骤执行稳定性)保持一致 [72] * 业务架构:在受监管行业建立了大量本地化部署基础,云API是可扩展的增长引擎 [73] * 估值:基于30倍2030年预期市盈率,以15%的加权平均资本成本折现得出 [74] * 2030年预期收入:670.63亿元人民币;调整后净利润:171.46亿元人民币 [75] * 风险:出口管制、地缘政治风险、竞争加剧、持续高研发投入、商业化不确定性、对计算基础设施的依赖 [76] * **MiniMax**:评级“增持”,目标价1100港元 [6][77] * 投资论点:兼具技术实力、多模态商业化潜力和全球可扩展性 [77] * 模型能力:在全球基准测试中表现领先,文本、语音和视频生成模型均位居全球前列,研发投资回报率高 [81] * 全频谱模型支持B2B/B2C双重商业化 [81] * 全球定位推动规模和盈利 [81] * 估值:基于30倍2030年预期市盈率,以15%的加权平均资本成本折现得出 [78] * 2030年预期收入:91.36亿美元;调整后净利润:23.22亿美元 [79] * 风险:与美国工作室的诉讼、竞争加剧、持续高研发投入、商业化不确定性、对计算基础设施的依赖 [80] 数据与跟踪指标 * **Token价格跟踪**:提供了智谱AI、MiniMax、阿里巴巴、字节跳动以及Anthropic、OpenAI、Google在2026年2月及3月的详细API定价表 [38][40][43] * **使用量跟踪**:OpenRouter数据显示,总token需求在2026年初持续加速,OpenClaw和编码应用是主要驱动 [48][52][53] * **任务完成率的经济学**:在智能体工作流中,每步成功率的微小提升会带来最终任务完成率的巨大增益(例如,每步成功率从90%提升至95%,10步任务完成率从35%提升至60%) [26] * **任务级经济学比token级定价更重要**:示例显示,尽管Model C的每次尝试token成本最高(10美元),但由于其每次尝试成功率最高(91%),其每项成功任务的成本(11美元)可能低于更便宜的Model A(12美元) [26]