Workflow
Agent时代
icon
搜索文档
国联民生证券:Agent时代大模型正进化为“自主员工” 建议关注MiniMax-WP和智谱
智通财经· 2026-02-09 16:20
文章核心观点 - Agent时代大模型正从“聊天工具”进化为“自主员工”,掌握核心算法与行业接口的大模型厂商有望深度受益于万物智能化红利 [1] - 在Agent时代,模型能力的重要性正让位于“以更低成本将强能力转化为高频可用生产力”的成本效益优势 [5] - 开源项目Clawdbot的流行及AI-only社区的兴起,直接推动了API调用频次与token吞吐量的阶跃式抬升,凸显了Agent生态的繁荣 [1] 行业趋势与生态变化 - 开源技术项目Clawdbot在GitHub上的星标数量已超过13万个,官网累计访问量突破200万人次,成为近期增长最快的开源项目之一 [1] - 近期出现的“AI-only社区”如Moltbook,在极短时间内聚集了百万个代理账号规模,这类交互对应更高的请求密度与更频繁的API触发 [1] - Agent进入办公与生产场景后,输入不再主要来自纯文本,而大量来自截图、PDF、表格、图表、界面元素等视觉信息,多模态与“视觉执行”走向前台 [6] Agent范式对模型需求的重塑 - 在工作流范式下,一个任务横跨计划、检索、工具调用、校验纠错及外部系统写入等多个阶段,导致模型调用频率、上下文长度及中间信息复杂程度倍增 [2] - 相较基础聊天,面向复杂任务的Agent服务可能会消耗数十倍多的token,多步推理与多轮工具调用天然带来“多回合上下文”,同时重试与自纠错会额外产生无效token [2] - “模型的单位成本×单位产出”成为Agent类产品能否规模化落地的“生死线”,因为在执行任务时,多轮推理与工具协同将会把成本线性放大 [2] 关注公司的核心优势 - 公司建议关注已于今年初成功上市的“大模型双子星”MiniMax-WP(00100)和智谱(02513),作为原生Agent生态的“大脑”,公司具有极高的稀缺性 [1] - 在Clawdbot创始人Peter Steinberger的力荐下,国内AI独角兽MiniMax旗下擅长长文本与逻辑推理的M2.1模型被成功带火 [1] 模型能力分析:效率与成本 - M2.1模型旨在通过极致的成本优势解决开发者在自动化编程中面临的高昂token成本痛点,其定价体系约为Claude Sonnet的8% [3] - Coding Plan创新性地引入“每5小时重置额度”的高频刷新机制,打破了行业通用的按天或按月限额模式,释放了高频重度开发场景下的生产力 [3] - 计费模式上,不同于底层大模型厂商通用的token按量计费逻辑,公司转而采用分层月度订阅制 [3] 模型能力分析:长文本能力 - 真实的工作流里,持续演进的上下文通常包含工具调用、历史信息、检索片段、约束条件等 [4] - M2.1的长文本能力让它更适合完成“持续记忆”,即读更长的文档、容纳更多中间结果、减少因截断导致的逻辑断裂 [4] 模型能力分析:推理与编程能力 - 在Clawdbot这种强调自动化执行与纠错闭环的产品里,模型被用于写代码、改代码、做判断、做校验 [5] - M2.1在推理与编程能力上的“够用且性价比极高”,使它成为最适合被放进生产系统、被高频调用的选择 [5] 模型能力分析:多模态与视觉执行 - MiniMax的多模态能力辅助Agent更好地理解界面、提取关键信息、输出可执行的步骤/代码、再用截图回读做校验纠错 [7] - 这让Clawdbot可以做“视觉驱动的自动化”,例如识别表格字段后自动填表、读报错截图后定位原因并改脚本、从图表中抽数并写入报告、对比前后截图确认任务是否真正完成等 [7] - MiniMax凭借自己的多模态能力,能更好的完成服务的闭环、减少人工转述、快速纠错,达到更强的可交付性 [7]
国联民生证券:Agent时代大模型正进化为“自主员工” 建议关注MiniMax-WP(00100)和智谱(02513)
智通财经网· 2026-02-09 16:17
事件概述 - Clawdbot项目在GitHub上星标数量已超过13万个,官网累计访问量突破200万人次,成为近期增长最快的开源技术项目之一 [1] - AI-only社区Moltbook在极短时间内聚集了百万个代理账号规模,对应更高的API请求密度与触发频率 [1] - 在Clawdbot创始人Peter Steinberger的推荐下,国内AI独角兽MiniMax旗下擅长长文本与逻辑推理的M2.1模型受到关注 [1] Agent时代范式转变 - 大模型正从“聊天工具”进化为“自主员工”,掌握核心算法与行业接口的大模型厂商有望深度受益于万物智能化红利 [1] - 在传统对话范式下,单次交互仅需少数几次模型调用;而在工作流范式下,一个任务横跨计划、检索、工具调用、校验纠错等多个阶段,导致模型调用频率、上下文长度及信息复杂程度倍增 [2] - 面向复杂任务的Agent服务可能会消耗数十倍于基础聊天的token,多步推理与多轮工具调用带来“多回合上下文”,同时重试与自纠错会额外产生无效token [2] 模型成本效益成为关键 - “模型的单位成本×单位产出”成为Agent类产品能否规模化落地的“生死线”,因为多轮推理与工具协同会将成本线性放大 [2] - MiniMax的M2.1模型因“兼具效率与成本的优势、长文本能力强、推理与编程能力”的特点被Clawdbot创始人推荐 [2] - M2.1模型的定价体系约为Claude Sonnet的8%,旨在通过极致的成本优势解决自动化编程中的高昂token成本痛点 [3] - 公司采用分层月度订阅制,而非行业通用的按token量计费逻辑,其Coding Plan创新性地引入“每5小时重置额度”的高频刷新机制,打破了行业通用的按天或按月限额模式 [3] M2.1模型的核心能力 - **长文本能力强**:M2.1的长文本能力使其更适合完成“持续记忆”,能读更长的文档、容纳更多中间结果、减少因截断导致的逻辑断裂 [4] - **推理与编程能力**:在Clawdbot这类强调自动化执行与纠错闭环的产品中,M2.1在推理与编程能力上“够用且性价比极高”,使其成为适合被高频调用放入生产系统的选择 [5] - 在Agent时代,将强能力以更低成本转化为高频可用的生产力是关键,这是MiniMax的优势所在 [5] 多模态与视觉执行的重要性 - Agent进入办公与生产场景后,输入大量来自截图、PDF、表格、图表、界面元素等视觉信息 [6] - MiniMax的多模态能力辅助Agent更好地理解界面、提取关键信息、输出可执行的步骤或代码,并用截图回读做校验纠错,实现“视觉驱动的自动化” [7] - 具体应用包括:识别表格字段后自动填表、读报错截图后定位原因并改脚本、从图表中抽数并写入报告、对比前后截图确认任务是否完成 [7] - 多模态能力有助于更好地完成服务闭环、减少人工转述、快速纠错,达到更强的可交付性 [7] 投资关注点 - 建议关注已于今年初成功上市的“大模型双子星”MiniMax-WP(00100)和智谱(02513) [1] - 作为原生Agent生态的“大脑”,公司具有极高的稀缺性 [1]
Agent 热潮年度回望:一切火爆早有预兆
36氪· 2026-02-09 16:00
文章核心观点 文章系统回顾了2024年至2025年期间,推动智能体(Agent)从概念热潮走向工业化落地的关键变量。核心观点认为,行业正经历从宏大叙事向务实架构的转变,焦点从追求“像人”的自治转向构建“可长期、稳定、可治理”的系统[30]。这一过程通过协议建设、架构分层、技能网络化、记忆系统完善以及开源模型发展等多个层面的收敛与演进共同实现[4][6][9][18][22][26]。 关键变量总结 01 行业认知的收敛与转向 - Agent经历了从“元年”的宏大叙事(如多智能体社会、AI员工、数字组织结构重构)向应对现实工程挑战的转变[4] - 早期Agent存在执行链条不稳定(“五步不过冈”)、长任务易偏航、权限模糊、成本不可预测等问题,难以融入严肃工作流[3][4] - 行业心态从询问“它像不像个员工?”转向关注“它能不能长期、稳定、可治理地做事?”[30] 02 底层协议的建设与挑战 - 行业出现了为Agent时代建立统一底层协议的系统性尝试,以MCP和A2A为代表[6] - MCP旨在为模型接入工具和数据建立统一接口,A2A则希望实现Agent之间的跨平台协作,常被类比为Agent时代的TCP/IP[7] - 协议建设面临挑战:工具体系复杂多样,商业边界与权限约束各异,且标准版本、厂商立场和实现不一致,导致推广谨慎[7] 03 架构分层:从“认知+执行”到技能(Skill)重构 - Agent形态演变为“认知+执行”的组合体,架构上分为认知层、技能层、连接层和持续层[10] - **认知层**:由大语言模型负责,承担理解意图、拆解任务和规划决策,接受其不确定性[10] - **技能层**:将涉及外部后果的动作(如发邮件、改数据、下单)封装为可复用、可治理的执行单元(Skill),确保输入输出清晰、权限明确、可重试、可审计[10][17] - **连接层**:负责将技能连接到外部世界(如数据库、SaaS系统)[10] - **持续层**:负责管理任务状态与长期记忆,保障连续性[10] - 与API的区别在于控制权迁移:API时代组合逻辑由程序员写在代码中,Skill架构下组合逻辑由模型在运行时规划,实现了从“程序员写流程”到“模型生成流程”的转变[15][17] 04 技能(Skill)密度与网络效应 - 当模型能力进入同一量级后,竞争焦点从“谁更聪明”转向“谁背后站着更多真实可用的技能”[19] - 技能价值呈网络化增长:技能模块化后,新增一个技能不仅增加一种用途,更创造出多种组合可能,技能密度越高,系统的“解题维度”越多[19] - 生态发展的关键不再是技能数量,而是技能的流动性,即能否被检索、被不同模型规划、跨系统复用,从而形成网络效应[20] - 当前Agent生态类似移动互联网早期,尚未出现大规模第三方能力市场、稳定的技能商店或形成网络效应的爆款应用[21] 05 记忆(Memory)系统与任务持续性 - 记忆是保障任务连续性的关键,使Agent从一次性推理工具转变为持续存在的系统[22] - 记忆系统包含三层结构:**任务状态**(实现断点续跑)、**长期语境**(存储用户偏好、组织约束等)、**行为轨迹与决策历史**(积累行动模式)[24] - 长上下文、RAG与持久记忆是不同概念:长上下文扩展单次推理的注意力范围;RAG解决外部信息检索;持久记忆则实现跨时间、跨任务的背景继承与经验积累[23] - 记忆系统使Agent具备组织价值,但其发展仍面临成本、更新与遗忘机制不成熟,以及错误或偏见被固化的风险[25] 06 开源大模型的角色与影响 - 中国开源大模型(如千问、Kimi、Step)在过去一年取得显著跃迁,频繁进入开发者的真实工作流[26] - 以阶跃星辰的Step 3.5 Flash模型为例,其采用稀疏混合专家结构,总参数1960亿,每次激活约110亿参数,注重效率与结构[26] - 开源模型的技术改进(如混合注意力机制、多token并行预测)恰好对应了Agent时代对更长上下文、更低延迟、更稳定逻辑执行的核心需求[27] - 本地部署能力(如256K上下文模型可在128GB内存的MacBook上运行)改变了权力结构,实现了“终端平权”,并满足了医疗、金融等垂直行业对可控、可部署基座的需求[29]
全球AI开发者新宠:阶跃星辰Step 3.5 Flash,两天登顶OpenRouter趋势榜
36氪· 2026-02-07 13:05
模型市场表现与用户认可 - 阶跃星辰开源模型Step 3.5 Flash发布后市场反响热烈,在OpenRouter平台首日即登上“Fastest Models”全球最快模型之列,并在两天内登顶“Trending”全球趋势榜第一[1] - OpenRouter的Trending全球趋势榜不关注参数或跑分,只反映开发者和用户调用模型的实际情况,Step 3.5 Flash登顶此榜单证明了其在实际应用中的“有用”和“好用”[3] - 在OpenRouter的LLM Leaderboard上,Step 3.5 Flash(免费)以12.5B tokens的调用量位列第一,远超榜单上其他模型,显示了开发者和用户用实际API调用进行的“投票”[2] - 一线开发者和用户对模型的关注点从跑分转向实际应用表现,在Agent、深度研究、自动化工作流等场景中集体选择Step 3.5 Flash,表明模型在复杂任务中的实际可用性受到认可[21][28] 模型核心技术与架构创新 - Step 3.5 Flash采用稀疏混合专家(MoE)架构,总参数量为1960亿,但在处理每个Token时仅激活110亿参数,实现了以较小计算成本获得前沿模型智能水平的效果[4] - 模型通过3:1滑动窗口与全局注意力混合架构(SWA+Full Attention)实现了256K长上下文的高效处理,能极大节省显存,解决了Agent时代成本与效果的倒挂难题[7] - 模型引入了MTP-3(三路多Token预测)技术,允许在生成当前内容时同时预测后续多个Token,这不仅提升了生成速度,更增强了模型在多轮推理中的连贯性,减少了“卡顿”和“失忆”[9] - 测试显示Step 3.5 Flash支持100–300 TPS的生成吞吐量,部分场景下最高可达350 TPS,远超去年50-100 TPS的主流水平,在OpenRouter的速度榜单上位列第九,速度为167 tok/s[7][8] 模型性能与实测效果 - 根据基准测试,Step 3.5 Flash在数学推理(AIME 2025评分97.3)和代码修复(SWE-bench Verified达到74.4%)上表现优异,其PaCoRe强化版甚至将AIME 2025成绩提高到几近满分的99.9[4] - 在实际应用测试中,Step 3.5 Flash能够准确还原不同设计风格的差异并进行持续迭代优化,甚至能生成功能完备的浏览器操作系统(WebOS),并在测试中是唯一能正常运行经典游戏“Memory Game”的模型[10] - 模型在本地部署(如在128GB内存的Mac M3 Max上)实际效果远超预期,性能可达硬件理论效率的70%,并且具有很低的幻觉率和多语言混用场景下的低错误率[14] - 在Agent场景测试中,模型展现出纠错与自我改进能力,例如在生成游戏时,能通过提示词反馈在初始版本基础上进行迭代优化,使开发质量爆发式提高[22] 公司战略与行业趋势 - 阶跃星辰团队意识到不同智能阶段需要不同的基础模型结构,L1 Chatbot时代的设计不适用于L2 Reasoner,而L3 Agent时代需要新的基模结构,因此Step 3.5 Flash的训练目标直接锚定了强逻辑、高效长上下文处理和快速推理能力[22] - 模型的结构设计(如MoE、MTP-3、工程化的长上下文方案)并非为了追逐跑分,而是为了让模型在复杂的多轮任务中持续工作,做到不掉速、不失忆、不乱编,以满足Agent时代的需求[26] - 行业重心正在从对话向工作流迁移,自2025年开始,模型开始大规模引入工作流,开发者更看重Token,用户则希望AI能直接处理改代码、跨平台流程等复杂任务[27] - Step 3.5 Flash的成功表明,AI的成功取决于其帮助人类提高效率的程度,大模型需要褪去“炫技”外壳,转变为真正好用的生产力工具[29]
一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?
36氪· 2026-02-06 18:15
行业动态:2026年初大模型集中发布潮 - 2026年开年,大模型行业迎来密集发布,Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash接连推出 [1] - OpenAI和Anthropic几乎同时推出小版本迭代GPT-5.3-Codex和Claude Opus 4.6 [2] - 多家中国公司计划在春节前后发布新一代模型,包括智谱的GLM-5、MiniMax的M2.2、字节跳动的Doubao 2.0等模型矩阵,以及可能更新的DeepSeek V3系列 [4][5] - 中美头部玩家几乎同时推进大版本迭代,竞争焦点从参数规模转向定义2026年的AI [7] 技术升级方向:新一代模型的三大重点 - **推理能力普及化**:推理正成为下一代基础模型的默认能力,例如GLM-5强调复杂任务的一致性完成能力,Step 3.5 Flash在196B参数规模下实现秒回应并采用MTP-3技术,Gemini 3.5也强化了深度推理模式 [9][10][13] - **长上下文系统化**:长上下文从“指标”变为“系统能力”,更注重真实工作场景应用,如腾讯混元推出CL-bench基准测试,DeepSeek V4论文提出“Engram条件记忆”机制,在计算量较MoE减少18%的情况下于32768个token任务中反超同参数量MoE模型 [14][16] - **Agent核心化**:Agent正在重新定义基础模型,成为AI系统的核心,强调在较少人工干预下完成完整任务的能力,例如Step 3.5 Flash“为Agent而生”,Claude 5被曝强化多Agent协作的“蜂群模式” [17][19] 竞争格局与市场影响 - 2026年春节前后成为模型集中发布“同步窗口”,原因包括DeepSeek去年春节的成功示范、技术周期成熟以及上市融资等竞争节奏 [20] - 行业可能进入“连续发布”阶段,从春节前持续到3月初,但单一模型难以长期吸引注意力,对模型和营销是巨大考验 [21] - 模型发布后将迅速经历真实场景横向对比,差距会在极短时间内形成共识,胜负关键取决于发布后能否被快速广泛使用并形成入口与调用习惯 [22][25][26] - 本轮更新可能带来代际跃迁,涉及训练方式、推理模式与模型定位的同步变化,使模型从“功能组件”变为“系统底座”,影响未来一年的全球大模型格局 [23][24]
国联民生证券:模型单位成本重要性不断提升 多模态与“视觉执行”走向前台
智通财经网· 2026-02-04 14:26
行业范式转变:从对话到工作流 - 大模型正从“聊天工具”进化为“自主员工”,进入Agent时代 [1] - 传统对话范式下单次交互仅需少数几次模型调用,而工作流范式下的复杂任务横跨计划、检索、工具调用、校验纠错及外部系统写入等多个阶段 [1][2] - 相较基础聊天,面向复杂任务的Agent服务可能会消耗数十倍多的token,模型调用频率、上下文长度及中间信息复杂程度倍增 [1][2] 核心驱动因素:成本与效率 - Agent类产品规模化落地的关键取决于“模型的单位成本×单位产出”,多轮推理与工具协同会将成本线性放大 [2] - 近期出现的“AI-only社区”如Moltbook在极短时间内聚集了百万个代理账号规模,对应更高的API请求密度与更频繁的API触发 [1] - 开源项目Clawdbot在GitHub上的星标数量已超过13万个,官网累计访问量突破200万人次,成为近期增长最快的开源技术项目之一 [1] 公司分析:MiniMax的竞争优势 - MiniMax的M2.1模型被Clawdbot创始人Peter Steinberger力荐,因其兼具效率与成本的优势、长文本能力强、推理与编程能力 [1][2] - M2.1模型的定价体系约为Claude Sonnet的8%,旨在解决自动化编程中的高昂token成本痛点 [3] - 公司采用分层月度订阅制,而非行业通用的token按量计费模式,其Coding Plan引入“每5小时重置额度”的高频刷新机制,打破了按天或按月限额的行业模式 [3] - M2.1的长文本能力使其更适合完成“持续记忆”,能读更长的文档、容纳更多中间结果,减少逻辑断裂 [3] - 在推理与编程能力上,M2.1“够用且性价比极高”,适合被高频调用于写代码、改代码、做判断、做校验的生产系统 [3] 技术趋势:多模态与视觉执行 - Agent进入办公与生产场景后,输入大量来自截图、PDF、表格、图表、界面元素等视觉信息 [4] - MiniMax的多模态能力辅助Agent更好地理解界面、提取关键信息、输出可执行步骤,并用截图回读做校验纠错,实现“视觉驱动的自动化” [4] - 具体应用包括识别表格字段后自动填表、读报错截图后定位原因并改脚本、从图表中抽数并写入报告、对比前后截图确认任务完成等 [4] 投资观点 - 掌握核心算法与行业接口的大模型厂商有望深度受益于万物智能化的红利 [1] - 在Agent时代,“谁能以更低成本把强能力变成高频可用的生产力”比“谁更聪明”更重要,这是MiniMax的优势所在 [3] - 建议关注“大模型双子星”MiniMax-WP(00100)与智谱(02513) [1]
计算机行业事件点评:Clawdbot系列研究之核心受益方向:大模型篇
国联民生证券· 2026-02-04 09:04
行业投资评级 - 对计算机行业维持“推荐”评级 [5] 核心观点 - 大模型正从“聊天工具”进化为“自主员工”,进入Agent时代 [14] - 在Agent时代,模型“谁能以更低成本把强能力变成高频可用的生产力”比“谁更聪明”更重要 [4] - 掌握核心算法与行业接口的大模型厂商有望深度受益于万物智能化的红利 [14] - 建议关注已于2026年初成功上市的“大模型双子星”MiniMax和智谱,作为原生Agent生态的“大脑”,公司具有极高的稀缺性 [14] 事件与市场热度 - 截至2026年2月2日,Clawdbot在GitHub上的星标数量已超过13万个,官网累计访问量突破200万人次,成为近期增长最快的开源技术项目之一 [7] - 近期出现的“AI-only社区”如Moltbook,在极短时间内聚集了百万个代理账号规模,这类交互天然对应更高的请求密度与更频繁的API触发 [7] - 在Clawdbot创始人Peter Steinberger的力荐下,国内AI独角兽MiniMax旗下擅长长文本与逻辑推理的M2.1模型被成功带火 [7] Agent范式带来的变革与挑战 - 在传统对话范式下,单次交互仅需少数几次模型调用;但在工作流范式下,一个任务往往横跨计划、检索、工具调用、校验纠错及外部系统写入等多个阶段,导致模型调用频率、上下文长度及中间信息的复杂程度倍增 [7] - 多步推理与多轮工具调用天然带来“多回合上下文”,同时重试与自纠错会额外产生无效token [7] - 相较基础聊天,面向复杂任务的agent服务可能会消耗数十倍多的token [7] - “模型的单位成本×单位产出”是Agent类产品能否规模化落地的“生死线” [3] - 多模态与“视觉执行”走向前台:Agent进入办公与生产场景后,输入大量来自截图、PDF、表格、图表、界面元素等视觉信息 [4] MiniMax M2.1模型的核心优势 - **兼具效率与成本**:M2.1模型旨在通过极致的成本优势解决当前开发者在自动化编程中面临的高昂token成本痛点,其定价体系约为Claude Sonnet的8% [7] - **创新的计费模式**:不同于底层大模型厂商通用的token按量计费逻辑,公司转而采用分层月度订阅制 [7] - **高频刷新机制**:Coding Plan创新性地引入“每5小时重置额度”的高频刷新机制,打破了行业通用的按天或按月限额模式,释放了高频重度开发场景下的生产力 [7] - **长文本能力强**:M2.1的长文本能力让它更适合完成“持续记忆”,即读更长的文档、容纳更多中间结果、减少因截断导致的逻辑断裂 [7] - **推理与编程能力**:M2.1在推理与编程能力上“够用且性价比极高”,使其成为最适合被放进生产系统、被高频调用的选择 [7] - **多模态能力**:MiniMax的多模态能力辅助Agent更好地理解界面、提取关键信息、输出可执行的步骤/代码、再用截图回读做校验纠错,实现“视觉驱动的更强的可交付性” [4][14] 市场数据与表现 - 根据OpenRouter数据,截至2026年1月26日,MiniMax M2模型在AI编程的市占率已超过10% [13] - 2026年初至今tokens调用量趋势图显示,MiniMax M2.1模型的调用量在1月24日Clawdbot发布后出现显著增长,峰值接近50B(五百亿) [15][16] - 同期其他主要模型(如DeepSeek V3.2、智谱GLM4.7、Kimi K2 Thinking、Claude Sonnet 4、Qwen 3、GPT-4o-mini)的tokens调用量趋势图也被列出以作对比 [17][19][21][23][26][28][31]
CPU何以站上“算力C位”?
财联社· 2026-02-01 10:48
核心观点 - AI行业正从纯对话模型步入由智能体驱动的强化学习时代,CPU正演变为算力“木桶效应”下的新短板,其重要性显著提升[4] - 英伟达等产业巨头通过投资、产品架构调整及开放支持等方式,在系统层面确认了CPU在长上下文与高并发Agent场景中的核心地位[4] - 服务器CPU需求激增导致供需极端失衡,英特尔与AMD的2026年产能已基本售罄,并计划提价10-15%,行业进入高景气周期[5] - 服务器CPU正进入存量升级、国产替代与模型迭代三重共振周期,预计2026年出货量有望增长25%,或将迎来价值重估机会[8] AI算力架构演变:从GPU主导到CPU瓶颈凸显 - 在完整的Agent执行链路中,工具处理环节在CPU上消耗的时间占端到端延迟的比例最高可达90.6%[4] - 高并发场景下,CPU端到端延迟从2.9秒跃升至6.3秒以上,系统吞吐受限的核心问题从GPU计算能力转向CPU的核心数并发调度[4] - 英伟达计划在下一代Rubin架构中大幅提升CPU核心数,并开放NVL72机柜对x86 CPU的支持,以应对ARM CPU瓶颈[4] - 在长上下文与高并发Agent场景中,大内存CPU是承载海量KV Cache的最优容器[4] CPU需求激增的驱动因素 - Agent对CPU需求提升主要来自三方面:应用调度压力、高并发工具调用成为瓶颈,以及沙箱隔离抬升刚性开销[6] - Agent时代AI由“纯对话”转向“执行任务”,产生大量if/else判断等“分支类任务”,CPU的微架构相比GPU更能适应此类任务,避免GPU算力利用率急剧下降[6] - Agent计算流程演化为“感知-规划-工具调用-再推理”的闭环,工具调用、任务调度、信息检索等关键环节均依赖CPU完成,随着Agent渗透率与工具调用密度提升,CPU作为中间调度枢纽的占用线性放大[7] - 长上下文推理会快速耗尽GPU HBM容量,业界采用KV Cache Offload技术将数据迁移至CPU内存,CPU搭配大容量DDR5/LPDDR5承载KV Cache与部分参数成为主流架构选择[7] 产业动态与供应链影响 - 英特尔与AMD在2026全年的服务器CPU产能已基本售罄,主要因超大规模云服务商“扫货”[5] - 为应对供需极端失衡,英特尔与AMD均计划将服务器CPU价格上调10-15%[5] - 英特尔紧急将产能转向服务器端,一度导致消费电子端交付受阻[5] - 英特尔CEO在2025年第四季度财报电话会上表示,对未能完全满足市场需求感到遗憾[5] 投资视角与市场展望 - 海外CPU巨头在国内的合作商将从CPU涨价行情中直接受益[7] - 国内AI全产业链自主可控不断推进,硬件端与软件端的生态适配正同步跟进,生态架构升级将对各个环节提供性能和产量的双重要求[7] - 超大规模数据中心已进入“升级周期”,CPU架构有较大替换需求[8] - 服务器CPU是AI算力与数据中心升级的核心受益环节,正进入存量升级+国产替代+模型迭代三重共振周期[8] - 预计2026年服务器CPU出货量有望增长25%[8]
15亿春节红包火力全开:字节守位、阿里反击、腾讯奇袭、百度猛追
新浪财经· 2026-01-30 18:48
春节营销与AI超级入口争夺战 - 春节期间“撒钱”已成为互联网大厂抢占用户注意力的重要方式,今年各公司将目标对准了AI超级入口的抢位战 [1] - 腾讯、百度已累计将15亿现金红包放入奖池,字节跳动继续与央视春晚绑定,抖音上线3亿红包玩法,阿里旗下通义大模型(已更名千问)在C端市场打法激进 [1] 字节跳动(豆包)的市场表现与战略 - 2025年12月,豆包日活用户突破1亿;2025年第三季度,豆包以1.72亿月活反超DeepSeek(1.44亿)登顶国内AI应用行业 [2] - 豆包与中兴合作的工程样机努比亚M153发售,原价3499元在二手市场被炒至上万元,展示了其作为能调用各种工具的调度中心(Agent)的能力 [4] - 字节跳动面向B端的火山引擎平台数据:中国超过九成主流车企、全球Top10手机厂商中的9家是其客户,超过100万家企业与开发者调用豆包大模型能力,其中超过100家企业累计Tokens使用量突破1万亿 [5] - 豆包大模型定价为0.0008元/千Tokens,约为当时市场普遍价格的1%,低价策略吸引了大量开发者 [10] - 豆包的增长本质在于内容驱动,其毒舌俏皮的对话能力及在抖音上的广泛传播(如指导穿搭、监督作业)是其出圈原因 [11] - 豆包在C端市场迅速发酵,对B端业务形成反哺,其切入B端市场被比喻为对阿里的又一次“珍珠港偷袭” [5] 阿里巴巴(千问)的AI战略与市场行动 - 2025年11月,阿里通义正式更名千问,开始面向C端市场,此前其AI布局主要着力于B端 [6] - 截至2026年1月9日,阿里的千问大模型累计下载量达7亿,是目前全球开发者采用率最高的开源大模型 [6] - 更名后,千问全面接入淘宝、支付宝、高德等阿里生态业务,实现AI购物功能,并向所有用户开放测试 [6] - 2026年1月27日,阿里发布千问旗舰推理模型Qwen3-Max-Thinking,继续强化其调用工具的原生Agent能力 [6] - 自2025年11月起,千问通过买量驱动增长,其买量数据迅速攀升至与元宝不相上下的位置,上线一个月月活用户便达到4000万 [6] - 阿里千问已独家冠名B站2025跨年晚会并上线红包玩法,以拉近与年轻市场的距离 [9] 腾讯(元宝)的竞争策略 - 2025年,腾讯对元宝的投流高达150亿元,其中三、四季度合计投入约105亿元,但QuestMobile数据显示其月活稳定在3000万左右,未换来明显用户增长 [10] - 2026年1月25日,元宝宣布将在2月1日开启新春活动,用户可参与抢10亿现金红包,单个红包金额最高可达1万元 [12] - 腾讯计划推出社交类产品“元宝派”,定位为AI与用户共同娱乐、协作的社交空间,后续将陆续开放“一起看”、“一起听”等玩法,并接入腾讯会议的音视频底层能力 [12] 百度(文心助手)的竞争策略与挑战 - 百度宣布将拿出5亿现金给文心助手用户发春节红包,单个金额最高1万元,此活动针对其面向C端的AI入口文心助手 [13] - 文心助手的月活用户已突破2亿 [13] - 百度搜索在接入AI助手后,大部分首条结果被AI生成内容覆盖,这收窄了其核心的竞价广告收入空间;2025年第三季度,百度核心营销收入153亿元,同比下降18%,为连续第六个季度负增长 [13] 行业竞争格局与未来动向 - 字节跳动在2026年央视春晚的合作中,有意将推广重心放在火山引擎上,后者成为春晚的AI独家合作伙伴,豆包也将同步推进互动玩法 [9] - 各公司为抢位Agent时代的AI超级入口,在春节这一超级流量窗口期展开激烈对决,行业格局可能因此改变 [9][13]
未知机构:国金计算机科技Agent时代来临重视CPU算力存储云-20260128
未知机构· 2026-01-28 10:00
纪要涉及的行业或公司 * **行业**:人工智能(特别是Agent智能体)、算力(GPU/CPU)、存储、云计算[1][2] * **公司**: * **技术发布方**:阿里巴巴(发布Qwen3-max-Thining模型)、Kimi(发布并开源K2.5模型)[1][2] * **开源项目**:Clawdbot[1] * **产业链相关公司(建议关注)**: * **CPU**:海光信息、中科曙光、禾盛新材、广合科技、兴森科技、深南电路、宏和科技[2] * **国内算力**:寒武纪、东阳光、海光信息、协创数据、首都在线、大位科技、华丰科技、潍柴重机、欧陆通[3] * **存储**:兆易创新、大普微、闪迪、铠侠、美光、SK海力士、中微公司、北方华创、长川科技[4] * **云**:首都在线、金山云、优刻得、青云科技、并行科技[4] 纪要提到的核心观点和论据 * **核心观点:Agent(智能体)时代来临,将驱动产业链需求变革**[1][2] * **论据1:技术进展迅速**:阿里巴巴Qwen3-max-Thining模型采用Test-time Scaling技术,通过“经验提取”和多轮自我迭代,在范式上追平GPT-4o[1];Kimi的K2.5模型具备Agent集群能力,可组建分身团队并行处理复杂任务[2] * **论据2:应用生态活跃**:开源AI助手项目Clawdbot爆火,能通过通讯软件远程指挥模型执行本地电脑任务,引发社区大量讨论与二次开发,甚至带动了Mac Mini的硬件需求[1] * **核心观点:Agent范式将显著提升对算力(GPU)、CPU、存储和云的需求**[2] * **算力/GPU需求论据**:Agent范式下,推理的Token消耗较传统Chatbot扩大**4~15倍**,部分场景甚至扩大**百倍以上**[2] * **CPU需求论据**:Multi-Agent带来操作系统调度压力,“推理→执行→评估→反思”的机制导致CPU调度任务大幅增加,CPU开销可能在通信打满前先成为瓶颈[2] * **存储需求论据**:Agent范式下Token和上下文长度指数级增长,KVCache(键值缓存)大约是Token的**千级别**扩大,推动KV从HBM(高带宽内存)卸载至DRAM/NAND,存储需求大幅提升[2] * **核心观点:明确看好国内AI产业链在2026年重演海外2025年的变化趋势**[2] * **论据**:认为2025年海外的所有变化均来自强化学习(RL)和Agent推理范式,并明确看好这一趋势在2026年于国内重演[2] 其他重要但是可能被忽略的内容 * 纪要中提及的**阿里链软硬件**,可能指代阿里巴巴生态链或供应链相关的软硬件公司,是建议重视的方向之一[2] * 开源项目Clawdbot的爆火,不仅体现了Agent技术的应用潜力,还产生了**具体的硬件拉动效应**(如带动Mac Mini需求),显示了从软件创新到硬件需求的传导路径[1] * 在存储产业链中,纪要不仅列出了存储芯片/模组公司(如兆易创新、美光等),还列出了**半导体设备公司**(如中微公司、北方华创、长川科技),提示了存储需求增长可能向上游设备环节传导[4]