计算机行业周报：谷歌Agent与多模态能力重磅升级，国内外模型持续进化

报告行业投资评级 - 增持（维持）[4] 报告的核心观点 - 全球大模型能力持续进化，特别是Agent（智能体）与多模态能力的重大升级，将不断更新终端用户体验，推动AI agent生态繁荣，进而对软件行业实现全面的重构与升级[1][3][62] - 建议关注拥有Coding及Agent能力的大模型厂商，例如智谱、Minimax、科大讯飞等[3][62] 谷歌AI生态与模型升级 - 谷歌产品生态强势发展：截至2026/5/19，谷歌已有13款产品的用户数超过10亿，其中5款产品用户数突破30亿，Gemini模型是重要驱动因素[1][9] - AI搜索用户增长显著：谷歌AI搜索月活用户数已突破10亿，用户搜索频率高于传统搜索；AI概览（AI Overview）拥有超过25亿月活用户[11] - Gemini应用快速增长：Gemini月活用户数已突破9亿，一年内增长超过一倍；每日请求量增长了七倍以上；已有超过500亿张图像通过Nano Banana图像生成模型生成[11] - AI token消耗量飙升：截至2026/5/19，谷歌各平台每月处理的token数量跃升7倍，达到每月超过3200万亿个；谷歌模型API每分钟处理约190亿个token；在过去12个月中，超过375家Google Cloud客户各自处理了超过一万亿个token[15] Gemini 3.5 Flash：补齐Agent与编程短板 - 模型发布与定位：2025/5/19发布，将前沿智能与行动能力融合，标志着谷歌在Agent方面迈出重大一步，旨在帮助用户执行复杂的智能体工作流[1][18] - 前沿性能表现：在Terminal-Bench 2.1（76.2%）、GDPval-AA（1656 Elo）和MCP Atlas（83.6%）等编程与智能体基准测试中超越前代Gemini 3.1 Pro，并在多模态理解（CharXiv Reasoning得分84.2%）方面领先[19][20] - 高速运行能力：输出速度是其他前沿模型的4倍，在Artificial Analysis指数中位列右上象限，使用户无需在质量与延迟之间取舍[21] - 规模化处理Agent任务：可成为处理长期智能体任务的理想选择，成本通常不到其他前沿模型的一半；能快速规划、构建并迭代以解决实际问题，例如使用两个智能体在Antigravity环境中通过快速自我改进循环来开发游戏[24] - 实际生产落地：已为开发者与企业客户带来切实进展，例如Shopify通过并行运行子代理实现更准确的全球商家增长预测[26] - 推出个人Agent智能体Spark：依托Gemini 3.5 flash能力，发布可全天候运行的个人Agent智能体Spark，能从回答问题转变为主动完成实际工作；深度集成谷歌Workspace生态，可在云端持续工作[1][27][28] - Spark的复杂任务能力：包括自动解析月度信用卡账单、检查邮件提取关键截止日期并发送摘要、综合会议记录创建文档并起草邮件等[30] Gemini Omni：多模态与物理世界认知升级 - 模型能力定义：是一款能够从任何模态输入（图像、音频、视频、文本）生成任何内容的模型，可生成基于真实世界知识的高质量视频[1][31] - 通过自然语言编辑视频：用户可通过对话指令改变视频中的世界、重新构想动作，并通过多轮对话精修视频，角色、物理效果和场景保持连贯[33][34] - 增强物理世界认知：具备对重力、动能和流体动力学等力的直观理解，能创建物理效果更精准的视觉内容，更好地将创意落地为现实[35] - 融合知识与创造力：借助Gemini的知识连接语言、图像和意义，例如能依据复杂指令生成包含26个字母对应物品的视频[35][36] 国产大模型进展：编程与Agent能力跟进智谱GLM-5.1 - 编程Agent基准开源第一：2026/5/12，GLM-5.1在Artificial Analysis全新Coding Agent基准评测中取得开源第一，代表了国产大模型编程agent的SOTA级别能力[2][39][40] - 推出高速版：GLM-5.1高速版输出速度达到400 tokens/s，刷新全球大模型厂商API速度上限，兼顾旗舰级能力与低延迟[2][42][44] - 高速版应用效果：在Coding领域实现“即问即答”，可成为实时协作伙伴；能在30秒内完成复杂网页；在Agent Swarm中瞬间调度50个不同人格并行回答；实测可实现输入文字后瞬时3D建模[44][46][47] - 速度背后的技术：通过TileRT高性能推理引擎，在推理引擎层、调度系统层和基础设施层进行系统级优化，实现稳定可用的400 TPS生产级能力[48][50] 月之暗面Kimi K2.6 - 模型发布与开源：2026/4/20发布并开源Kimi K2.6模型，带来行业领先的代码、长程任务执行和Agent集群能力[2][48] - 综合能力领先：在Humanity's Last Exam、SWE-Bench Pro、DeepSearchQA等基准测试中成绩行业领先，持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型[48] - 强大的代码与长程能力：是迄今最强的代码模型，可不间断编码13小时，编写或修改超过4000行代码；在内部代码评测基准Kimi Code Bench中，成绩比K2.5提升约20%[52][53] - 增强的Agent能力：驱动的「Agent集群」架构支持300个子Agent并行完成4000个协作步骤；针对OpenClaw等主动式Agent框架，支持长达5天的持续自主运行[55] Minimax MMX-CLI - 发布全模态命令行工具：2026/4/9发布MMX-CLI，一个为Agent设计的全模态命令行工具，使Agent工作流进一步完整化自动化[2][56] - 提升Agent可用性：接入后，Agent可在Claude Code、OpenClaw等环境中原生调用MiniMax的全模态模型，独立跑通“资料搜集—生成文案—合成语音旁白—配图配乐—视频制作”的完整自动化工作流[56] - 底层专门优化：通过输出隔离与纯数据模式、语义化状态码（Exit Code）、非阻塞与异步任务控制等设计，提升Agent在自动化运行中的稳定性和解析准确性[58][60][61]