报告行业投资评级 - 增持(维持)[4] 报告的核心观点 - 全球大模型能力持续进化,特别是Agent(智能体)与多模态能力的重大升级,将不断更新终端用户体验,推动AI agent生态繁荣,进而对软件行业实现全面的重构与升级[1][3][62] - 建议关注拥有Coding及Agent能力的大模型厂商,例如智谱、Minimax、科大讯飞等[3][62] 谷歌AI生态与模型升级 - 谷歌产品生态强势发展:截至2026/5/19,谷歌已有13款产品的用户数超过10亿,其中5款产品用户数突破30亿,Gemini模型是重要驱动因素[1][9] - AI搜索用户增长显著:谷歌AI搜索月活用户数已突破10亿,用户搜索频率高于传统搜索;AI概览(AI Overview)拥有超过25亿月活用户[11] - Gemini应用快速增长:Gemini月活用户数已突破9亿,一年内增长超过一倍;每日请求量增长了七倍以上;已有超过500亿张图像通过Nano Banana图像生成模型生成[11] - AI token消耗量飙升:截至2026/5/19,谷歌各平台每月处理的token数量跃升7倍,达到每月超过3200万亿个;谷歌模型API每分钟处理约190亿个token;在过去12个月中,超过375家Google Cloud客户各自处理了超过一万亿个token[15] Gemini 3.5 Flash:补齐Agent与编程短板 - 模型发布与定位:2025/5/19发布,将前沿智能与行动能力融合,标志着谷歌在Agent方面迈出重大一步,旨在帮助用户执行复杂的智能体工作流[1][18] - 前沿性能表现:在Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和MCP Atlas(83.6%)等编程与智能体基准测试中超越前代Gemini 3.1 Pro,并在多模态理解(CharXiv Reasoning得分84.2%)方面领先[19][20] - 高速运行能力:输出速度是其他前沿模型的4倍,在Artificial Analysis指数中位列右上象限,使用户无需在质量与延迟之间取舍[21] - 规模化处理Agent任务:可成为处理长期智能体任务的理想选择,成本通常不到其他前沿模型的一半;能快速规划、构建并迭代以解决实际问题,例如使用两个智能体在Antigravity环境中通过快速自我改进循环来开发游戏[24] - 实际生产落地:已为开发者与企业客户带来切实进展,例如Shopify通过并行运行子代理实现更准确的全球商家增长预测[26] - 推出个人Agent智能体Spark:依托Gemini 3.5 flash能力,发布可全天候运行的个人Agent智能体Spark,能从回答问题转变为主动完成实际工作;深度集成谷歌Workspace生态,可在云端持续工作[1][27][28] - Spark的复杂任务能力:包括自动解析月度信用卡账单、检查邮件提取关键截止日期并发送摘要、综合会议记录创建文档并起草邮件等[30] Gemini Omni:多模态与物理世界认知升级 - 模型能力定义:是一款能够从任何模态输入(图像、音频、视频、文本)生成任何内容的模型,可生成基于真实世界知识的高质量视频[1][31] - 通过自然语言编辑视频:用户可通过对话指令改变视频中的世界、重新构想动作,并通过多轮对话精修视频,角色、物理效果和场景保持连贯[33][34] - 增强物理世界认知:具备对重力、动能和流体动力学等力的直观理解,能创建物理效果更精准的视觉内容,更好地将创意落地为现实[35] - 融合知识与创造力:借助Gemini的知识连接语言、图像和意义,例如能依据复杂指令生成包含26个字母对应物品的视频[35][36] 国产大模型进展:编程与Agent能力跟进 智谱GLM-5.1 - 编程Agent基准开源第一:2026/5/12,GLM-5.1在Artificial Analysis全新Coding Agent基准评测中取得开源第一,代表了国产大模型编程agent的SOTA级别能力[2][39][40] - 推出高速版:GLM-5.1高速版输出速度达到400 tokens/s,刷新全球大模型厂商API速度上限,兼顾旗舰级能力与低延迟[2][42][44] - 高速版应用效果:在Coding领域实现“即问即答”,可成为实时协作伙伴;能在30秒内完成复杂网页;在Agent Swarm中瞬间调度50个不同人格并行回答;实测可实现输入文字后瞬时3D建模[44][46][47] - 速度背后的技术:通过TileRT高性能推理引擎,在推理引擎层、调度系统层和基础设施层进行系统级优化,实现稳定可用的400 TPS生产级能力[48][50] 月之暗面Kimi K2.6 - 模型发布与开源:2026/4/20发布并开源Kimi K2.6模型,带来行业领先的代码、长程任务执行和Agent集群能力[2][48] - 综合能力领先:在Humanity's Last Exam、SWE-Bench Pro、DeepSearchQA等基准测试中成绩行业领先,持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型[48] - 强大的代码与长程能力:是迄今最强的代码模型,可不间断编码13小时,编写或修改超过4000行代码;在内部代码评测基准Kimi Code Bench中,成绩比K2.5提升约20%[52][53] - 增强的Agent能力:驱动的「Agent集群」架构支持300个子Agent并行完成4000个协作步骤;针对OpenClaw等主动式Agent框架,支持长达5天的持续自主运行[55] Minimax MMX-CLI - 发布全模态命令行工具:2026/4/9发布MMX-CLI,一个为Agent设计的全模态命令行工具,使Agent工作流进一步完整化自动化[2][56] - 提升Agent可用性:接入后,Agent可在Claude Code、OpenClaw等环境中原生调用MiniMax的全模态模型,独立跑通“资料搜集—生成文案—合成语音旁白—配图配乐—视频制作”的完整自动化工作流[56] - 底层专门优化:通过输出隔离与纯数据模式、语义化状态码(Exit Code)、非阻塞与异步任务控制等设计,提升Agent在自动化运行中的稳定性和解析准确性[58][60][61]
计算机行业周报:谷歌Agent与多模态能力重磅升级,国内外模型持续进化