Workflow
Nano Banana Pro 图像模型
icon
搜索文档
模型出现了关键跃迁
国盛证券· 2025-11-23 18:32
行业投资评级 - 增持(维持)[7] 核心观点 - 谷歌近期发布的Gemini 3系列模型、Nano Banana Pro图像模型及Antigravity开发平台标志着大模型能力出现关键跃迁,在多模态理解、推理与Agent能力上实现全方位突破[1][11] - 其中,Screen UnderStanding能力的大幅提升是驱动AI应用落地的关键突破,能精准解读结构化/非结构化文档,并有望通过直接操作GUI界面极大扩展自动化场景[2][21][26] - 模型能力的持续迭代催生了强大的自定义Agent应用前景,尤其在金融等专业领域,可构建个人知识库、智能助手等,提升工作效率[3][28] 模型能力突破 - **Gemini 3 Pro多模态理解能力登顶**:在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5(36.2%)和GPT 5.1(3.5%)[11][21] - **推理与长期规划能力显著提升**:在Vending-Bench 2长期任务测试中表现最佳,能保持一致的决策能力带来更高回报[12] - **Deep Think模式突破AGI相关推理**:在ARC-AGI评测中取得45.1%的高分,在GPQA Diamond评测中达93.8%[12] - **Agentic能力增强**:编程和工具使用能力更可靠,可同时执行多步骤任务[1][14] 图像与开发平台进展 - **Nano Banana Pro具备物理逻辑的图像生成**:提供原生2K分辨率、物理精确光照,完美解决图像生成中文本渲染错误的痛点[1][14] - **Antigravity智能工作台**:提供AI驱动IDE与多智能体管理界面,智能体拥有专属工作空间,支持同步与异步工作流程[1][18] Screen UnderStanding的关键意义 - **突破API开放程度障碍**:模型可直接操作任何为人类设计的图形界面(GUI),使AI能操作没有API的软件,从辅助工具进化为数字员工[2][26] - **通向物理机器人能力的桥梁**:理解屏幕并点击的逻辑与机器人理解世界并行动的逻辑高度同构,未来可迁移到对设备面板、仪表等真实世界环境的识别与操作[2][27] 自定义Agent应用展望 - **个人投研知识库**:支持资料检索、分析和分享汇报,可追踪引用轨迹与反馈意见,快速生成带数据支撑的观点摘要[3][28] - **智能群发与信息整理助手**:实现带差异化称呼的群发及自动回复闭环,利用大模型提炼微信消息、研报等海量信息的要点[3][29] - **个性化研究助理与编程工具**:可指定输出风格(如附权威信息来源),通过对话利用AI编程能力制作数据分析、报销助手等实用工具[3][32][33] - **整合型生活助手**:类似美团“小美”,且有望对接竞争厂商平台,实现各种生活服务的整合与对比[3][34] 建议关注领域及公司 - **算力**:报告列举了超过40家相关公司,包括寒武纪、海光信息、中科曙光、浪潮信息等[4][37] - **Agent**:报告列举了超过60家相关公司,包括谷歌、阿里巴巴、腾讯控股、科大讯飞、恒生电子等[4][38] - **自动驾驶**:报告列举了江淮汽车、赛力斯、小鹏汽车、理想汽车、地平线等公司[5][38] - **军工AI**:报告列举了拓尔思、能科科技、普天科技、中科星图等公司[5][38]