Vision Banana - 财报，业绩电话会，研报，新闻

Vision Banana

搜索文档

谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与

量子位· 2026-04-24 16:00

文章核心观点 - 谷歌DeepMind发布通用多模态视觉大模型Vision Banana，其核心观点是：**图像生成预训练可以成为通用视觉学习的统一范式**，通过“指令微调+生成接口”的方式，将分割、深度估计、法线估计等多种视觉感知任务统一为生成可解码RGB图像这一件事[1][3][8][12][13][34] - 该模型在零样本迁移下，于多个核心视觉任务上击败了SAM 3、Depth Anything V3等专用模型，刷新了多项SOTA（State-of-the-art）记录[3][36] - 这标志着视觉领域可能正在迎来类似NLP（自然语言处理）领域由生成式预训练（LLM）引发的范式转变，即一个模型可以同时胜任生成与理解任务[33][34][49][50] 模型架构与技术路径 - **技术底座**：以谷歌自研的生成式基座模型Nano Banana Pro为底座[1][13] - **统一方法**：采用**轻量指令微调**，将所有感知任务（分割、深度、法线）统一为**生成可解码的RGB图像**[13][22] - **实现三步曲**： 1. **自然语言提示指定输出格式**：利用生成模型的多模态理解能力，通过文本指令（如指定颜色映射）来定义任务输出[16][17] 2. **设计可反向解码的RGB编码**：将不同感知任务的输出（法线向量、语义类别、深度值）编码为一张普通的RGB图像，且编码过程可逆，确保信息无损[18][19][20][21] 3. **轻量指令微调**：仅在原有文生图训练数据中少量混入视觉任务数据进行对齐，成本极低[22][24] 性能表现与优势 - **全面超越专用模型**：在零样本迁移设定下，于2D和3D理解任务上全面超越当前专用模型[3][36] - **2D理解**：语义分割mIoU达**0.699**，超越SAM 3；指代分割刷新零样本SOTA；实例分割与顶级模型DINO-X持平[37] - **3D理解**：深度估计、表面法线估计双双刷新SOTA[39] - **关键优势细节**： - **无需相机内参**：模型在训练和推理时均**不需要相机内参**，而其他SOTA深度模型（如DepthLM、Depth Anything V3等）至少在训练时需要[36][42][43] - **保持原生生成能力**：轻量微调后，未损失原有的文生图和图像编辑能力。在GenAI-Bench上对Nano Banana Pro的胜率为**53.5%**，在ImgEdit上的胜率为**47.8%**[45][46][48] - **高效通用**：一套权重通吃所有任务，仅通过切换指令即可切换任务，且无需大量新增标注数据[24] 行业意义与范式转变 - **统一视觉任务范式**：Vision Banana证明了**图像生成模型在生成像素的过程中，已经学会了理解视觉世界的表征**（如物体边界、深度关系、几何结构），通过提供合适的输出接口，即可释放这些理解能力[12][26][27] - **解决一对多问题**：生成式建模天然学习完整的数据分布，能够更好地处理视觉任务中固有的“一对多”输出模糊性问题（如深度估计），而判别式模型需要专门设计架构来避免模糊[29][30][32] - **类比NLP革命**：如同大型语言模型（LLM）通过文本生成统一了所有NLP任务，Vision Banana展示了**图像生成成为视觉领域统一接口**的潜力，可能引领视觉研究从判别式学习转向生成式统一的新范式[8][33][34][50] 团队背景 - 该项目由谷歌DeepMind的**25位研究者**共同参与[51] - 核心领导作者包括： - **Valentin Gabeur**：谷歌DeepMind研究员，专攻多模态学习，曾是Meta AI博士后，也是SAM 2的共同一作[53] - **Shangbang Long**：谷歌DeepMind研究员，专攻识别、检测、分割，北京大学校友，曾参与Gemini Robotics等项目[56][57] - **Songyou Peng (彭崧猷)**：谷歌DeepMind研究科学家，长期深耕3D视觉，负责了Gemini和Nano Banana的多模态理解与生成[59][60] - **何恺明与谢赛宁**作为Leadership Sponsors参与支持了此项工作[61]

图像生成预训练

通用视觉学习

Artificial Intelligence

Artificial Intelligence

Vision Banana

Nano Banana Pro