谷歌再发香蕉！通用视觉模型Vision Banana刷新2D/3D多项SOTA，何恺明谢赛宁参与

文章核心观点 - 谷歌DeepMind发布通用多模态视觉大模型Vision Banana，其核心观点是：图像生成预训练可以成为通用视觉学习的统一范式，通过“指令微调+生成接口”的方式，将分割、深度估计、法线估计等多种视觉感知任务统一为生成可解码RGB图像这一件事[1][3][8][12][13][34] - 该模型在零样本迁移下，于多个核心视觉任务上击败了SAM 3、Depth Anything V3等专用模型，刷新了多项SOTA（State-of-the-art）记录[3][36] - 这标志着视觉领域可能正在迎来类似NLP（自然语言处理）领域由生成式预训练（LLM）引发的范式转变，即一个模型可以同时胜任生成与理解任务[33][34][49][50] 模型架构与技术路径 - 技术底座：以谷歌自研的生成式基座模型Nano Banana Pro为底座[1][13] - 统一方法：采用轻量指令微调，将所有感知任务（分割、深度、法线）统一为生成可解码的RGB图像[13][22] - 实现三步曲： 1. 自然语言提示指定输出格式：利用生成模型的多模态理解能力，通过文本指令（如指定颜色映射）来定义任务输出[16][17] 2. 设计可反向解码的RGB编码：将不同感知任务的输出（法线向量、语义类别、深度值）编码为一张普通的RGB图像，且编码过程可逆，确保信息无损[18][19][20][21] 3. 轻量指令微调：仅在原有文生图训练数据中少量混入视觉任务数据进行对齐，成本极低[22][24] 性能表现与优势 - 全面超越专用模型：在零样本迁移设定下，于2D和3D理解任务上全面超越当前专用模型[3][36] - 2D理解：语义分割mIoU达0.699，超越SAM 3；指代分割刷新零样本SOTA；实例分割与顶级模型DINO-X持平[37] - 3D理解：深度估计、表面法线估计双双刷新SOTA[39] - 关键优势细节： - 无需相机内参：模型在训练和推理时均不需要相机内参，而其他SOTA深度模型（如DepthLM、Depth Anything V3等）至少在训练时需要[36][42][43] - 保持原生生成能力：轻量微调后，未损失原有的文生图和图像编辑能力。在GenAI-Bench上对Nano Banana Pro的胜率为53.5%，在ImgEdit上的胜率为47.8%[45][46][48] - 高效通用：一套权重通吃所有任务，仅通过切换指令即可切换任务，且无需大量新增标注数据[24] 行业意义与范式转变 - 统一视觉任务范式：Vision Banana证明了图像生成模型在生成像素的过程中，已经学会了理解视觉世界的表征（如物体边界、深度关系、几何结构），通过提供合适的输出接口，即可释放这些理解能力[12][26][27] - 解决一对多问题：生成式建模天然学习完整的数据分布，能够更好地处理视觉任务中固有的“一对多”输出模糊性问题（如深度估计），而判别式模型需要专门设计架构来避免模糊[29][30][32] - 类比NLP革命：如同大型语言模型（LLM）通过文本生成统一了所有NLP任务，Vision Banana展示了图像生成成为视觉领域统一接口的潜力，可能引领视觉研究从判别式学习转向生成式统一的新范式[8][33][34][50] 团队背景 - 该项目由谷歌DeepMind的25位研究者共同参与[51] - 核心领导作者包括： - Valentin Gabeur：谷歌DeepMind研究员，专攻多模态学习，曾是Meta AI博士后，也是SAM 2的共同一作[53] - Shangbang Long：谷歌DeepMind研究员，专攻识别、检测、分割，北京大学校友，曾参与Gemini Robotics等项目[56][57] - Songyou Peng (彭崧猷)：谷歌DeepMind研究科学家，长期深耕3D视觉，负责了Gemini和Nano Banana的多模态理解与生成[59][60] - 何恺明与谢赛宁作为Leadership Sponsors参与支持了此项工作[61]