谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与
量子位·2026-04-24 16:00

文章核心观点 - 谷歌DeepMind发布通用多模态视觉大模型Vision Banana,其核心观点是:图像生成预训练可以成为通用视觉学习的统一范式,通过“指令微调+生成接口”的方式,将分割、深度估计、法线估计等多种视觉感知任务统一为生成可解码RGB图像这一件事[1][3][8][12][13][34] - 该模型在零样本迁移下,于多个核心视觉任务上击败了SAM 3、Depth Anything V3等专用模型,刷新了多项SOTA(State-of-the-art)记录[3][36] - 这标志着视觉领域可能正在迎来类似NLP(自然语言处理)领域由生成式预训练(LLM)引发的范式转变,即一个模型可以同时胜任生成与理解任务[33][34][49][50] 模型架构与技术路径 - 技术底座:以谷歌自研的生成式基座模型Nano Banana Pro为底座[1][13] - 统一方法:采用轻量指令微调,将所有感知任务(分割、深度、法线)统一为生成可解码的RGB图像[13][22] - 实现三步曲: 1. 自然语言提示指定输出格式:利用生成模型的多模态理解能力,通过文本指令(如指定颜色映射)来定义任务输出[16][17] 2. 设计可反向解码的RGB编码:将不同感知任务的输出(法线向量、语义类别、深度值)编码为一张普通的RGB图像,且编码过程可逆,确保信息无损[18][19][20][21] 3. 轻量指令微调:仅在原有文生图训练数据中少量混入视觉任务数据进行对齐,成本极低[22][24] 性能表现与优势 - 全面超越专用模型:在零样本迁移设定下,于2D和3D理解任务上全面超越当前专用模型[3][36] - 2D理解:语义分割mIoU达0.699,超越SAM 3;指代分割刷新零样本SOTA;实例分割与顶级模型DINO-X持平[37] - 3D理解:深度估计、表面法线估计双双刷新SOTA[39] - 关键优势细节: - 无需相机内参:模型在训练和推理时均不需要相机内参,而其他SOTA深度模型(如DepthLM、Depth Anything V3等)至少在训练时需要[36][42][43] - 保持原生生成能力:轻量微调后,未损失原有的文生图和图像编辑能力。在GenAI-Bench上对Nano Banana Pro的胜率为53.5%,在ImgEdit上的胜率为47.8%[45][46][48] - 高效通用:一套权重通吃所有任务,仅通过切换指令即可切换任务,且无需大量新增标注数据[24] 行业意义与范式转变 - 统一视觉任务范式:Vision Banana证明了图像生成模型在生成像素的过程中,已经学会了理解视觉世界的表征(如物体边界、深度关系、几何结构),通过提供合适的输出接口,即可释放这些理解能力[12][26][27] - 解决一对多问题:生成式建模天然学习完整的数据分布,能够更好地处理视觉任务中固有的“一对多”输出模糊性问题(如深度估计),而判别式模型需要专门设计架构来避免模糊[29][30][32] - 类比NLP革命:如同大型语言模型(LLM)通过文本生成统一了所有NLP任务,Vision Banana展示了图像生成成为视觉领域统一接口的潜力,可能引领视觉研究从判别式学习转向生成式统一的新范式[8][33][34][50] 团队背景 - 该项目由谷歌DeepMind的25位研究者共同参与[51] - 核心领导作者包括: - Valentin Gabeur:谷歌DeepMind研究员,专攻多模态学习,曾是Meta AI博士后,也是SAM 2的共同一作[53] - Shangbang Long:谷歌DeepMind研究员,专攻识别、检测、分割,北京大学校友,曾参与Gemini Robotics等项目[56][57] - Songyou Peng (彭崧猷):谷歌DeepMind研究科学家,长期深耕3D视觉,负责了Gemini和Nano Banana的多模态理解与生成[59][60] - 何恺明与谢赛宁作为Leadership Sponsors参与支持了此项工作[61]

谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与 - Reportify