Workflow
Vision Banana
icon
搜索文档
谷歌再发香蕉!通用视觉模型Vision Banana刷新2D/3D多项SOTA,何恺明谢赛宁参与
量子位· 2026-04-24 16:00
文章核心观点 - 谷歌DeepMind发布通用多模态视觉大模型Vision Banana,其核心观点是:**图像生成预训练可以成为通用视觉学习的统一范式**,通过“指令微调+生成接口”的方式,将分割、深度估计、法线估计等多种视觉感知任务统一为生成可解码RGB图像这一件事[1][3][8][12][13][34] - 该模型在零样本迁移下,于多个核心视觉任务上击败了SAM 3、Depth Anything V3等专用模型,刷新了多项SOTA(State-of-the-art)记录[3][36] - 这标志着视觉领域可能正在迎来类似NLP(自然语言处理)领域由生成式预训练(LLM)引发的范式转变,即一个模型可以同时胜任生成与理解任务[33][34][49][50] 模型架构与技术路径 - **技术底座**:以谷歌自研的生成式基座模型Nano Banana Pro为底座[1][13] - **统一方法**:采用**轻量指令微调**,将所有感知任务(分割、深度、法线)统一为**生成可解码的RGB图像**[13][22] - **实现三步曲**: 1. **自然语言提示指定输出格式**:利用生成模型的多模态理解能力,通过文本指令(如指定颜色映射)来定义任务输出[16][17] 2. **设计可反向解码的RGB编码**:将不同感知任务的输出(法线向量、语义类别、深度值)编码为一张普通的RGB图像,且编码过程可逆,确保信息无损[18][19][20][21] 3. **轻量指令微调**:仅在原有文生图训练数据中少量混入视觉任务数据进行对齐,成本极低[22][24] 性能表现与优势 - **全面超越专用模型**:在零样本迁移设定下,于2D和3D理解任务上全面超越当前专用模型[3][36] - **2D理解**:语义分割mIoU达**0.699**,超越SAM 3;指代分割刷新零样本SOTA;实例分割与顶级模型DINO-X持平[37] - **3D理解**:深度估计、表面法线估计双双刷新SOTA[39] - **关键优势细节**: - **无需相机内参**:模型在训练和推理时均**不需要相机内参**,而其他SOTA深度模型(如DepthLM、Depth Anything V3等)至少在训练时需要[36][42][43] - **保持原生生成能力**:轻量微调后,未损失原有的文生图和图像编辑能力。在GenAI-Bench上对Nano Banana Pro的胜率为**53.5%**,在ImgEdit上的胜率为**47.8%**[45][46][48] - **高效通用**:一套权重通吃所有任务,仅通过切换指令即可切换任务,且无需大量新增标注数据[24] 行业意义与范式转变 - **统一视觉任务范式**:Vision Banana证明了**图像生成模型在生成像素的过程中,已经学会了理解视觉世界的表征**(如物体边界、深度关系、几何结构),通过提供合适的输出接口,即可释放这些理解能力[12][26][27] - **解决一对多问题**:生成式建模天然学习完整的数据分布,能够更好地处理视觉任务中固有的“一对多”输出模糊性问题(如深度估计),而判别式模型需要专门设计架构来避免模糊[29][30][32] - **类比NLP革命**:如同大型语言模型(LLM)通过文本生成统一了所有NLP任务,Vision Banana展示了**图像生成成为视觉领域统一接口**的潜力,可能引领视觉研究从判别式学习转向生成式统一的新范式[8][33][34][50] 团队背景 - 该项目由谷歌DeepMind的**25位研究者**共同参与[51] - 核心领导作者包括: - **Valentin Gabeur**:谷歌DeepMind研究员,专攻多模态学习,曾是Meta AI博士后,也是SAM 2的共同一作[53] - **Shangbang Long**:谷歌DeepMind研究员,专攻识别、检测、分割,北京大学校友,曾参与Gemini Robotics等项目[56][57] - **Songyou Peng (彭崧猷)**:谷歌DeepMind研究科学家,长期深耕3D视觉,负责了Gemini和Nano Banana的多模态理解与生成[59][60] - **何恺明与谢赛宁**作为Leadership Sponsors参与支持了此项工作[61]