字节开源多模态模型BAGEL - 公司开源了GPT-4o级别的图像生成能力,模型名为BAGEL,具备多模态统一功能[1][2] - 模型活跃参数7B(总计14B),性能超越或媲美Stable Diffusion 3、FLUX.1等开源模型及GPT-4o、Gemini 2.0等闭源模型[3] - 模型发布后迅速登上Hugging Face趋势榜并引发热议,获OpenAI研究员公开赞赏[4][6] BAGEL模型核心功能 - 实现带图推理、图像编辑、3D生成等多模态功能统一[9][32] - 支持无缝多轮对话,如生成图片后自动设计公仔形象及销售口号[15][16][18] - 具备复杂图像编辑能力,包括一键试妆、人物表情转换、凭空造物等[20][21][25] - 拥有多视角合成和导航等"世界建模"能力,如360°展示手办、沉浸式场景推进[27][28][30] 模型技术架构 - 采用MoT架构,含两个Transformer专家分别处理多模态理解和生成[34] - 使用双视觉编码器:像素级编码器捕捉颜色/纹理,语义级编码器分析物体类别/场景含义[35] - 基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型微调,采用FLUX.1-schnell VAE模型[35] 涌现能力新发现 - 提出"涌现能力"新定义:早期训练未出现而在后续预训练中出现的能力[36] - 发现能力形成顺序:多模态理解/生成→基础编辑→复杂智能编辑[36][37] - VAE与ViT特征结合可显著提升智能编辑能力[38] 性能基准测试 - 图像理解任务中,7B参数的BAGEL优于Janus-Pro等统一模型及Qwen2.5-VL等专用模型[40][41] - 在MME-P(1687)、MMBench(85.0)、MMMU(55.3)等测试中领先同类7B模型[42] - 图像生成总体评分达0.82,与FLUX.1-dev持平,超过SD3-Medium(0.74)[48] - 图片编辑能力媲美Step1X-Edit,优于Gemini 2.0,GEdit-Bench-EN评分达7.36[49]
字节把GPT-4o级图像生成能力开源了!
量子位·2025-05-24 14:30