Workflow
日日新SenseNova U1系列原生理解生成统一模型
icon
搜索文档
原生理解生成统一:商汤开源SenseNova U1,用统一架构终结「缝合怪」多模态
机器之心· 2026-04-28 21:27
文章核心观点 - 商汤科技发布并全面开源了其原生理解生成统一模型系列 SenseNova U1 Lite,该模型通过创新的 NEO-Unify 架构,在较小的参数规模(8B)下实现了高效、连贯的图文理解与生成能力,尤其在信息图生成和连续性图文创作方面表现突出,为行业提供了一个可替代 OpenAI GPT Image 2 的高效、低门槛选择 [3][4][8][69][71] 模型发布与定位 - 商汤发布的是 SenseNova U1 系列的轻量版 SenseNova U1 Lite,包含 SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT 两个版本 [10] - 该模型完全开源,代码托管于 GitHub,模型权重在 Hugging Face 提供下载,不受使用次数束缚 [4][12][69] - 模型定位为国产开源模型,旨在为国内用户提供一个更低门槛、更易体验的选择,以应对类似 GPT Image 2 等海外模型的使用门槛 [2][3] 技术架构与核心优势 - 模型采用名为 NEO-Unify 的原生多模态统一架构,将视觉和语言信息在同一个内部空间中进行协同计算,解决了传统多模态模型中理解与生成之间的断层问题 [8][58] - 该架构的优势在于信息路径更短、效率更高,减少了模块间信息转换的损耗,让小规模模型能释放更高的有效能力 [59][60][61] - 模型仅需 8B 参数,就能实现与许多商业闭源模型类似的效果,体现了架构带来的计算效率提升 [8][61] 性能表现与基准测试 - 在图像理解与生成基准测试中,SenseNova-U1-8B-MoT 在通用理解、空间理解等多个测试中取得领先成绩,甚至超过了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大规模模型 [11] - 在信息图生成(Infographics)的一项测试中,SenseNova U1 Lite 获得 39.8 的高分,领先于 Qwen-Image 等模型 [14] - 在文字渲染(Text Rendering)测试中,SenseNova U1 Lite 的成绩几乎全面领先,证明了其在视觉化文字上的精准度 [14] - 在视觉推理(VBVR (UMM))测试中,模型获得 60.5 的高分,超过对比模型如 Nano-Banana 的 49.6 分 [16] - 在基于人类意图的视觉修改(WISE)测试中,模型取得 69.0 的优异成绩,领先于 Qwen-Image 的 63.0 分 [16] - 在 GEdit-Bench 测试中得分为 7.47,在同量级开源模型中处于顶尖位置 [17] 实际应用与功能演示 - 模型实现了业内首个连续性的图文创作输出能力,能在同一套推理过程中让图像和文字同步生成,保证了逻辑连贯与风格统一 [9][21][24] - 能够高效生成复杂高密度信息图,将论文摘要、操作流程等高密度信息重新组织,以直观的视觉结构呈现 [34][39][54] - 实际演示案例包括:生成故事连环画、电影运镜教程图解、短发造型信息图、占星术海报、论文图解、武侠江湖禁忌图、柠檬用途指南、名著信息图、刺绣入门指南、城市明信片等,展示了其在多样化、高信息密度场景下的强大处理能力 [23][30][35][37][39][41][46][47][49][51] 效率与实用性 - SenseNova-U1-8B-MoT 在生成速度上表现突出,延迟大约只有 15 秒 / 2K 图,是所有对比模型中生成速度最快的一个,同时在平均得分上接近主流商业模型(约67分) [62] - 模型在低延迟条件下保持了较高的生成质量,体现出很强的单位时间产出能力,更接近实际生产中对快速、稳定、高质量出图的需求 [62] - 其小参数、高效率的特点,有助于开发者在资源受限的环境下享受高效的多模态能力 [70] 行业影响与开源意义 - 商汤此次全面开源在架构层面有实质创新、且跑通了理解-生成-统一路线的模型,意味着这套方法可供学术界审视、开发者社区打磨,并为产业伙伴提供直接可用的基础设施 [69] - 在行业普遍追求生成质量时,商汤押注于“统一”本身,其全面开源使得这条技术路径变得开放和可及 [71]