不卷参数卷架构,这个开源模型把图像理解和生成统一了
商汤商汤(HK:00020) 量子位·2026-04-28 21:39

文章核心观点 商汤科技开源了全新的理解生成统一模型SenseNova U1,该模型在图文交错生成、信息图制作等复杂任务上表现出色,其创新的NEO-unify架构实现了文本与图像在同一表征空间的原生融合,在多项指标上达到开源模型领先水平,并提供了从8B到38B的不同规格版本供开发者使用 [3][25][111][126] 模型核心能力与特点 - 连续性图文创作:模型能够像人类一样,在单次输出中自然地交叉生成文字和图片,实现“边思考边画草图”,解决了传统模型在语义保持和像素保真度之间的权衡难题 [32][33][35][36] - 高密度信息图生成:模型擅长处理信息图、文字密集排版、图文交错等曾被公认是AI生图难题的任务,能够生成包含简历海报、操作教程、故事连环画、产品爆炸图等复杂排版的图像 [24][75][77][97] - 主体一致性:在生成多步骤内容时,能够保持核心主体(如故事角色、食材)的形象高度一致,避免了传统多模型调用方案中角色走样的问题 [38][73][74] - 具备初步推理与物理常识:模型在图像编辑等任务中展现出推理能力,例如能根据物理变化规律推导“一小时后的热茶”或“成熟香蕉”的状态,而非简单替换 [100][101][102][106][110] 技术架构与性能 - 统一架构NEO-unify:模型采用创新的NEO-unify架构,摒弃了传统的视觉编码器与变分自编码器分离的模式,实现了“直接吃像素,直接吐像素”,让理解和生成在同一个网络中完成 [111][113][114] - 技术实现三步:引入近似无损的视觉接口统一输入输出表示;使用Mixture-of-Transformer作为主干网络,让理解和生成共享底层;文本采用自回归,视觉采用像素流匹配,两套目标函数在同一框架内学习 [115][116][117] - 模型规格与性能:提供两个规格,包括参数为8B的端侧可运行版本,以及总参数为38B的MoE架构版本,在多项图像理解与生成指标上登顶开源模型榜首 [25][126] - 推理速度:配备自研推理栈,在H100/H200单节点上,生成一张2048×2048分辨率的图像,端到端耗时约9秒,响应速度逼近主流商用闭源模型 [27][126] 开源生态与可用性 - 模型完全开源:SenseNova-U1的两个模型已在Hugging Face和GitHub等平台全网开源,可供开发者直接下载使用 [131] - 配套技能包:同时开源了SenseNova-Skills技能包,将U1封装成可被Agent直接调用的工具,覆盖图像生成、PPT制作、Excel数据分析等87种版式和66种风格 [129][130][131] - 明确模型局限:公司在README中明确列出了模型的当前局限,包括32K的上下文长度限制、复杂场景人物细节不稳定、长文字渲染偶有错误等,并标注将持续改进 [127][128]

不卷参数卷架构,这个开源模型把图像理解和生成统一了 - Reportify