不卷参数卷架构，这个开源模型把图像理解和生成统一了

文章核心观点商汤科技开源了全新的理解生成统一模型SenseNova U1，该模型在图文交错生成、信息图制作等复杂任务上表现出色，其创新的NEO-unify架构实现了文本与图像在同一表征空间的原生融合，在多项指标上达到开源模型领先水平，并提供了从8B到38B的不同规格版本供开发者使用 [3][25][111][126] 模型核心能力与特点 - 连续性图文创作：模型能够像人类一样，在单次输出中自然地交叉生成文字和图片，实现“边思考边画草图”，解决了传统模型在语义保持和像素保真度之间的权衡难题 [32][33][35][36] - 高密度信息图生成：模型擅长处理信息图、文字密集排版、图文交错等曾被公认是AI生图难题的任务，能够生成包含简历海报、操作教程、故事连环画、产品爆炸图等复杂排版的图像 [24][75][77][97] - 主体一致性：在生成多步骤内容时，能够保持核心主体（如故事角色、食材）的形象高度一致，避免了传统多模型调用方案中角色走样的问题 [38][73][74] - 具备初步推理与物理常识：模型在图像编辑等任务中展现出推理能力，例如能根据物理变化规律推导“一小时后的热茶”或“成熟香蕉”的状态，而非简单替换 [100][101][102][106][110] 技术架构与性能 - 统一架构NEO-unify：模型采用创新的NEO-unify架构，摒弃了传统的视觉编码器与变分自编码器分离的模式，实现了“直接吃像素，直接吐像素”，让理解和生成在同一个网络中完成 [111][113][114] - 技术实现三步：引入近似无损的视觉接口统一输入输出表示；使用Mixture-of-Transformer作为主干网络，让理解和生成共享底层；文本采用自回归，视觉采用像素流匹配，两套目标函数在同一框架内学习 [115][116][117] - 模型规格与性能：提供两个规格，包括参数为8B的端侧可运行版本，以及总参数为38B的MoE架构版本，在多项图像理解与生成指标上登顶开源模型榜首 [25][126] - 推理速度：配备自研推理栈，在H100/H200单节点上，生成一张2048×2048分辨率的图像，端到端耗时约9秒，响应速度逼近主流商用闭源模型 [27][126] 开源生态与可用性 - 模型完全开源：SenseNova-U1的两个模型已在Hugging Face和GitHub等平台全网开源，可供开发者直接下载使用 [131] - 配套技能包：同时开源了SenseNova-Skills技能包，将U1封装成可被Agent直接调用的工具，覆盖图像生成、PPT制作、Excel数据分析等87种版式和66种风格 [129][130][131] - 明确模型局限：公司在README中明确列出了模型的当前局限，包括32K的上下文长度限制、复杂场景人物细节不稳定、长文字渲染偶有错误等，并标注将持续改进 [127][128]