行业动态与竞争格局 - 2024年以来,图像生成模型迭代速度加快,Google的Nano Banana升级至2.0,OpenAI推出了GPT-Image 2 [1] - 在第三方盲测平台LMArena的图像生成实验室榜单中,Luma AI的Uni-1.1与Uni-1.1-Max排名第三,仅次于OpenAI和Google,领先于Microsoft AI、xAI、Reve、阿里、Black Forest Labs、腾讯与字节等公司 [2][4] - 该模型在榜单上的模型得分为1193分,与排名第一的OpenAI模型(1398分)和排名第二的Google模型(1268分)存在差距,但已进入头部阵营 [4] 产品核心能力与技术特点 - 模型采用统一架构,在同一个decoder-only自回归Transformer模型内同时处理图像理解与生成任务,将文本token与图像token置于同一交错序列进行建模 [29][31] - 技术路线旨在解决传统多模态系统中理解与生成分立导致的工程问题,如跨模态信息多次传递对齐成本高、多轮编辑状态保持困难等 [29][30] - 该架构使得模型能在像素生成前于结构层面解决构图、空间关系、品牌一致性等约束,实现“先理解意图,再生成像素” [31] - 模型在生成训练中提升了细粒度理解能力,体现了“生成式心智模型”的特点,这是公司选择统一架构的重要动机之一 [33] 产品性能与用例展示 - 模型专注于在结构化、长版面、多对象、多轮迭代等复杂生产场景下稳定输出,而不仅仅是比拼图像美观度 [8] - 能够单次生成包含报头、导航、新闻、广告、页脚等十几类版式元素且英文文本真实可读的完整新闻网站页面 [10][12] - 能够生成风格统一、包含多语义层(如分类水印、坐标尺、结构标注、表单字段)的工程绘图风格图像 [14][17] - 能够在同一幅插画中按比例准确呈现二十余型运载火箭,并同时保持型号、国家、高度、首飞年份等多标签信息正确 [20][21] - 能够处理中文版面挑战,生成包含可读中文标题、经营信息及十二张缩略图阵列的海报,并保持缩略图中同一主体角色的身份一致性 [27] - 支持生产级功能:单次调用最多支持9张参考图作为模型层级硬约束进行融合,以保持品牌形象、产品等视觉身份 [38];支持多轮按句编辑,修改时默认保留其他元素,身份与空间关系跨轮稳定 [38] 商业化与市场应用 - 已开放API,提供按量计费的Build计划和带预留吞吐的Scale计划 [1][35] - Build计划中,文生图单图(2048px)价格区间为$0.0404至$0.1000,价格与延迟均不到同类模型的一半 [3][36] - Scale计划主要面向品牌资产基础设施、多市场内容生成等流水线级生产管线,最低8单元起订 [37] - 已获得Adidas、Mazda、Publicis Groupe、Serviceplan等品牌与广告集团接入,并集成至多个创作者平台 [5] - 一个实际应用案例显示,某品牌预算约1500万美元、周期一年的多国广告本地化活动,通过基于Uni-1.1的工作流,在约40小时内以低于2万美元的成本完成并通过审核 [5] - 对于跨国品牌,该API的核心吸引力在于能将广告本地化、电商按需生图、IP角色一致性维护等工作流程化、自动化,大幅降低成本与时间 [40] 公司团队与发展战略 - 核心研究团队规模不到15人,由两位华人学者领衔:首席科学家宋佳铭(扩散模型采样加速奠基人)和Uni系列模型研究负责人沈博魁(计算机视觉顶会最佳论文得主) [2][44][47] - 团队选择了与大厂不同的技术路径,致力于用统一模型同时解决理解与生成问题 [45] - 按路线图,统一框架将从静态图像扩展至视频、语音与交互式世界模拟,最终目标是将“看、说、推理、想象”整合到同一条连续流中 [45] - 该模型作为“统一智能”路线的第一代产品,以较小团队和精简模型在取得第三方盲测高排名的同时,显著降低了市场价格 [42][45]
Luma Uni-1.1 API开放,图像模型榜单第三,文字渲染直逼GPT image 2
机器之心·2026-05-06 14:04