Multimodal Unified Pretrained Model

搜索文档
昆仑万维:正式推出并开源多模态统一预训练模型Skywork UniPic
证券时报网· 2025-07-30 11:04
模型技术特点 - 推出自回归多模态统一预训练模型Skywork UniPic 深度融合图像理解 文本到图像生成和图像编辑三大核心能力 [1] - 采用MAR编码器作为图像生成路径的视觉表征基础 引入SigLIP2作为图像理解路径主干 突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限 [1] - 通过共享编码器实现跨任务深度协同 完成端到端优化流程 实现生成 理解 编辑三大能力的协同训练和相互促进 [2] 模型性能优势 - 以1.5B紧凑参数规模实现"小而美"的技术美学 保持自回归模型简洁高效特性 [2] - 单一模型支持多模态功能 用户输入提示词即可实现图像理解 图片生成及风格转绘/吉卜力化编辑功能 [2] - 基于大规模高质量数据端到端预训练 具备良好通用性与可迁移性 为实用化部署奠定坚实基础 [1][2] 公司技术布局 - 过去半年先后开源多个SOTA大模型 涵盖奖励模型 推理 软件工程 多模态和空间智能等领域 [2] - Skywork-UniPic正式加入"Skywork"开源大家庭 延续GPT-4o自回归范式 构建真正统一的多模态模型架构 [1][2]