多模态基础模型

搜索文档
千问团队开源图像基础模型 Qwen-Image
AI前线· 2025-09-02 14:52
模型技术架构 - 使用Qwen2.5-VL处理文本输入 变分自编码器(VAE)处理图像输入 多模态扩散变换器(MMDiT)进行图像生成 支持英语和中文文本渲染 [2] - 采用逐步提升图像分辨率的预训练策略 从256x256像素放大至640x640 再到1328x1328像素 [4] - 后训练分为两个阶段:监督微调(SFT)使用人工标注数据集生成逼真图像 强化学习(RL)通过人类评估者筛选最优图像 [4] 性能表现 - 在DPG GenEval GEdit ImgEdit等T2I和TI2I基准测试中总体得分最高 [2] - AI Arena人类评估排名第三 与五个高质量闭源模型竞争(包括GPT Image 1) [2] - 图像理解任务表现与专门训练模型"非常接近" 支持目标检测 语义分割 深度估计等多项功能 [2][4] 训练数据构建 - 训练数据集包含数十亿对图像文本对 涵盖自然(55%) 设计(27%) 人物和合成数据四大类别 [3] - 设计类图像包含丰富文本元素 所有数据经过严格筛选去除低质量样本 [3] - 通过标注框架为每张图像生成详细标题和元数据 [3] 技术特性 - 支持文本到图像(T2I)生成 文本图像到图像(TI2I)编辑 风格转换 对象添加删除 文本编辑等多元功能 [2][4] - 引入超现实风格合成图像 多样化分辨率分布图像 以及含渲染文本的图像增强训练效果 [4] - 开源代码发布于GitHub 模型文件可通过Huggingface下载 [4] 行业意义 - 代表多模态基础模型领域的范式转变 挑战生成模型在感知和认知建模中的传统角色 [2] - 推动视觉理解与生成界限模糊化 为交互式多模态智能体发展奠定基础 [2] - 社区评价认为其意义重大 功能覆盖全面 被形容为"多面手"型模型 [4]
苹果最新模型,5年前的iPhone能跑
36氪· 2025-09-01 19:37
8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模 型的预训练权重和数据生成代码。 智东西9月1日消息,苹果又公布了大模型研发新进展! MobileCLIP2专为零样本分类和检索任务设计,推理延迟在3-15毫秒之间,参数规模在50~1.5亿不等。 此前基于Transformer的大型编码器存在较大内存和延迟开销,为在移动设备上部署带来的挑战,基于此,苹果2023年11月发布端侧多模态大模型 MobileCLIP,通过多模态强化训练方法改进模型在端侧的部署效果,MobileCLIP2是其改进多模态强化训练方法后的升级版模型。 论文中提到,与上一代模型相比,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提高了2.2%。其模型变体MobileCLIP2-S4在 iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14。 此次其改进的多模特训练训练机制采用了改进的教师监督(Teacher Supervision) ...