Workflow
多模态理解与生成
icon
搜索文档
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
机器之心· 2025-06-22 12:26
核心观点 - 南洋理工大学S-Lab和商汤科技推出开源多模态模型OpenUni,仅用1 1B参数达到8B模型性能,并开源代码、权重和数据[1][5] - OpenUni通过极简架构设计实现高效参数利用,在多项基准测试中表现优异[5][16] - 该模型为研究社区提供了清晰可复现的基线实现,促进多模态领域创新[18][20] 架构设计 - 采用256个可学习查询和6层轻量连接器桥接冻结的InternVL与SANA[2] - 相比MetaQuery的24层连接器大幅精简,仅保留6层transformer连接器[5] - 包含四个核心组件:可学习查询、冻结InternVL、6层ViT连接器、SANA扩散模型[5] 性能表现 - OpenUni-B-512(1 1B参数)GenEval达0 84分,与BLIP3-o-8B持平[5][16] - OpenUni-L-1024(3 1B参数)GenEval达0 86分,创开源统一模型最佳记录[16] - DPG-Bench测试中OpenUni-L-1024获83 08分,超越所有MetaQuery和BLIP3-o变体[16] 参数效率 - 连接器参数大幅减少:OpenUni-B仅54M,OpenUni-L仅225M[6] - 使用更小规模的MLLM和扩散模型(InternVL3-1B/2B+SANA-0 6B/1 6B)[6] - 训练数据量仅2300万图文对,低于同类模型的2500-3000万[6][7] 训练策略 - 两阶段训练:预训练(2300万图文对)+微调(6万图文对)[7][9] - 第一阶段冻结扩散模型,学习率1e-4,批次大小512[8][9] - 第二阶段解冻扩散模型联合优化,学习率1e-5,批次大小256[8][9] 开源贡献 - 完整开源模型权重、训练代码和2300万数据集[1][19] - 提供详细文档包含训练配置和复现指南[19] - 数据集包含LLM/MLLM重新标注的高质量caption[19] 应用局限 - 生成图像中渲染文字能力有限[19] - 最大模型基于2B MLLM和1 6B扩散模型,规模有待扩展[19] - 图像到图像生成功能将在未来版本支持[19]