Workflow
统一模型
icon
搜索文档
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
量子位· 2026-03-06 11:36
公司及产品介绍 - Luma AI公司发布了一个全新的统一图像理解与生成模型,名为Uni-1,该模型正面对标谷歌的Nano Banana Pro和OpenAI的GPT Image 1.5 [1] - Uni-1模型具备多种能力,包括角色姿态迁移、故事板生成、草稿转漫画、多参考图场景合成、UV贴图生成、带有文字的贺卡海报生成等 [3] - 实现这一惊艳效果的Uni-1模型,其研发团队规模不到15人,且是一支华人研究团队 [8] 技术能力与性能表现 - 在多项权威任务评测中,Uni-1的表现不仅能够对标Nano Banana Pro和GPT Image 1.5,部分任务的表现更是达到世界领先水平 [6] - 在中文文字渲染任务中,Uni-1生成的马年新春贺卡文字内容完整、排版合理,而GPT Image 1.5出现了文字混乱,Nano Banana Pro的文字渲染也有明显瑕疵 [11][12] - 在多参考图场景合成任务中,Uni-1能够精确还原每张参考图的身份特征,并将它们合理地组织进同一个会议场景,而竞品模型则存在直接将参考图“贴”到场景或融合失败的问题 [15][16] - 在信息图提取任务中,Uni-1准确还原了实拍海报的完整布局、所有文字、正确配色及细节,而竞品模型出现了文字缺失、颜色错误或logo问题 [21] - 在草稿转漫画任务中,Uni-1完美地将粗糙草稿意图转化为专业漫画,精准还原了分格构图、对话气泡及所有细节 [26] - 在生成6帧故事板的任务中,Uni-1展现了跨帧角色一致性和时间叙事能力,在6帧画面中保持了角色身份、钢琴、透视和画风的一致性 [31] - 在UV贴图生成任务中,Uni-1生成的结果在面部对齐、左右对称和肤色一致性上明显优于GPT Image 1.5和Nano Banana Pro,显示出对三维空间结构的深层理解 [37][38][39] - 在RISEBench基准测试(评估时间、因果、空间和逻辑推理)上,Uni-1取得了世界最优成绩 [48] - 在开放词汇密集检测(ODin W-13)基准上,Uni-1也展现出了强劲的竞争力,在一个传统上由纯理解模型主导的领域不输专门模型 [50] 团队背景与技术路径 - 团队的研究负责人之一是宋佳铭,其发明的DDIM(Denoising Diffusion Implicit Models)论文被引用超过万次,并获得ICLR 2022 Outstanding Paper Award,该技术是众多扩散模型图像生成工具的基础 [41][42] - 另一位研究负责人是沈博魁,其代表作获得了CVPR 2018 Best Paper Award,并入选RSS 2022 Best Student Paper Finalist [44] - 团队选择的技术路线与大厂不同,不是把图像理解和生成分开,而是采用decoder-only自回归Transformer架构,在一个统一框架内同时建模时间、空间和逻辑,让模型同时具备理解和生成能力 [45][46] - 公司发现生成训练能显著提升模型的理解能力,这与人类的认知规律高度一致 [47] - 在推理式生成任务中,Uni-1会在合成图像前进行结构化的内部推理,即先分解指令、规划构图,然后再渲染输出 [48] 行业意义与未来展望 - Uni-1的成功表明,统一模型可能是下一代视觉AI的发展方向,当理解和生成由同一个模型完成,许多过去需要复杂流程的任务可以在一个模型内优雅解决 [51] - 这一成就证明顶尖的AI研究不一定需要万人团队和无限算力,在正确的技术路线上,优秀的人才密度可以弥补资源的差距 [52] - Luma AI表示,Uni-1只是第一步,下一阶段计划将统一框架从静态图像扩展到视频、语音、交互式世界模拟,最终目标是构建能够“看、说、推理、想象”的统一多模态系统 [52][53]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 08:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源
量子位· 2025-08-01 12:23
核心观点 - ModelScope团队发布Nexus-Gen V2模型,整合了视觉语言模型(VLM)和扩散模型,实现图像理解、生成和编辑的统一架构,并开源模型权重、训练流程及2600万样本数据集[1][3][30] - 模型通过多任务协同优化解决V1版本的理解能力退化、生成鲁棒性不足和编辑细节丢失问题,采用81个token的平衡方案提升性能[17][19][22] - 在图像理解、生成和编辑三大任务的评测中,Nexus-Gen V2达到第一梯队水平,尤其在中文支持方面仅需2.5M标注数据即可实现能力[34][36][39][42] 模型架构 - 核心设计将扩散模型作为自回归语言模型的视觉解码器,使用统一图像编码空间连接两者,输入图像通过视觉编码器处理后由自回归模型预测特征向量[10][12] - 自回归模型基于Qwen2.5-VL-7B-Instruct的语言模块,视觉解码器采用Flux-1-Dev,训练时固定输出81个token以平衡语义保持与生成质量[13][15][19] - 创新性提出预填充自回归策略,通过可学习特殊token解决连续特征预测的误差累积问题,保持训练与推理行为一致性[25][28] 训练优化 - 采用三阶段训练:自回归模型大规模预训练(26M样本)、美学微调(4.3M高质量样本)、视觉解码器条件适配(生成2M样本/编辑专用数据)[13][15][29] - 关键参数包括学习率1e-5、余弦调度器、512批量大小,图像生成数据采用长短描述混合标注策略提升鲁棒性[3][29][33] - 数据集构建上,对Cambrian-7M理解数据重标注答案,合成数据占比超50%,并创建高质量编辑数据集ImagePulse解决开源数据质量缺陷[33][34] 性能表现 - 图像理解能力接近基线模型Qwen2.5-VL-7B,MME-C得分637.5(基线640.3),SEED指标达77.1(基线77.4)[36][37] - 图像生成在GenEval评测总分0.77,经指令微调后提升至0.81,中文生成仅需2.5M标注数据实现[34][39] - 图像编辑CLIP-T得分0.324优于同类模型,编辑解码器使CLIP-O指标达0.909,显著改善细节保持[41][42] 行业意义 - 验证了VLM与扩散模型整合的技术路线可行性,与GPT-4o、Gemini等大厂方案形成竞争,推动统一模型发展[1][43] - 开源全链路资源(模型/数据/训练流程)降低行业门槛,2600万数据集包含580万理解/1330万生成/630万编辑样本[3][30][44] - 多任务统一训练展现协同效应,为构建具备多模态推理能力的下一代世界模型提供实践基础[43]