统一模型 - 财报，业绩电话会，研报，新闻

统一模型

搜索文档

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

量子位· 2026-03-06 11:36

公司及产品介绍 - Luma AI公司发布了一个全新的统一图像理解与生成模型，名为Uni-1，该模型正面对标谷歌的Nano Banana Pro和OpenAI的GPT Image 1.5 [1] - Uni-1模型具备多种能力，包括角色姿态迁移、故事板生成、草稿转漫画、多参考图场景合成、UV贴图生成、带有文字的贺卡海报生成等 [3] - 实现这一惊艳效果的Uni-1模型，其研发团队规模不到15人，且是一支华人研究团队 [8] 技术能力与性能表现 - 在多项权威任务评测中，Uni-1的表现不仅能够对标Nano Banana Pro和GPT Image 1.5，部分任务的表现更是达到世界领先水平 [6] - 在中文文字渲染任务中，Uni-1生成的马年新春贺卡文字内容完整、排版合理，而GPT Image 1.5出现了文字混乱，Nano Banana Pro的文字渲染也有明显瑕疵 [11][12] - 在多参考图场景合成任务中，Uni-1能够精确还原每张参考图的身份特征，并将它们合理地组织进同一个会议场景，而竞品模型则存在直接将参考图“贴”到场景或融合失败的问题 [15][16] - 在信息图提取任务中，Uni-1准确还原了实拍海报的完整布局、所有文字、正确配色及细节，而竞品模型出现了文字缺失、颜色错误或logo问题 [21] - 在草稿转漫画任务中，Uni-1完美地将粗糙草稿意图转化为专业漫画，精准还原了分格构图、对话气泡及所有细节 [26] - 在生成6帧故事板的任务中，Uni-1展现了跨帧角色一致性和时间叙事能力，在6帧画面中保持了角色身份、钢琴、透视和画风的一致性 [31] - 在UV贴图生成任务中，Uni-1生成的结果在面部对齐、左右对称和肤色一致性上明显优于GPT Image 1.5和Nano Banana Pro，显示出对三维空间结构的深层理解 [37][38][39] - 在RISEBench基准测试（评估时间、因果、空间和逻辑推理）上，Uni-1取得了世界最优成绩 [48] - 在开放词汇密集检测（ODin W-13）基准上，Uni-1也展现出了强劲的竞争力，在一个传统上由纯理解模型主导的领域不输专门模型 [50] 团队背景与技术路径 - 团队的研究负责人之一是宋佳铭，其发明的DDIM（Denoising Diffusion Implicit Models）论文被引用超过万次，并获得ICLR 2022 Outstanding Paper Award，该技术是众多扩散模型图像生成工具的基础 [41][42] - 另一位研究负责人是沈博魁，其代表作获得了CVPR 2018 Best Paper Award，并入选RSS 2022 Best Student Paper Finalist [44] - 团队选择的技术路线与大厂不同，不是把图像理解和生成分开，而是采用decoder-only自回归Transformer架构，在一个统一框架内同时建模时间、空间和逻辑，让模型同时具备理解和生成能力 [45][46] - 公司发现生成训练能显著提升模型的理解能力，这与人类的认知规律高度一致 [47] - 在推理式生成任务中，Uni-1会在合成图像前进行结构化的内部推理，即先分解指令、规划构图，然后再渲染输出 [48] 行业意义与未来展望 - Uni-1的成功表明，统一模型可能是下一代视觉AI的发展方向，当理解和生成由同一个模型完成，许多过去需要复杂流程的任务可以在一个模型内优雅解决 [51] - 这一成就证明顶尖的AI研究不一定需要万人团队和无限算力，在正确的技术路线上，优秀的人才密度可以弥补资源的差距 [52] - Luma AI表示，Uni-1只是第一步，下一阶段计划将统一框架从静态图像扩展到视频、语音、交互式世界模拟，最终目标是构建能够“看、说、推理、想象”的统一多模态系统 [52][53]

统一模型

视觉AI

Artificial Intelligence

Artificial Intelligence

Uni-1

Nano Banana Pro

GPT Image 1.5

视觉强化学习最新综述：全领域梳理（新加坡国立&浙大&港中文）

自动驾驶之心· 2025-08-16 08:03

研究背景与综述定位 - 视觉强化学习（Visual RL）的爆发源于强化学习在大语言模型（LLM）中的成功迁移，特别是RLHF（人类反馈强化学习）显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战：复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱（多模态LLM/视觉生成/统一模型/VLA模型）、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程（MDP），将文本/图像/视频生成统一为episodic MDP框架，状态包含用户prompt和已生成动作序列[15] - 三大对齐范式：RLHF（三阶段流程：SFT→奖励模型→PPO优化）、DPO（直接优化偏好数据）、RLVR（可验证奖励替代主观偏好）[18][19][20] - 策略优化算法PPO（带价值网络与KL惩罚）和GRPO（组相对优势+移除价值网络）分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域多模态大语言模型（MLLM） - 常规RL驱动型MLLM使用可验证奖励（如精确匹配/IoU）优化VLM骨干，代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D（Omni-R1双系统GRPO优化情感识别）和3D（MetaSpatial用渲染深度奖励优化AR场景生成）[34] - 图像推理分为"基于图像思考"（SVQA-R1用视图一致性奖励）和"用图像思考"（GRIT优化答案正确性+框精度）[35] 视觉生成 - 图像生成三大奖励范式：人类中心偏好优化（ImageReward）、多模态推理对齐（UnifiedReward）、Metric驱动优化（DDPO最小化FID）[37][40] - 视频生成通过偏好模型优化（InstructVideo）、组相对优化（DanceGRPO）、领域特定奖励（Phys-AR惩罚物理定律违反）提升时序一致性[41] - 3D生成采用RL优化文本-网格生成（DreamCS融合轮廓IoU与CLIP对齐）、交互式编辑（Nabla-R2D3用实时渲染验证奖励）[41] 视觉-语言-动作模型（VLA） - GUI自动化分桌面（GUI-R1映射点击成功为稠密奖励）和移动场景（AgentCPM-GUI压缩动作空间适配设备）[42] - 视觉导航采用端到端RL（VLN-R1时间衰减奖励处理轨迹）和仿真微调（Flare实现家居场景泛化）[45] - 机器人操纵通过任务接地奖励（TGRPO）、课程式RL（RLVLA提升重排成功率）优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级（FID/FVD）、样本级（人类偏好分数）、状态级（KL散度监控策略漂移）[46][48][49] - 开放挑战包括有效推理平衡（自适应周期策略）、VLA长周期RL（分层子目标发现）、视觉思考RL（混合动作空间设计）[50][51][52] - 奖励模型设计需融合低阶信号（几何一致性）与高阶偏好，并实现跨模态泛化与动态更新[53][56]

VLM与扩散模型深度整合，图像理解生成编辑三合一模型登场，权重数据训练流程全开源

量子位· 2025-08-01 12:23

核心观点 - ModelScope团队发布Nexus-Gen V2模型，整合了视觉语言模型(VLM)和扩散模型，实现图像理解、生成和编辑的统一架构，并开源模型权重、训练流程及2600万样本数据集[1][3][30] - 模型通过多任务协同优化解决V1版本的理解能力退化、生成鲁棒性不足和编辑细节丢失问题，采用81个token的平衡方案提升性能[17][19][22] - 在图像理解、生成和编辑三大任务的评测中，Nexus-Gen V2达到第一梯队水平，尤其在中文支持方面仅需2.5M标注数据即可实现能力[34][36][39][42] 模型架构 - 核心设计将扩散模型作为自回归语言模型的视觉解码器，使用统一图像编码空间连接两者，输入图像通过视觉编码器处理后由自回归模型预测特征向量[10][12] - 自回归模型基于Qwen2.5-VL-7B-Instruct的语言模块，视觉解码器采用Flux-1-Dev，训练时固定输出81个token以平衡语义保持与生成质量[13][15][19] - 创新性提出预填充自回归策略，通过可学习特殊token解决连续特征预测的误差累积问题，保持训练与推理行为一致性[25][28] 训练优化 - 采用三阶段训练：自回归模型大规模预训练(26M样本)、美学微调(4.3M高质量样本)、视觉解码器条件适配(生成2M样本/编辑专用数据)[13][15][29] - 关键参数包括学习率1e-5、余弦调度器、512批量大小，图像生成数据采用长短描述混合标注策略提升鲁棒性[3][29][33] - 数据集构建上，对Cambrian-7M理解数据重标注答案，合成数据占比超50%，并创建高质量编辑数据集ImagePulse解决开源数据质量缺陷[33][34] 性能表现 - 图像理解能力接近基线模型Qwen2.5-VL-7B，MME-C得分637.5(基线640.3)，SEED指标达77.1(基线77.4)[36][37] - 图像生成在GenEval评测总分0.77，经指令微调后提升至0.81，中文生成仅需2.5M标注数据实现[34][39] - 图像编辑CLIP-T得分0.324优于同类模型，编辑解码器使CLIP-O指标达0.909，显著改善细节保持[41][42] 行业意义 - 验证了VLM与扩散模型整合的技术路线可行性，与GPT-4o、Gemini等大厂方案形成竞争，推动统一模型发展[1][43] - 开源全链路资源(模型/数据/训练流程)降低行业门槛，2600万数据集包含580万理解/1330万生成/630万编辑样本[3][30][44] - 多任务统一训练展现协同效应，为构建具备多模态推理能力的下一代世界模型提供实践基础[43]