Diffusion模型

搜索文档
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
MENTOR团队 投稿 量子位 | 公众号 QbitAI 当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在 精准控制 上却常常"心有余而力不足"。 在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种 更高效、控制更精准 的范式? 近日,来自 伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软 的研究者们,将目光投向 了另一条技术路线—— 自回归(Autoregressive, AR)模型 ,并提出了一个全新的高效多模态微调框架 MENTOR ,仅用十分之一的训练数据和次优的模型组 件,就能够实现超越Diffusion方法(如Emu2、DreamEngine)的性能, 为复杂的多模态图像生成提供了一个更高效、更可控的新范式。 MENTOR巧妙地绕开了Diffusion模型中常见的复杂设计,通过独特的 两阶段训练法 ,让自回归模型也能高效地进行多模态条件下的图像生 成,实现了 像素级精准控制。 △ 多模态条件生成效果展示 解决多模态图像生成中的平衡难题 在真实世界的应用中,我们常常需要模型能够理解和处理比纯文本更复杂的指令, ...
AI追捧和起诉交织:全球多家动画工会紧急声明 AI挤占人类创作者生存空间
21世纪经济报道· 2025-06-11 09:25
动画行业对AI的紧急声明 - 25家欧美动画工会联合发布紧急声明,认为AI是"有缺陷、具有破坏性且运行成本高昂的复印机",并宣布行业进入紧急状态 [1][4] - 声明提出3C原则:同意原则(需获创作者授权使用版权作品)、补偿原则(创作者应获公平报酬)、控制原则(创作者需掌控作品使用方式) [4][5] - 行业背景:流媒体渠道增长但盈利困难,导致裁员、外包、工作室倒闭及预算缩减 [5] AI对动画行业的实际影响 - 78%动画相关企业计划三年内引入GenAI技术,主要应用于3D动画(51%)、2D动画(41%)和剧本开发(25%) [6] - AI已渗透国内头部公司制作流程:《哪吒2》用于美术前期提升效率,另一公司用于"数字绘景"生成星空等背景 [7] - 基础岗位受冲击:角色设计、背景绘制、3D建模等面临系统性替代风险 [6] AI版权诉讼动态 - 国际案例:Stability AI被Getty Images起诉未经授权使用数百万张照片训练模型,插画师集体起诉Midjourney等公司 [8] - 国内案例:广州互联网法院判定AI公司侵犯奥特曼作品复制权和改编权,但未明确训练数据是否构成合理使用 [8] - 核心矛盾:训练数据版权归属、平台责任边界与创作者利益冲突持续激化 [7][8] 行业技术应用现状 - AI在动画制作中处于辅助阶段:可提升效率但无法替代复杂工序(如动作捕捉、画面统一性) [7] - 国内应用特点:小范围试点(如背景生成),尚未形成系统化流程,但评估力度加大 [7] - 技术局限性:需结合制作难度、资源、周期综合判断,人力仍是核心 [7]
TransDiffuser: 理想VLA diffusion出轨迹的架构
理想TOP2· 2025-05-18 21:08
文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用,特别是理想汽车VLA(Vision-Language-Action)系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹,相比VLM(Vision-Language-Model)系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制,显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型,核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型,Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步,大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统,直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹,提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号,但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构,融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像(8视角)和LiDAR数据(5传感器),输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法,通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85,优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成:不依赖预设轨迹或词汇表,直接从感知数据生成轨迹 [11] - 多模态去相关优化:解决模式崩溃问题,提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难,特别是感知编码器部分 [13] - 未来可能结合强化学习,并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号(油门/方向盘)是更难的挑战,短期内难以实现 [3]