Workflow
自回归模型
icon
搜索文档
NextStep-1:一次在图像生成上自回归范式的探索
机器之心· 2025-08-18 13:15
机器之心发布 机器之心编辑部 自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在 视觉生成 领 域 的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一 步都凝聚了社区的智慧。 这些工作,比如 MAR、Fluid、LatentLM 等,为我们带来了巨大的启发,也让我们看到了进一步优化的空间:比如,如何避免离散化带来的信息损失?如何让模 型的架构更轻盈、更强大? 为实现这一点,团队采用了一个轻量的「 流匹配头 」(Flow Matching Head)。它让模型能够: 这一设计带来了另一个显著优势: 架构的简洁与纯粹 。由于不再需要外部大型扩散模型的 「辅助」,NextStep-1 的整体架构变得高度统一,实现了真正意义上的 端到端训练。 阶跃星辰团队 认为,NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下,构建一个简洁、高效的自回归模型是完全可行 的。 这只是探索的第一步。 阶跃星辰 选择将 NextStep-1 开源, 衷心期待它能引发更多有价值的讨论,并希望能与社 区的研究者一起 ,继续推动生成技术的演进 。 带着这些问题, 阶跃星辰 ...
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心· 2025-08-12 08:15
辑、可控生成和密集预测在内的广泛任务。 本文第一作者辛毅为南京大学 & 上海创智学院博士生,现于上海人工智能实验室实习,研究方向为图像 / 视频生成、多模态生成与理解统一等。通讯作者为上海 人工智能实验室青年科学家 — 高鹏。本文其他作者来自上海人工智能实验室、香港中文大学、上海交通大学、上海创智学院、浙江工业大学等。 核心技术与突破 完全独立的训练架构 不同于依赖预训练权重的传统方案,Lumina-mGPT 2.0 采用纯解码器 Transformer 架构,从参数初始化开始完全独立训练。这带来三大优势:架构设计不受限制 (提供了 20 亿和 70 亿参数两个版本)、规避授权限制(如 Chameleon 的版权问题)、减少预训练模型带来的固有偏差。 上海人工智能实验室等团队提出Lumina-mGPT 2.0 —— 一款独立的、仅使用解码器的自回归模型,统一了包括文生图、图像对生成、主体驱动生成、多轮图像编 论文标题:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling 论文链接:arxiv.org/pdf/2507.17801 GitHub 地 ...
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位,但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向,MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题,仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构,将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式:第一阶段通过图像重建等任务建立多模态对齐,第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模,在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中,MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异,在COCO和JourneyDB数据集上误差率仅0.1008和0.0867,显著低于其他模型[21] - 与Kosmos-G对比实验中,MENTOR在CP指标上提升0.40,PF指标提升0.13[19] 应用前景 - 框架具备通用性,可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径,未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构,技术路线已获验证[2][26]
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
机器之心· 2025-07-24 12:08
语言模型技术突破 - 语言模型近年来的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性[2] - 自回归训练框架中每个token都作为前文上下文的预测目标 无需显式标注 具有明显训练优势[3][4] - 自回归推理阶段存在顺序执行瓶颈 计算开销大 与人类表达方式存在差异[5] 多token预测创新 - 苹果研究人员开发新框架 使自回归大模型能执行多token预测 实现5.35倍代码数学任务加速和2.5倍一般任务加速[7] - 该方法通过对现有模型进行LoRA微调实现 具有开创性意义[8] - 技术突破可能大幅降低AI运行成本 使轻量设备运行强大实时助手成为可能[9] 研究方法与架构 - 研究引入特殊mask token 扩展输入序列 通过NTP和MTP两种预测模式工作[29][30] - 采用门控LoRA模块 仅更新LoRA参数与采样器头参数 保持原始解码器权重冻结[34] - 采样器MLP头结合模型潜在表示与已生成token信息 确保连贯多token输出[22][32] 实验验证结果 - 在Tulu3-8B模型上验证 编程和数学任务加速效果最显著 分别达5.35倍和5.22倍[46][47] - 知识问答领域平均加速2.38倍 对话任务加速2.52倍 安全领域最高达3.72倍[47] - 门控LoRA能保持NTP token生成质量稳定 标准LoRA则导致质量下降[39][40] 技术影响与展望 - 多token预测技术处于完全自回归与完全扩散生成之间 兼具效率与质量潜力[53] - 未来可探索预训练阶段引入该方法 或结合扩散生成方法进一步优化[53] - 该框架为推理优化带来颠覆性变革可能 显著提升大模型实用性和普及度[9][10]
扩散语言模型写代码!速度比自回归快10倍
量子位· 2025-07-10 11:19
核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury,突破传统自回归模型限制,实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式,能一次性预测所有方向token,生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构,兼容现有大模型优化技术,在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力,通过双向注意力机制和语法树嵌入减少代码错误,支持函数级参数自动校正[4][20][21][22] 技术架构 - **扩散生成流程**:训练阶段正向加噪,推理阶段反向去噪,每次迭代并行修改多个token[11][14] - **并行化文本生成**:单次前向传播预测多token,H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - **动态去噪调度**:自适应调整去噪步数,平衡精度与效率[17] - **混合精度量化**:内存占用减少30%,通过残差补偿维持输出质量[18] 性能表现 - **基准测试**:在Copilot Arena将响应时间压缩至其他工具1/4,硬件资源占用减少60%[15] - **速度对比**:Mercury Coder Mini延迟0.25秒排名第一,显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - **多语言支持**:Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2,优于多数开源模型[23] 行业影响 - **CI/CD瓶颈**:模型生成速度远超测试环节,需解决计算资源投入与预算限制的矛盾[24][26][28] - **团队背景**:创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员,具备顶尖学术与工业界经验[29][30][34]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 16:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 11:30
核心观点 - 提出自回归模型InstaManip解决few-shot图像编辑难题 通过分组自注意力机制将学习过程分解为学习阶段和应用阶段 显著提升性能 [1][3][26] - 创新引入关系正则化策略 有效减少示例图片噪声干扰 提高模型鲁棒性 [17][26] - 在in-distribution和out-of-distribution设定下 CLIP-Dir指标分别达19.81和18.27 超越此前最优方法2.68和2.86个点 [20][26] 技术方法 模型架构 - 采用分组自注意力机制 将输入序列分为学习组(文字指令+示例图片+manipulation tokens)和应用组(manipulation tokens+输入图片) 分别对应神经科学中的知识抽象和应用阶段 [16][11] - 通过manipulation tokens存储图像变换特征 实现跨样本知识迁移 公式化为$\mathbb{P}(\mathbb{Z}|\mathbb{T},\mathbb{X}^{\prime},\mathbb{Y})\cdot\mathbb{P}(\mathbb{Y}|\mathbb{X},\mathbb{Z})$ [10][13] 训练优化 - 关系正则化强制变换特征相似性与文字指令相似性一致 使用MSE损失函数 降低无关视觉特征干扰 [17] - 消融实验显示分组自注意力使CLIP-Vis指标提升3.12个点 结合正则化后总提升达3.43个点 [22] 性能表现 基准测试 - 在in-distribution设定下 CLIP-Vis指标达32.39 较次优PromptDiffusion提升4.7个点 在out-of-distribution设定下保持28.23 [20] - 可视化对比显示模型能准确实现"汽车变兰博基尼"等复杂编辑 保留输入图片结构同时注入新特征 [19][23] 扩展性分析 - 示例图片数量从1组增至5组时 CLIP-Dir指标提升15% 多样性增加可使指标额外提升8% [24][25] - 单独使用文字指令或视觉示例时性能下降明显 CLIP-Vis指标分别降低4.37和9.43个点 [23]
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
量子位· 2025-05-27 11:53
核心观点 - 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制dLLM-Cache,用于加速扩散式大语言模型(dLLMs)的推理过程 [2] - dLLM-Cache通过复用相邻时间步上变化较小的特征,仅更新变化较大的特征,实现了计算量的大幅降低,同时保持原有的生成质量 [2] - 该方法在主流dLLM架构上实现了最高9.1倍的推理速度提升,且不损失模型输出质量 [3] 研究动机 - 扩散式大语言模型(dLLMs)在语言生成领域展现出与自回归模型(ARMs)不同的建模能力,在"逆转诅咒"、数学推理等任务上表现领先 [8] - dLLMs推理过程中需要执行数百步的去噪迭代,每一步都需重新计算所有层的特征,导致推理效率低下 [8] - 传统的KV Cache加速方法不兼容dLLMs的双向注意力架构,无法使用 [10] 方法原理 - 研究发现prompt部分的Transformer中间层特征长期稳定,而response部分仅少量tokens特征变化较大,为缓存复用提供了理论基础 [4] - 提出V-verify机制,通过Value向量变化识别需要更新的tokens,摒弃了高达75%的冗余计算 [4] - 采用长间隔Prompt缓存(每100步更新)和短间隔Response缓存(每8步更新)相结合的策略 [19][20] 技术亮点 - 训练无关,即插即用,无需修改模型参数或重训练 [3] - 通用于LLaDA、Dream等主流dLLM架构及多模态模型 [4] - 独创V-verify机制作为特征变化的低成本"指示器",皮尔逊相关系数最高达0.944 [16][17] 实验结果 - 在LLaDA 8B模型上实现了5倍以上的加速效果,HotpotQA任务达到9.1倍无损加速 [21] - 在Dream 7B模型上也验证了方法的通用性,GSM8K任务实现5.1倍加速 [25][26] - 使用dLLM-Cache后,LLaDA 8B的推理速度首次超过LLaMA3 8B,同时保持准确率优势 [28] 性能数据 - LLaDA Base在GSM8K任务上从7.32 TPS提升至31.43 TPS,加速4.29倍 [23] - LLaDA Instruct在GPQA任务上从5.33 TPS提升至28.01 TPS,加速5.26倍 [23] - Dream Base在GSM8K任务上从6.36 TPS提升至32.44 TPS,加速5.1倍 [26]
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
核心观点 - 中国人民大学高瓴人工智能学院与蚂蚁集团合作推出LLaDA-V,这是首个纯扩散多模态大语言模型(MLLM),挑战了自回归模型在多模态领域的主导地位 [1] - LLaDA-V基于前期发布的LLaDA扩散模型拓展至多模态,采用视觉编码器(SigLIP 2)和MLP连接器实现多模态对齐,全程采用离散扩散机制 [2] - 模型在11项多模态任务中超越自回归基线LLaMA3-V,并在MMMU等多学科知识基准上展现更强数据可扩展性 [5] - 纯扩散架构性能达到SOTA,显著缩小与顶尖自回归模型Qwen2-VL的差距(MMStar基准60.1 vs 60.7) [8][10] 技术架构 - 采用"视觉编码器+MLP投影器+语言模型"经典架构,视觉特征通过SigLIP 2提取并映射至LLaDA嵌入空间 [15] - 创新性使用双向注意力机制,消融实验证明其优于对话因果注意力机制 [15] - 训练时仅对回复部分随机掩码,损失函数聚焦掩码区域;推理采用反向去噪过程,结合低置信度重掩码策略提升生成质量 [15] 性能表现 - 多模态理解任务中超越混合架构(如MetaMorph、Show-o)和纯扩散模型,达到当前最佳性能 [8] - 尽管LLaDA-8B纯文本能力弱于LLaMA3-8B,但LLaDA-V在多模态任务中反超,证明扩散架构的独特优势 [5] - 在MMMU等需要复杂推理的基准上,数据可扩展性显著优于自回归模型 [5] 应用场景 - 成功实现复杂视觉场景理解,如精准描述阿尔卑斯山景的层次感与空间关系(绿色小路、行人、教堂、薄雾群山等细节) [13] - 支持多轮多模态对话,通过掩码扩散机制生成连贯回复 [15] 开源计划 - 团队预计近期开源训练推理代码及模型权重 [3] - 项目已发布论文(arXiv:2505.16933)和代码仓库(GitHub/ML-GSAI/LLaDA-V) [6]