自回归模型

搜索文档
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 16:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 11:30
本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转 入 UIUC),主要研究方向是多模态学习、生成模型和视频理解,并在 CVPR、ECCV、ACL 等会议发表相关论文。本文工作是赖柏霖在 Meta 的 GenAI 部门实 习时完成。 例如:我们需要模型将一辆普通的汽车变换为兰博基尼,如果训练集中没有包含类似的数据,模型很难仅通过「兰博基尼」四个字推断出其对应的形状、纹理等 视觉特征,同时兰博基尼的特征也很难通过语言来详尽地描述。如今网络的快速普及导致大量新的概念不断涌现,这些没有被包含在训练数据中的新概念对于目 前图像编辑模型的泛化能力是个很大的挑战。 为了解决这一难题,一个直接有效的方法是在文字指令的基础上额外提供一组或多组变换前后的图片作为样例,让模型从中学习用户想要的图像变换,即 few-shot 图像编辑。目前已有的模型都是基于扩散模型开发,然而从图片样例中学习潜在的图像变换需要模型有很强的推理能力,扩散模型生成能力很强但推理能力依然 较弱。 相反地,自回归模型(autoregressi ...
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
量子位· 2025-05-27 11:53
图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比 dLLM-Cache具有几个重要的亮点: 1. 训练无关,即插即用。 dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量 的前提下,带来最高9.1倍的推理速度提升 。 2. 通用于主流dLLM架构 ,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。 EPIC Lab团队 投稿 量子位 | 公众号 QbitAI 首个用于加速 扩散式大语言模型 (diffusion-based Large Language Models, 简称 dLLMs)推理过程的 免训练 方法。 上海交通大学EPIC Lab团队提出了一种 无需训练、即插即用 的高效推理缓存机制: dLLM-Cache 。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低, 并保持了原有的生成质量。 3. 在推理过程中, 首次识别出 了prompt部分的Transformer中间层特征(Key、 ...
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
机器之心· 2025-05-27 11:23
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导 师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA 。 此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为 主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。 近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝 试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。 继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自 回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。 研究团队将 LLaDA 作为语言基座,通过引入视觉编 ...
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 18:39
谷歌又放新大招了,将图像生成常用的"扩散技术"引入语言模型, 12秒能生成1万tokens 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么概念?不仅比Gemini 2.0 Flash-Lite更快。 甚至需要不得不在演示过程中 放慢 视频的速度,才能看清生成过程。 这是Google DeepMind推出 Gemini Diffusion :不同于以往大多数语言模型"从左到右"预测文本的生成方式,而是 通过 逐步优化噪声来学习生成输出 。 传统的自回归模型是根据已生成的词序列 逐步预测下一个词 ,每次只能生成一个词或一个token,这种顺序过程很 慢,并且会限制输出的质量和一致性。 而扩散模型的特点则是通过 逐步细化噪声学习生成 ,这种特点会大大提高生成速度,并且减少训练的不确定性。 与以往大多数基于自回归的语言模型不同,Gemini Diffusion在 语言模型中引入了"扩散"技术 ,它不是直接预测文 本,而是通过 逐步细化噪声来学习生成输出 。 这种技术能够让模型在生成过程中 快速迭代 ,并在生成过程中进行 错误纠正 。 Gemini Diffusion就是利用了扩散模型这一优势,将文本生 ...
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-28 07:48
扫码订阅 AIGC 产业日报, 3.【Meta Token-Shuffle登场:自回归模型突破瓶颈,可AI生成 2048×2048 分辨率图像】报道称Meta AI创 新推出Token-Shuffle,目标解决自回归(Autoregressive,AR)模型在生成高分辨率图像方面的扩展难 题。在语言生成方面,自回归模型大放异彩,近年来也被广泛探索用于图像合成,然而在面对高分辨率 图像时,AR模型遭遇瓶颈。不同于文本生成仅需少量token,图像合成中高分辨率图片往往需要数千个 token,计算成本随之暴增。这让许多基于 AR 的多模态模型只能处理低中分辨率图像,限制了其在精细 图像生成中的应用。尽管扩散模型(Diffusion Models)在高分辨率上表现强劲,但其复杂的采样过程和 较慢的推理速度也存在局限。(搜狐) 4.【Adobe发布Firefly Image Model 4模型:AI生图再升级】Adobe发布博文,推出Firefly Image Model 4和 Firefly Image Model 4 Ultra两款文本生成图像AI模型,并预告针对Photoshop和Illustrator的Crea ...
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
一个男友回头表情包,可以秒变 语义分割 图。 也可以秒变 深度图 。 这下不光上一代AI画图工具和设计师,计算机视觉研究员也哭晕在厕所了。 这是NASA前工程师测试特斯拉自动驾驶系统的伪装"隐形墙",在GPT-4o面前也无所遁形。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一夜之间,CV被大模型"解决"了 (狗头) 。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 这下OpenAI应用研究主管 Boris Power 已经把脑筋动到了自动驾驶,称只需要训练最强大的基础模型,然后微调。 3D渲染领域也惨遭毒手,GPT-4o可以生成 PBR材质 (基于物理渲染的材质),纹理、法线贴图等直接来一套。 对于这些能力,也有人认为没什么大不了的,Stable Diffusion + ControlNet就可以 全部实现。 但不可否认,靠扩大基础模型规模就能做到,也是令人意想不到的。 GPT-4o图像生成是自回归模型 这波GPT-4o原生图像生成的技术细节,OpenAI是一点也没有公布(粗节也没有公布)。 但还是有人从System Card中发现了蛛丝马迹。 与DALL·E是一个扩散模 ...