自回归模型 - 财报，业绩电话会，研报，新闻 - Reportify

自回归模型

搜索文档

从300多篇工作中，看VLA在不同场景下的应用和实现......

具身智能之心· 2025-09-25 12:00

点击下方卡片，关注" 具身智能之心 "公众号编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey！ Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接：https://arxiv.org/pdf/2509.19012 视觉-语言-动作（Vision Language Action, VLA）模型的出现，标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变，同时也将视觉- 语言模型（Vision Language Models, VLMs）从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中，机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些方法通常应用于简单、重复性的任务，例如工厂 ...

视觉-语言-动作（VLA）模型

通用具身智能

自回归模型

强化学习微调模型

视觉-语言-动作（VLA）模型

通用具身智能

自回归模型

强化学习微调模型

深度综述 | 300+论文带你看懂：纯视觉如何将VLA推向自动驾驶和具身智能巅峰！

自动驾驶之心· 2025-09-25 07:33

文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变，将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究，对VLA方法进行了系统分类，并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势，旨在弥合“感知-理解-动作”的鸿沟，成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式：自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成，支持跨任务泛化，但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成，支持从同一观测生成多种有效轨迹，但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法，增强VLA的感知和决策能力，擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合，再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化，RT-1基于13万条真实世界数据训练，RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间，以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态，包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域，VLA模型用于轨迹生成和危险规避，CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原，展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现，如LeVERB将视觉-语言处理与动力学级动作处理耦合，支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台，以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务，Open X-Embodiment整合了22个机器人数据集，包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真，CARLA面向自动驾驶提供真实城市交通场景，支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等，以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题，以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势，如MoLe-VLA通过混合专家路由降低40%计算成本，BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视，SafeVLA引入安全评论网络和约束策略优化框架，以降低开放环境中的风险事件 [51][57]

视觉-语言-动作（VLA）模型

通用具身智能

强化学习微调模型

混合架构与多范式融合

基础模型与大规模训练

视觉-语言-动作（VLA）模型

通用具身智能

强化学习微调模型

混合架构与多范式融合

基础模型与大规模训练

扩散语言模型也有MoE版本了！蚂蚁&人大从头训练LLaDA-MoE，即将完全开源

机器之心· 2025-09-12 19:31

模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE，使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B，推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制，突破自回归模型单向建模限制，支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率，在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架，支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上，支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分，在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分，MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分，优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布，突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性，支持局部片段重新采样修正，适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力，非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖，探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码，推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索，以AGI为北极星指标[46][47]

扩散语言模型

自回归模型

扩散语言模型

自回归模型

NextStep-1：一次在图像生成上自回归范式的探索

机器之心· 2025-08-18 13:15

核心观点 - 阶跃星辰团队发布NextStep-1模型探索在连续视觉空间中直接以自回归方式生成图像的新路径通过轻量级流匹配头实现端到端训练避免离散化信息损失并减少对外部扩散模型的依赖 [2][3][4] - 模型在多项权威基准测试中达到自回归模型的新SOTA水平部分指标与顶尖扩散模型竞争同时具备高保真文生图和强大图像编辑能力 [14][21][22] - 团队开源模型并坦诚当前局限性包括生成稳定性、推理延迟和高分辨率扩展挑战为未来研究提供明确方向 [25][26][33] 技术架构 - 核心采用14B参数Transformer骨干网络配合157M参数流匹配头直接在连续空间生成图像Patch 实现高度统一的端到端架构 [7][8][10] - 通过通道归一化技术稳定Token统计特性训练时增加噪声正则化反而提升输出质量表明噪声有助于塑造更鲁棒的潜在空间 [16] - 流匹配头尺寸变化(157M→528M)对图像质量影响极小证明Transformer承担核心生成逻辑流匹配头仅作为轻量采样器 [12] 性能表现 - 在GenEval基准获得0.63/0.737分在GenAI-Bench基础项和高级项分别达到0.88/0.907和0.67/0.741分在DPG-Bench获得85.28分 [21] - OneIG基准总体得分0.417 其中对齐度0.826 文本理解0.507 在WISE基准多个子项达到0.51-0.73分总体0.79/0.83分 [23] - 图像编辑能力在GEdit-Bench英文集获得6.58分中文集6.40分在ImgEdit-Bench获得3.71分与主流编辑模型相当 [24] 发展挑战 - 高维潜在空间(如16通道)下出现生成不稳定现象包括局部块状伪影、全局噪声和网格状伪影可能与数值稳定性及二维空间编码局限性相关 [27][29] - 顺序解码导致显著推理延迟：生成4096长度序列时累计延迟达45.77秒其中LLM解码占31.86秒流匹配头多步采样构成额外开销 [28][29] - 高分辨率生成面临收敛效率低和技术迁移难问题监督微调在小数据集表现脆弱易陷入过拟合或训练崩溃 [30][32][35] 未来方向 - 通过流匹配头参量化减、模型蒸馏技术实现少步生成并借鉴多Token预测等LLM技术加速自回归主干推理 [34] - 需探索小数据集微调的稳定方案平衡目标风格对齐与通用生成能力同时开发适配自回归框架的高分辨率生成技术 [32][34]

自回归模型

自回归模型

Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型

机器之心· 2025-08-12 08:15

核心技术与架构 - 采用完全独立的纯解码器Transformer架构从参数初始化开始完全独立训练提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案通过上下拼接将图生图任务视为单张图像实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架实现加速采样[13] - 优化后减少60% GPU显存消耗通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题提升用户体验[21] - 计划从多模态生成扩展至多模态理解增强整体功能性和性能[21]

自回归模型

Lumina-mGPT 2.0

自回归模型

Lumina-mGPT 2.0

自回归模型杀回图像生成！实现像素级精准控制，比Diffusion更高效可控

量子位· 2025-07-29 13:05

AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位，但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向，MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题，仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构，将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式：第一阶段通过图像重建等任务建立多模态对齐，第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模，在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中，MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异，在COCO和JourneyDB数据集上误差率仅0.1008和0.0867，显著低于其他模型[21] - 与Kosmos-G对比实验中，MENTOR在CP指标上提升0.40，PF指标提升0.13[19] 应用前景 - 框架具备通用性，可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径，未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构，技术路线已获验证[2][26]

自回归模型

多模态图像生成

Artificial Intelligence

Diffusion模型

自回归模型

多模态图像生成

Artificial Intelligence

Diffusion模型

五倍推理加速，激发自回归潜能，苹果新工作让LLM预测未来

机器之心· 2025-07-24 12:08

语言模型技术突破 - 语言模型近年来的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性[2] - 自回归训练框架中每个token都作为前文上下文的预测目标无需显式标注具有明显训练优势[3][4] - 自回归推理阶段存在顺序执行瓶颈计算开销大与人类表达方式存在差异[5] 多token预测创新 - 苹果研究人员开发新框架使自回归大模型能执行多token预测实现5.35倍代码数学任务加速和2.5倍一般任务加速[7] - 该方法通过对现有模型进行LoRA微调实现具有开创性意义[8] - 技术突破可能大幅降低AI运行成本使轻量设备运行强大实时助手成为可能[9] 研究方法与架构 - 研究引入特殊mask token 扩展输入序列通过NTP和MTP两种预测模式工作[29][30] - 采用门控LoRA模块仅更新LoRA参数与采样器头参数保持原始解码器权重冻结[34] - 采样器MLP头结合模型潜在表示与已生成token信息确保连贯多token输出[22][32] 实验验证结果 - 在Tulu3-8B模型上验证编程和数学任务加速效果最显著分别达5.35倍和5.22倍[46][47] - 知识问答领域平均加速2.38倍对话任务加速2.52倍安全领域最高达3.72倍[47] - 门控LoRA能保持NTP token生成质量稳定标准LoRA则导致质量下降[39][40] 技术影响与展望 - 多token预测技术处于完全自回归与完全扩散生成之间兼具效率与质量潜力[53] - 未来可探索预训练阶段引入该方法或结合扩散生成方法进一步优化[53] - 该框架为推理优化带来颠覆性变革可能显著提升大模型实用性和普及度[9][10]

苹果(US:AAPL)

大语言模型推理优化

自回归模型

Consumer Electronics

预训练的自回归大型语言模型

大语言模型推理优化

自回归模型

Consumer Electronics

预训练的自回归大型语言模型

扩散语言模型写代码！速度比自回归快10倍

量子位· 2025-07-10 11:19

核心观点 - Inception Labs推出基于扩散技术的商业级大语言模型Mercury，突破传统自回归模型限制，实现高质量代码生成且速度更快[1][2][8] - Mercury采用"从噪声到结构化输出"的扩散生成方式，能一次性预测所有方向token，生成速度比传统工具快10倍[2][8][9] - 模型保留Transformer架构，兼容现有大模型优化技术，在H100 GPU上实现1109 tokens/秒吞吐量[6][7][9][13] - 具备动态纠错能力，通过双向注意力机制和语法树嵌入减少代码错误，支持函数级参数自动校正[4][20][21][22] 技术架构 - **扩散生成流程**：训练阶段正向加噪，推理阶段反向去噪，每次迭代并行修改多个token[11][14] - **并行化文本生成**：单次前向传播预测多token，H100 GPU上Mercury Coder Mini/Small分别达1109/737 tokens/秒[13][9] - **动态去噪调度**：自适应调整去噪步数，平衡精度与效率[17] - **混合精度量化**：内存占用减少30%，通过残差补偿维持输出质量[18] 性能表现 - **基准测试**：在Copilot Arena将响应时间压缩至其他工具1/4，硬件资源占用减少60%[15] - **速度对比**：Mercury Coder Mini延迟0.25秒排名第一，显著低于DeepSeek V2.5(2.07秒)和Claude 3.5 Sonnet(1.46秒)[16] - **多语言支持**：Mercury Coder Small在CPP/Java/TS等语言平均准确率76.2，优于多数开源模型[23] 行业影响 - **CI/CD瓶颈**：模型生成速度远超测试环节，需解决计算资源投入与预算限制的矛盾[24][26][28] - **团队背景**：创始团队包括扩散模型共同发明人及Meta/OpenAI/NVIDIA前成员，具备顶尖学术与工业界经验[29][30][34]

大语言模型

自回归模型

Artificial Intelligence

Mercury Coder Mini

大语言模型

自回归模型

Artificial Intelligence

Mercury Coder Mini

首次！世界模型、动作模型融合，全自回归模型WorldVLA来了

机器之心· 2025-07-03 16:01

核心观点 - 阿里巴巴达摩院提出WorldVLA模型，首次将世界模型和动作模型融合到一个全自回归模型中，实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制，既提升动作生成的准确性，也增强图像预测的质量 [7] - 在LIBERO基准测试中，WorldVLA抓取成功率提升4%，视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据，不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示，学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解，提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略，解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下，WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中，256*256版本平均成功率79.1%，512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后，动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]

阿里巴巴(US:BABA)

视觉 - 语言 - 动作模型

自回归模型

视觉 - 语言 - 动作模型

自回归模型

冲击自回归，扩散模型正在改写下一代通用模型范式

机器之心· 2025-06-04 09:59

Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion，提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍，采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异，如HumanEval(89.6%)、MBPP(76.0%)等，性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA，性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型，衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制，通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens，在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法，在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V，集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA，兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]

自回归模型

Artificial Intelligence

Gemini Diffusion

自回归模型

Artificial Intelligence

Gemini Diffusion