Workflow
自回归模型
icon
搜索文档
速递|斯坦福教授创业,Inception获5000万美元种子轮融资,用扩散模型解锁实时AI应用
Z Potentials· 2025-11-07 10:12
公司融资与背景 - AI初创公司Inception获得5000万美元种子轮融资 [2] - 本轮融资由Menlo Ventures领投,Mayfield、Innovation Endeavors、微软M12基金、Snowflake Ventures、Databricks Investment及英伟达NVentures参与,吴恩达和Andrej Karpathy提供天使投资 [2] - 公司项目领导者为斯坦福大学教授Stefano Ermon,其长期专注于扩散模型研究 [3] 核心技术优势 - Inception开发基于扩散的AI模型,该方法通过迭代优化产生输出,不同于主流的自回归模型 [3] - 扩散模型具备并行处理能力,基准测试显示每秒可处理超过1000个token,显著降低复杂任务中的延迟 [5] - 该技术路径在操作大型代码库或应对数据限制时可能更具优势,设计目标为追求极致速度和计算效率 [3][5] 产品进展与应用 - 公司发布专为软件开发设计的新版Mercury模型,并已集成到ProxyAI、Buildglare和Kilo Code等多款开发工具中 [3] - 扩散方法有助于模型优化两个关键指标:延迟(响应时间)和计算成本 [3] - 公司认为基于扩散的大语言模型比现有模型更快、更高效,且该领域仍有大量创新空间 [3]
上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型
机器之心· 2025-11-01 12:22
核心技术突破:SDAR范式 - 上海人工智能实验室提出全新范式SDAR,旨在解决大模型推理速度慢、成本高的核心瓶颈[2][3] - SDAR通过“训练-推理解耦”设计,无缝融合自回归模型的高性能与扩散模型的并行推理优势,能以极低成本将任意AR模型改造为并行解码模型[4] - 该方法可理解为先培养强大的AR模型,再用极短时间教会其块状并行生成技巧,在保留原有性能的同时实现推理效率的质的飞跃[12] 性能验证结果 - 在多个基准测试中,SDAR模型与原版AR模型性能持平甚至超越,例如在30B规模下,SDAR-Chat在18个基准中的11个上持平或超越了其AR版本[18] - 在科学推理任务上表现突出:SDAR-30B-A3B-Sci模型在ChemBench和GPQA-diamond基准上得分分别从60.5提升至72.8和从61.2提升至66.7,取得12.3和5.5个百分点的显著优势[6][27] - 通过简单的多轮采样+多数投票,SDAR性能可进一步飞跃,在AIME-2025上提升+19.3%,在LMB-hard上提升+15.7%[28] 效率与成本优势 - SDAR仅需50B token的开源数据进行继续预训练即可达到与AR基线相当的性能,远低于需要580B token从头训练的Dream等工作,实现了高效的“即插即用”式适配[19] - 在工业级推理引擎LMDeploy上的实测显示,SDAR-8B-chat在单张H200上实现了相较于AR版本2.3倍的实际加速,峰值吞吐量高达6599 token/s[23] - 模型越大,并行效率越高:更强的模型预测更自信,能一次性并行生成更多token,实现更高的“有效每步生成Token数”,形成“能力与速度”的良性循环[17][22] 行业影响与潜力 - SDAR不仅是一个“加速器”,更是一个“增强器”,为解决复杂推理任务提供了性能与效率俱佳的新范式[27][29] - 该范式的局部双向注意力机制对于精准理解化学式等结构化知识至关重要,在科学领域展现出巨大潜力[6][28] - 研究全面开源了从1.7B到30B的SDAR模型、推理引擎及迄今最强的开源扩散类推理模型,为行业提供了强大而灵活的新工具[31]
视觉生成的另一条路:Infinity 自回归架构的原理与实践
AI前线· 2025-10-31 13:42
视觉自回归模型的技术原理与优势 - 视觉自回归模型采用“由粗到细”的多尺度生成思路,从低分辨率开始逐级放大补全细节,更贴近图像物理属性和人类感知直觉 [12] - 模型通过金字塔式层级结构的改进版VQ-VAE将图像编码为一系列逐级放大的特征残差,残差设计使每级只需补全上级未刻画信息 [15] - 专用Transformer架构支持并行预测整片token,将迭代次数压缩至传统逐点方式的十分之一,显著提升效率 [15] Infinity框架的核心技术创新 - 放弃传统VQ码本改用符号量化技术,对特征激活按正负号压成±1形成1-bit表示,词表大小随通道数指数增长至2^32 [31] - 采用逐位预测机制将token拆分为逐通道二元分类,参数量从100B降至可接受范围,并对微小扰动具有天然鲁棒性 [33] - 引入位级自校正技术,在训练和推理阶段量化回传预测结果,使网络学会纠正前一步错误,显著抑制误差累积 [35] 性能表现与缩放定律验证 - 在ImageNet基准测试中VAR模型首次在生成质量上超越DiT,FID指标达到1.73(VAR-d30-re模型)[18][20] - 模型展现出清晰稳健的缩放曲线,性能随参数增加按幂律提升,2B参数Infinity在1024×1024分辨率下仅需0.8秒生成速度 [18][46] - 大模型在大词表配置下表现更优,当参数规模扩大时2^32词表性能反超2^16词表,验证缩放定律可靠性 [41] 与扩散模型的技术对比 - 扩散模型在单一分辨率上逐步去噪,训练推理步数开销大但误差可被后续步骤修正 [21][27] - 视觉自回归训练并行度高,所有尺度可一次输入网络,不像DiT需按时间步拆分多次前向计算 [27] - Infinity方案在1024×1024分辨率实现与DiT可比的FID指标,支持任意长宽比且推理速度比同量级DiT快3.7倍 [37][46] 行业应用前景 - 视觉自回归路线已从类别生成扩展至通用文本到图像生成,在高分辨率任务中具备与扩散模型正面竞争的能力 [49] - 后训练阶段采用DPO对齐技术可进一步提升画质和细节,表明对齐工作同样适用于VAR框架 [44] - 该技术路线在视频生成领域同样保持明显优势,为多模态AI应用提供新路径 [46]
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志,将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究,首次对纯VLA方法进行系统全面总结,提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力,有望弥合"感知-理解-动作"鸿沟,成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础:计算机视觉领域从CNN到ViT的演进,自然语言处理领域Transformer架构催生大语言模型,强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展:早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成,实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式 自回归模型 - 通用VLA方法发展经历三个阶段:早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介",支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化,如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变:几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显:大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势:效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移:自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配:四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习:ConRFT结合离线行为克隆与在线一致性目标,平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大:Open X-Embodiment整合21个机构22个机器人数据集,包含527项技能和160266个任务,通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险:多样化环境与物理真实性支持,如MuJoCo/Isaac Gym适用于动力学仿真,CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主,自动驾驶领域增加L2距离和完成率等专用指标,仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战:现有模型难以适应大规模真实场景,在未知场景中准确性下降,实机部署存在安全隐患[21][25] - 数据局限性突出:标注成本高,长尾场景覆盖不足,真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距,解决多模态对齐稳定性问题,开发更丰富评估协议匹配真实世界自主系统需求[21][73]
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]
扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
机器之心· 2025-09-12 19:31
模型技术突破 - 蚂蚁集团与中国人民大学联合团队开发业界首个原生MoE架构扩散语言模型LLaDA-MoE,使用20T训练数据实现技术验证[2][15] - 模型激活参数仅1.4B但性能对标自回归稠密模型Qwen2.5-3B,推理速度提升数倍[2][17] - 采用非自回归掩码扩散机制,突破自回归模型单向建模限制,支持并行解码和双向依赖关系捕捉[12][38] 架构与训练优势 - 总参数量7B的MoE架构显著提升计算效率,在代码、数学等结构化任务表现突出[26][29] - 复用蚂蚁百灵大模型20T高质量训练数据及自研ATorch训练框架,支持专家并行技术加速训练[26] - 扩散语言模型数据利用效率达自回归模型3倍以上,支持从重复数据中持续提取增量信息[40] 性能表现 - 在MMLU测评获67.18分超越LLaDA-8B的65.5分,在MATH数学任务达58.68分显著优于Dream-7B的39.2分[33] - 代码生成任务中HumanEval得分61.59分接近Qwen2.5-3B的60.37分,MultiPL-E达52.53分远超稠密扩散模型29分水平[33] - 在Agent对齐任务IFEval严格提示测试中获59.33分,优于同类扩散模型及Qwen2.5-3B的58.2分[33] 技术理论价值 - 扩散模型通过迭代去噪过程逼近数据分布,突破自回归模型链式法则概率分解的局限性[35] - 双向建模机制提升全局一致性,支持局部片段重新采样修正,适用于代码生成和文档编辑场景[38] - 理论证明最大似然估计准则可实现指令跟随、上下文学习等能力,非自回归模型独有特性[35] 战略意义与开源计划 - 项目突破自回归范式路径依赖,探索通过不确定性换取智能上限提升的战略选择[44] - 模型近期将完全开源技术报告与推理加速代码,推动全球AI社区扩散语言模型发展[19][33] - 蚂蚁集团持续布局前沿方向包括动态MoE架构创新与混合线性架构探索,以AGI为北极星指标[46][47]
NextStep-1:一次在图像生成上自回归范式的探索
机器之心· 2025-08-18 13:15
核心观点 - 阶跃星辰团队发布NextStep-1模型 探索在连续视觉空间中直接以自回归方式生成图像的新路径 通过轻量级流匹配头实现端到端训练 避免离散化信息损失并减少对外部扩散模型的依赖 [2][3][4] - 模型在多项权威基准测试中达到自回归模型的新SOTA水平 部分指标与顶尖扩散模型竞争 同时具备高保真文生图和强大图像编辑能力 [14][21][22] - 团队开源模型并坦诚当前局限性 包括生成稳定性、推理延迟和高分辨率扩展挑战 为未来研究提供明确方向 [25][26][33] 技术架构 - 核心采用14B参数Transformer骨干网络配合157M参数流匹配头 直接在连续空间生成图像Patch 实现高度统一的端到端架构 [7][8][10] - 通过通道归一化技术稳定Token统计特性 训练时增加噪声正则化反而提升输出质量 表明噪声有助于塑造更鲁棒的潜在空间 [16] - 流匹配头尺寸变化(157M→528M)对图像质量影响极小 证明Transformer承担核心生成逻辑 流匹配头仅作为轻量采样器 [12] 性能表现 - 在GenEval基准获得0.63/0.737分 在GenAI-Bench基础项和高级项分别达到0.88/0.907和0.67/0.741分 在DPG-Bench获得85.28分 [21] - OneIG基准总体得分0.417 其中对齐度0.826 文本理解0.507 在WISE基准多个子项达到0.51-0.73分 总体0.79/0.83分 [23] - 图像编辑能力在GEdit-Bench英文集获得6.58分 中文集6.40分 在ImgEdit-Bench获得3.71分 与主流编辑模型相当 [24] 发展挑战 - 高维潜在空间(如16通道)下出现生成不稳定现象 包括局部块状伪影、全局噪声和网格状伪影 可能与数值稳定性及二维空间编码局限性相关 [27][29] - 顺序解码导致显著推理延迟:生成4096长度序列时累计延迟达45.77秒 其中LLM解码占31.86秒 流匹配头多步采样构成额外开销 [28][29] - 高分辨率生成面临收敛效率低和技术迁移难问题 监督微调在小数据集表现脆弱 易陷入过拟合或训练崩溃 [30][32][35] 未来方向 - 通过流匹配头参量化减、模型蒸馏技术实现少步生成 并借鉴多Token预测等LLM技术加速自回归主干推理 [34] - 需探索小数据集微调的稳定方案 平衡目标风格对齐与通用生成能力 同时开发适配自回归框架的高分辨率生成技术 [32][34]
Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
机器之心· 2025-08-12 08:15
核心技术与架构 - 采用完全独立的纯解码器Transformer架构 从参数初始化开始完全独立训练 提供20亿和70亿参数两个版本[4] - 规避预训练模型的授权限制和固有偏差 架构设计不受限制[4] - 选择SBER-MoVQGAN作为图像分词器 在MS-COCO数据集上实现最优重建质量[7] 多任务处理能力 - 创新采用统一图像分词方案 通过上下拼接将图生图任务视为单张图像 实现多任务训练与文生图的一致性[9] - 单一模型支持文生图、主体驱动生成、图像编辑、可控生成和密集预测五大任务[9] - 在Graph200K多任务基准测试中表现优异 证明纯自回归模型在单一框架下完成多模态生成任务的可行性[17] 推理优化策略 - 采用模型量化技术 将权重量化为4位整数同时保持激活张量为bfloat16 通过PyTorch 2.0原生编译工具实现优化[13] - 运用推测式Jacobi采样 通过静态KV缓存和静态因果注意掩码方案兼容静态编译框架 实现加速采样[13] - 优化后减少60% GPU显存消耗 通过并行解码显著提升生成效率[13] 性能表现对比 - 文生图任务中GenEval分数达0.80 与顶级生成模型相当 在"两个物体"测试中达0.92分 "颜色属性"测试中达0.72分[14][15] - 70亿参数版本在DPG综合评分达84.30分 超越Janus-Pro-7B的84.19分和Infinity的83.46分[15] - 在可控生成任务中Canny条件F1分数达0.49 深度条件RMSE为17.42 显著优于ControlNet等对比模型[19] 未来发展计划 - 重点优化采样时间长的问题 提升用户体验[21] - 计划从多模态生成扩展至多模态理解 增强整体功能性和性能[21]
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位,但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向,MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题,仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构,将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式:第一阶段通过图像重建等任务建立多模态对齐,第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模,在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中,MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异,在COCO和JourneyDB数据集上误差率仅0.1008和0.0867,显著低于其他模型[21] - 与Kosmos-G对比实验中,MENTOR在CP指标上提升0.40,PF指标提升0.13[19] 应用前景 - 框架具备通用性,可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径,未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构,技术路线已获验证[2][26]
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
机器之心· 2025-07-24 12:08
语言模型技术突破 - 语言模型近年来的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性[2] - 自回归训练框架中每个token都作为前文上下文的预测目标 无需显式标注 具有明显训练优势[3][4] - 自回归推理阶段存在顺序执行瓶颈 计算开销大 与人类表达方式存在差异[5] 多token预测创新 - 苹果研究人员开发新框架 使自回归大模型能执行多token预测 实现5.35倍代码数学任务加速和2.5倍一般任务加速[7] - 该方法通过对现有模型进行LoRA微调实现 具有开创性意义[8] - 技术突破可能大幅降低AI运行成本 使轻量设备运行强大实时助手成为可能[9] 研究方法与架构 - 研究引入特殊mask token 扩展输入序列 通过NTP和MTP两种预测模式工作[29][30] - 采用门控LoRA模块 仅更新LoRA参数与采样器头参数 保持原始解码器权重冻结[34] - 采样器MLP头结合模型潜在表示与已生成token信息 确保连贯多token输出[22][32] 实验验证结果 - 在Tulu3-8B模型上验证 编程和数学任务加速效果最显著 分别达5.35倍和5.22倍[46][47] - 知识问答领域平均加速2.38倍 对话任务加速2.52倍 安全领域最高达3.72倍[47] - 门控LoRA能保持NTP token生成质量稳定 标准LoRA则导致质量下降[39][40] 技术影响与展望 - 多token预测技术处于完全自回归与完全扩散生成之间 兼具效率与质量潜力[53] - 未来可探索预训练阶段引入该方法 或结合扩散生成方法进一步优化[53] - 该框架为推理优化带来颠覆性变革可能 显著提升大模型实用性和普及度[9][10]