Workflow
机器之心
icon
搜索文档
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 16:24
技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器(RAE),旨在替代存在10多年的变分自编码器(VAE),作为扩散模型(如DiT)的潜空间基础[1][2] - RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与训练好的解码器,实现高质量重建和语义丰富的潜空间,同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势,应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs,而简单的ViT-B编码器仅需约22 GFLOPs,过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩(仅4个通道),限制了可存储的信息量,其压缩作用有限,几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练,学到的特征很弱(线性探针精度约8%),导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量(rFID)上一致优于SD-VAE,例如使用MAE-B/16的RAE达到0.16的rFID,明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码,重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID,从ViT-B的0.58提升到ViT-XL的0.49,且ViT-B性能已超过SD-VAE,其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力,线性探测精度远高于SD-VAE的8%,例如DINOv2-B达84.5%,SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间,研究者提出新的DiT变体DiT^DH,引入浅层但宽度较大的头部结构,使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快,在计算效率(FLOPs)方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势,例如在使用DINOv2-L时,将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果:在256×256分辨率下,无引导条件FID为1.51;在256×256和512×512分辨率下,有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型,在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时,DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型;在5×10¹¹ GFLOPs时实现全场最佳FID,所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当,冻结表征编码器可作为扩散潜在空间的强大编码器,挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成,模型宽度必须匹配或超过RAE的Token维度,否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移,通过缩放因子调整噪声时间步长,在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案,向干净潜变量注入高斯噪声,增强解码器对扩散模型输出空间的泛化能力,改善生成指标(gFID)[29]
老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体
机器之心· 2025-10-14 16:24
机器之心报道 编辑:冷猫 至今为止 Transformer 架构依然是 AI 模型的主流架构,自从其确立了统治地位后,号称 Transformer 杀手的各类改进工作就没有停止过。 在一众挑战者中最具影响力的自然是 2023 年社区爆火的基于结构化的状态空间序列模型(SSM)架构的 Mamba。 Mamba 的爆火可能和名字有关,但硬实力确实强大。 在当时,Mamba 在语言建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度 序列,并实现 5 倍的推理吞吐量提升。 在 Mamba 问世后,涌现出了超多在不同任务上使用 Mamba 的工作以及一些改进工作,诞生了了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、 MambaByte、MambaOut 等多项工作,被称为 「Tra nsfor mer 最有力的继任者」 。 但 Mamba 在 2024 年的 ICLR 会议中遭遇了滑铁卢 ,最终还是被拒稿。 在 2024 年,在 Mamba 发布的半年后, Mamba-2 正式发布 ,拿下了顶会 ...
NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集
机器之心· 2025-10-14 16:24
| Zhaoliang Wan- Zetong Bi1 Zida Zhou2 Hao Ren1 Yiming Zeng1 Yihan Li1 | | | | | --- | --- | --- | --- | | Lu Oi3 | Xu Yang4 | Ming-Hsuan Yang3 | Hui Cheng1 * | 论文标题:RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy 论文地址:https://www.arxiv.org/abs/2506.07490 项目主页:https://rapid-hand.github.io/ 灵巧操作能力是通用机器人实现多任务泛化的核心能力之一。无论是日常的家庭整理、物品归置,还是辅助类服务任务,若缺乏灵巧的操作能力,机器人便难以 真正完成复杂交互。 近年来,随着多模态大模型(VLMs)在机器人控制中的逐步应用,研究者们开始将高质量的操作演示与预训练模型结合,用于具身推理与通用操作策略学 ...
OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击
机器之心· 2025-10-14 14:33
机器之心报道 编辑:+0、陈陈 本文实测 12 种防御方法,几乎全军覆没。 真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估。 看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。 论文标题: The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections 论文地址:https://arxiv.org/pdf/2510.09023 本文主要围绕一个问题展开: 我们该如何评估语言模型防御机制的鲁棒性? 要知道,目前针对越狱和提示注入的防御措施(前者旨在防止攻击者诱导模型输出有害内容,后者旨在防止攻击者远程触发恶意行为)主要采用如下手段: 换句话说,现有的防御评估大多是纸上谈兵,并没有真正模拟出一个懂防御、会反制的强攻击者。 所以说,当前的评估流程是有缺陷的。 这篇文章就是为了解决上述问题。为了更准确地评估语言模型的防御机制,本文认为我们应当假 ...
蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌
机器之心· 2025-10-14 14:33
模型发布与市场反响 - 蚂蚁集团在短短十余天内连续开源三款大模型,最新发布的是全球首个开源万亿参数思考模型Ring-1T [3][6] - Ring-1T上线HuggingFace仅四天下载量便突破千次,显示出较高的市场关注度 [3] - 此次正式发布的Ring-1T完成了完整的训练流程,包括通过大规模可验证奖励强化学习和人类反馈强化学习进一步增强能力 [7] 技术性能表现 - 在IMO 2025测试中,Ring-1T首次尝试便解出4题全对,达到IMO银牌水平,成为首个在国际奥数赛题上取得获奖级成绩的开源系统 [7] - 在八个重要基准测试中,Ring-1T性能几乎全面超越其Preview版本,在ARC-AGI-v1、Arena-Hard-v2.0等高难度测试中表现尤为突出 [12][14] - 在逻辑推理任务ARC-AGI-v1上,Ring-1T刷新开源SOTA,显著领先Gemini-2.5-Pro,非常接近GPT-5-Thinking (High) [16] - 在ICPC World Finals 2025中,Ring-1T成功解出5题,表现超越Gemini-2.5-Pro (3题),逼近GPT-5-Thinking (6题) [19] 实际应用演示 - 在代码生成方面,Ring-1T能够快速生成功能完整的游戏代码,如Flappy Bird和贪吃蛇小游戏,实现交互功能与平滑动画 [20][23] - 模型在逻辑推理测试中表现出色,能够准确分析复杂情境并给出合理解答,如三只兔子赛跑问题和俱乐部成员身份推理题 [29][33] - 在创意写作领域,Ring-1T能够生成符合播客口语化风格的历史文案,语言生动且具吸引力 [40] 技术创新与工程突破 - 团队开发了强化学习算法IcePop,通过"双向截断+Masked Clipping"机制解决MoE模型训推不一致问题,显著提升训练稳定性 [45][46] - IcePop让模型在AIME25等复杂推理任务上成绩更优,输出更稳、更具多样性 [48] - 蚂蚁自研了强化学习基础框架ASystem,采用SingleController + SPMD架构,解决万亿规模训练的硬件资源调度与效率瓶颈 [50] - ASystem通过显存透明卸载与跨节点显存池化技术降低OOM风险,并实现权重秒级交换 [51] - 系统集成大规模Serverless Sandbox,支持毫秒级冷启动和10K/s吞吐量的奖励评估 [51] 开源战略与行业影响 - 蚂蚁集团在9-10月密集上线多款新品,平均每4天发布一个新模型,展现出快速迭代能力 [52] - 公司开源的不只是模型,还包括底层能力如强化学习框架AReaL,让社区能复用其在RL工程上的积累 [52] - 蚂蚁将开源视为AI普惠落地的现实路径,旨在让AI能力像电力与支付那样无处不在 [52]
斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law
机器之心· 2025-10-14 14:33
Vision-Language-Action(VLA)模型在视觉运动控制中展现出了卓越能力,但如何在复杂的真实世界中保持鲁棒性仍是一个长期挑战。研究团队展示了一个关键 发现:在推理阶段,结合「生成 - 验证」(generate-and-verify)范式从而增加计算量(test-time compute)可以显著提升 VLA 模型的泛化能力与可靠性。 与此同时,论文系统性地探讨了具身智能中的 Test-Time Scaling Law:随着推理阶段的采样与验证规模增长,VLA 模型在任务成功率和稳定性方面呈现出可预测的 提升规律。 论文标题:RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models 论文地址:https://arxiv.org/abs/2506.17811 代码链接:robomonkey-vla.github.io 作者邮箱:jackykwok@stanford.edu 本文的第一作者为斯坦福大学博士生 Jacky Kwok。共同通讯作者包括英伟达自动驾驶研究总监 Marc ...
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心· 2025-10-14 14:33
多模态大语言模型(MLLMs)已在视觉与语言模态融合的感知与推理任务中展现出强大能力。而 上海人工智能实验室、上海交通大学、香港大学、香港中文大学 的研究者们 提出的的 OST-Bench, 则是从智能体探索场景的动态在线视角出发,为大模型的能力提出了新的挑战。 对比离线 / 静态的空间智能基准,OST-Bench 更精准地反映了具身感知在真实世界中的核心挑战。代码和数据均已开源。 离线鸟瞰全景 VS 在线移步换景 在现实世界中,我们的视野范围是有限的,我们的眼睛在某一时刻只能聚焦于一个局部的场景。随着不断的探索,移步换景,我们对于全局场景逐步地形成一个 更为清晰的认识;与此同时,基于当前以及历史的观测,我们也能感知自身的位置变化以及与之前见过的物体的位置关系 (「我离那把椅子越来越远」「棕色的枕 头现在在我的右后方」)。 论文链接:https://arxiv.org/abs/2507.07984 项目主页:https://rbler1234.github.io/OSTBench.github.io/ Hugging Face 数据集:https://huggingface.co/datasets/rbler ...
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
机器之心· 2025-10-14 10:06
项目概述 - AI领域大神Andrej Karpathy发布名为nanochat的开源项目,旨在以极低成本自建ChatGPT [1][2] - 项目包含约8000行代码,覆盖大语言模型的训练和推理全流程,结构干净且依赖极少 [2][4] - 该项目是LLM101n课程的压轴项目,并有望像nanoGPT一样成长为研究平台或标准基准 [5][6] 技术实现与功能 - 使用Rust实现训练分词器,并在FineWeb数据集上预训练Transformer大语言模型 [4] - 项目实现了监督微调,并评估模型在多选问答、数学、代码等任务上的表现 [4] - 包含高效推理引擎,支持KV缓存、工具调用,并可通过CLI或ChatGPT风格WebUI交互 [9] - 项目能自动生成Markdown评分报告卡,以游戏化方式展示整个训练过程 [9] 成本与性能指标 - 仅需约100美元成本(在8×H100上训练4小时)即可训练一个具备聊天功能的迷你ChatGPT [3][5] - 训练约12小时即可在CORE指标上超过GPT-2 [5] - 将预算提升至1000美元(训练41.6小时),模型性能显著提升,例如一个30层深度的模型在MMLU得分超过40分,在ARC-Easy得分超过70分 [5] - 项目报告了模型在不同训练阶段(BASE, MID, SFT, RL)在ARC-Challenge、GSM8K、HumanEval等多个基准测试上的具体分数 [10] 应用前景与局限性 - 该项目展示了构建具备聊天功能的大语言模型是简单且低成本的 [11] - 然而,该微型模型被类比为非常年幼的孩子,其原始智能有限,不适合直接用于个性化目的 [12][13] - 要实现有效的个性化模型效果,需要在准备原始数据的基础上进行复杂的合成数据生成和重写,并微调当前较强的开源大模型,过程仍偏科研性质 [13]
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心· 2025-10-14 10:06
文章核心观点 - 大模型后训练是AI进化的关键环节,核心目标是增强模型推理能力、对齐人类偏好并保持稳定高效 [1] - 作业帮与香港科技大学(广州)团队提出全新后训练方法GVPO,该方法通过避免重要性采样解决了GRPO的训练不稳定和超参数敏感问题 [2] - GVPO在理论上提供唯一最优解保证,在数学推理任务实验中表现全面超越GRPO和DrGRPO等现有方法 [2][21] - GVPO标志着后训练从经验驱动转向理论保证,可能引发下一代后训练的范式转变,具备更稳定、更灵活、更高效的特点 [25][26] GVPO设计动机与方法 - 研究团队受DPO启发,旨在GRPO场景下利用KL约束下奖励最大化的解析解,但面临公式中Z(x)计算不可行的实际困难 [5][6] - GVPO通过保证同一提示词下所有采样对应梯度权重之和为零,使Z(x)自然消掉,从而规避计算难题 [6] - GVPO的损失函数等价于均方误差损失,其物理意义是让隐式奖励去逼近真实奖励 [10][11] GVPO关键优势 - 拥有唯一最优解保证,研究团队从必要性和充分性证明当且仅当隐式奖励等于真实奖励时达到唯一最优解 [13] - 无须重要性采样,对训练时的采样分布几乎无限制,能适配任意满足条件的分布,支持无需重要性采样的离线策略训练 [14] - 能够充分利用人类专家数据、蒸馏数据和历史数据,避免重要性采样常见的训练不稳定问题,更契合大规模工业级应用 [14] GVPO分析视角 - 负对数似然视角下,GVPO损失函数可表示为带权重的负对数似然,涵盖传统策略梯度方法并允许整合历史数据和异构数据源 [17] - 均方误差视角下,优化目标等价于最小化隐式奖励与实际奖励中心距离的偏差,保证收敛到唯一全局最优解 [18] - 强化学习视角下,损失函数包含组相对奖励项、方差正则项和协方差正则项,共同保障训练稳定性并避免熵塌缩 [19][20] 实验结果 - 在数学推理任务系统对比中,基座模型Qwen25-Math-7B使用GVPO后在AIME2024、AMC、MATH500、Minerva、OlympiadBench五个基准测试全面领先 [21] - GVPO在AIME2024得分从基座的1468提升至2072,在AMC从3855提升至6265,在MATH500从6400提升至8380,在Minerva从2720提升至4595,在OlympiadBench从3066提升至4696 [21] - 消融实验显示GVPO对超参数β不敏感几乎无需调参,在采样数量增加时扩展性优异,且支持混合采样策略进一步降低成本 [23] 行业意义与前景 - GVPO为可靠通用的大模型后训练提供全新范式,推动后训练从经验驱动走向理论保证 [25] - 该方法具备更稳定特性可降低大规模训练的工程风险,更灵活特性可支撑更复杂数据利用场景,更高效特性可在推理和对齐中获得更佳性价比 [26] - 在大模型迈向通用智能道路上,后训练已成为竞争焦点,GVPO的提出可能预示着下一代后训练的范式转变 [25]
刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器
机器之心· 2025-10-14 07:56
| | | 今天凌晨,OpenAI 又搞出了一个大新闻! 这家 AI 巨头宣布与全球领先的芯片厂商之一博通建立战略合作,共同部署由前者设计的 10 吉瓦规模的 AI 加速器 。吉瓦是一个功率单位,1 吉瓦等于 100 万千 瓦。举例来说,一个普通家庭的峰值用电功率可能在 10 千瓦左右。这意味着,1 吉瓦的电力大约可以同时为 10 万个家庭供电。 预计双方将自 2026 年下半年起部署配备 AI 加速器与网络系统的机架,并在 2029 年底前完成全部部署。 就在上个月, OpenAI 宣布与英伟达建立战略合作伙伴关系 ,并将部署同样 10 吉瓦规模的英伟达系统。此次,与博通合作造芯势必将减少对英伟达 GPU 的高度 依赖,转向「自主 + 合作」并行的多元化算力策略。 正如一位网友所言,「OpenAI 简直等不及英伟达了,于是下场自己造芯。」 接下来看完整公告内容: 其中 OpenAI 将负责设计这些加速器及系统,并与博通联合开发与部署 。通过自研芯片与系统,OpenAI 能够将其在前沿模型和产品研发中积累的经验直接融入硬 件设计,从而释放出全新的能力与智能水平。 今日,OpenAI 与博通宣布展开合作,共同打 ...