机器之心

搜索文档
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 12:41
强化学习对语言模型能力的影响 - 学界长期争论RL是否能真正提升语言模型的推理能力,还是仅优化已有知识的调用效率 [1] - 过去研究多持悲观态度,认为RL收益有限且可能导致模型同质化 [1] - NVIDIA研究指出问题根源在于基础模型训练数据中数学/编程任务过度呈现,以及RL训练步数不足 [1] ProRL框架的核心创新 - 将RL训练步数从传统几百步大幅提升至2000步以上,释放小模型潜力 [3] - 采用多样化可验证奖励任务,涵盖数学/编程/科学问答/逻辑谜题等多领域数据 [5] - 引入GRPO+DAPO算法组合,通过解耦裁剪和动态采样提升训练效率 [7] - 采用KL正则化+周期性策略重置机制,有效打破训练停滞 [8] ProRL的技术突破表现 - 在逻辑谜题任务中实现pass@k 100%的突破性表现 [6] - 创造力指标(Creativity Index)显著提升,模型能生成全新解题路径 [6] - 数学任务性能提升14.7%,代码生成领先同类1.5B模型6.5%,逻辑推理准确率提升54.8% [12] - 在基础模型表现较弱的任务上,RL展现出最强的"推理边界扩展"能力 [13] Nemotron-1.5B模型的性能优势 - 在AIME24/AIME25/AMC Math等数学测试中,1.5B模型性能接近7B大模型 [10] - 在apps/CC/cf等编程任务中表现优于同类1.5B模型 [10] - 在GPOA/IFEval/Reasoning等推理任务中大幅超越7B模型,部分指标提升超过50% [10] 研究结论与行业意义 - 长期稳定的RL训练能真正扩展模型能力边界,不仅是策略优化 [15] - 小模型通过ProRL可在复杂推理任务中超越大模型,不依赖更多数据或更大参数量 [16] - 该方法为开发高推理能力、低部署成本的小语言模型提供了新路径 [17]
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
机器之心· 2025-06-04 09:59
核心观点 - CrossFlow框架通过流匹配技术实现跨模态生成,摆脱了对噪声分布的依赖,简化了生成流程[3][4] - 该方法在文本到图像、图像描述、深度估计等多任务上取得SOTA性能,且无需任务特定设计[7][28] - 相比传统扩散模型,训练资源需求大幅降低(630 A100 GPU天 vs 数千天),采样速度提升6.62倍[23] 技术创新 - **模态映射机制**:使用变分编码器将输入模态编码为与目标模态同维度的正则化潜在空间,实现平滑跨模态路径[8] - **条件生成优化**:通过二元指示符实现单模型内条件/非条件生成的灵活切换,替代传统无分类器引导机制[12] - **双向映射特性**:支持反向使用模型(如图像描述任务),在COCO数据集达到SOTA水平[23] 性能表现 - **文本到图像生成**:参数量0.95B时FID达10.13,优于标准流匹配基线(10.79)[15] - **跨模型对比**:FID-30K指标达8.95(Sin-Cos版本),接近3B参数Imagen(7.27)和6.5B参数DALL-E 2(10.39)[17] - **多任务适配**:同一框架在图像生成/描述/深度估计/超分辨率任务均取得SOTA[28] 应用扩展 - **语义算术操作**:支持潜在空间加减运算(如"戴帽子的狗+墨镜-帽子=戴墨镜的狗")[19] - **源分布定制**:可学习源分布到图像的映射,显著降低训练成本并提升生成速度[23] - **统一框架潜力**:推动生成式AI从噪声生成转向语义流转,提供更通用解决方案[30]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
本周日不见不散!CVPR 2025北京论文分享会最后报名了
机器之心· 2025-06-03 16:57
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高 度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。 从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最 初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。 因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等 热门主题邀请顶级专家、论文作者与现场参会观众共同交流。 作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投 稿,最终接收 2878 篇论文,整体接收率为 22.1%。 作为一场为国内 AI 人才打造的盛会,本次论文分享会 ...
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成
机器之心· 2025-06-03 16:57
核心观点 - 阿里巴巴通义实验室推出VRAG-RL框架,通过强化学习算法提升视觉语言模型在检索、推理和理解视觉信息方面的能力,解决传统RAG方法处理视觉丰富信息时的局限性 [1][2] - VRAG-RL引入视觉感知动作空间和多专家采样策略,实现从粗粒度到细粒度的信息聚焦,显著提升模型性能 [9][10] - 该框架通过多维度奖励机制和GRPO算法优化检索与推理路径,形成闭环优化,并在多个基准数据集上表现优于现有方法 [12][13][15][17] 技术革新 - **视觉感知动作空间**:VRAG-RL定义区域选择、裁剪、缩放等多样化动作,使模型逐步聚焦信息密集区域,精准提取关键视觉信息 [9] - **多专家采样策略**:大规模模型与专家模型协同工作,结合推理能力和精确标注能力,提升训练效果 [10] - **强化学习训练**:采用GRPO算法优化多轮交互,本地部署搜索引擎降低调用成本,增强泛化能力 [15] 性能表现 - **基准测试**:在SLIDEVOA、VIDOSEEK、MMLONGBENCH等数据集上,VRAG-RL在单跳/多跳推理、文本/图表/布局等任务中全面领先 - 3B模型:整体性能达53.5分,远超Vanilla RAG(11.2分)和Search-R1(14.1分) [17] - 7B模型:整体性能提升至57.1分,逻辑任务得分达74.8分 [19] - **多轮交互优势**:支持动态调整检索策略,效率与深度双重提升 [20] 未来方向 - 拓展模型能力,引入更多模仿人类处理复杂信息的动作 [22] - 减少幻觉现象,通过先进架构和训练方法提升准确性 [22]
经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
机器之心· 2025-06-03 14:26
深度学习激活函数研究 - 当前深度学习领域对激活函数的研究已成为独立方向,GELU、SELU和SiLU等函数因平滑梯度和卓越收敛特性成为热门选择[2] - 经典ReLU函数虽因简洁性和稀疏性广受青睐,但存在"死亡ReLU问题",即神经元输出恒为0时梯度也为0无法恢复[3] - 为解决该问题已出现多种改进线性单元函数,包括LeakyReLU、PReLU、GELU等,通过为负预激活值引入非零激活提供不同权衡[3] SUGAR方法创新 - 研究提出SUGAR方法,前向传播使用标准ReLU保持优势,反向传播时替换ReLU导数为非零连续替代梯度函数[3] - 该方法可在保持ReLU原始前向行为的同时避免梯度为零问题,从而复活死神经元[4] - 设计了两种新型替代梯度函数:B-SiLU(Bounded SiLU)和NeLU(Negative slope Linear Unit),可无缝集成各种模型[5] 性能提升表现 - SUGAR结合B-SiLU时,VGG-16在CIFAR-10和CIFAR-100测试准确率分别提升10和16个百分点,ResNet-18分别提升9和7个百分点[6] - 在CIFAR-10数据集上,B-SiLU使ResNet-18性能从76.76%提升到86.42%,VGG-16从78.50%提升到88.35%[16] - 在CIFAR-100数据集上,B-SiLU使ResNet-18准确率从48.99%跃升至56.51%,VGG-16从48.73%提升至64.47%[18] 技术实现细节 - SUGAR方法将FGI(Forward gradient injection)应用于具有平滑替代函数的ReLU网络[8] - 替代函数选择灵活,可兼容当前最先进的各类激活函数如ELU、GELU、SiLU等[8] - B-SiLU函数结合自门控特性和可调下限参数,数学表达式为(x+α)·σ(x)-α/2,其中α=1.67[13] 实验验证结果 - 在Swin Transformer和Conv2NeXt等现代架构上评估显示SUGAR具有良好的适应性和有效性[9] - 对VGG-16层激活分析表明,应用SUGAR时激活分布明显变化,促进更稀疏表示[9] - 在Conv2NeXt上,SUGAR在前向和反向传播过程中均始终优于使用GELU的基础模型[22]
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心· 2025-06-03 14:26
核心观点 - 浙江大学联合微软亚洲研究院、香港中文大学提出CoT-Bridge方法,通过检测和补全思维链中的逻辑跳跃,显著提升大语言模型在数学和逻辑任务中的推理准确率[1][10][11] - 思维跳跃(Thought Leap)是CoT推理链中因专家经验性省略导致的中间步骤缺失,造成模型训练效果降低27 83%和收敛速度变慢[5][14] - CoT-Bridge作为即插即用模块,在知识蒸馏和强化学习流程中分别带来+3 02%和+3 1%的准确率提升[19] 技术方法 - **Leap检测与步骤补全**:识别推理链中的逻辑跳跃并生成缺失的中间步骤,基于ScaleQM+数据集训练Qwen2 5-Math-7B模型实现自动补全[11][12][13] - **数据集构建**:通过有控制地删除ScaleQuestMath原始推理链中的步骤,构造含Thought Leap的训练样本[13] - **模型训练**:使用MetaMathQA(395K样本)和NuminaMath(859K样本)进行监督微调,最大性能增益达+5 87%[17][18] 实验结果 - **数学推理任务**:在GSM8K和MATH基准上,CoT-Bridge使Meta-Llama3 1-8B准确率提升+2 24%,Qwen2 5-Math-1 5B提升+0 58%[18] - **逻辑推理任务**:OOD场景下,模型在FOLIO等数据集平均准确率提升2 99%,无效输出比例下降[21] - **蒸馏增强**:对Qwen2 5-Instruct-72B生成的蒸馏数据补全后,准确率额外提升3 02%[19] 性能指标 | 模型/数据集 | 基础准确率 | CoT-Bridge增益 | 关键指标变化 [18] |---------------------|------------|----------------|--------------------- | Meta-Llama3 1-8B | 78 90% | +2 24% | MATH任务+2 03% | Qwen2 5-Math-1 5B | 81 01% | +0 58% | NuminaMath+5 87% | 蒸馏数据增强 | - | +3 02% | 知识蒸馏流程优化[19]
字节跳动 2025 奖学金计划启动!每人 10 万、名额再增加!
机器之心· 2025-06-03 12:06
科研资助基金10万元人民币 用于包括但不限于参加国际学术会 议、申请专利等相关支出。 l 关于字节跳动奖学金 |( 「字节跳动奖学金计划 ByteDance Scholarship Program 」是字节跳动2021年发起的一年一期的 人才培养项目,为每位获奖学生提供10万元人 民币奖学金、内部研学计划特邀通道等奖励。过 去四年,共有47位优秀学子获得了字节跳动奖 学金计划支持。2025年,字节跳动奖学金将加 大对重点方向的关注和投入,并进一步增加名 额,计划在中国、新加坡地区评选出20位优秀 同学,为他们的技术研究和职业发展提供助力。 l 五重奖励,加大研学投入 |( 加入字节跳动奖学金俱乐部,定期受 邀参与学术科研活动,与字节跳动资 深技术专家面对面交流,共同探讨技 术和行业前沿发展方向。 人才计划"绿色通道" 进入字节跳动人才计划专项(Top Seed / 筋斗云人才计划或研究实习生 专项)的绿色通道,有机会直达心仪 的 Offer。 * 非中国大陆地区提供等值货币 资深导师1V1带教 基于研究领域,一对一匹配字节跳动 资深导师,提供专业的研究指导。 内部研学计划特邀通道 , 川 申请条件 |( 8 ...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
机器之心· 2025-06-03 12:06
技术突破 - 新一代超长视频理解模型Video-XL-2在效果、计算开销和运行效率等方面全面优化,显著提升多模态大模型对长视频内容的理解能力 [2] - Video-XL-2采用SigLIP-SO400M作为视觉编码器,结合动态Token合成模块(DTS)和大语言模型(LLM),实现视频帧的高维特征编码和时序关系建模 [3] - 模型采用四阶段渐进式训练策略,逐步构建长视频理解能力,最终在大规模高质量指令数据上微调,提升复杂视觉指令的响应准确性 [4] 性能优势 - Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到同参数规模开源模型的领先水平,部分性能接近720亿参数大模型 [6][11] - 模型支持单显卡处理万帧级视频,编码2048帧仅需12秒,预填充时间与输入帧数呈线性增长,效率显著优于初代Video-XL和VideoChat-Flash [6][17][19] - 在时序定位任务中表现优异,Charades-STA数据集上取得73分,验证多模态视频理解的广泛适用性 [12] 架构创新 - 引入分段式预装填策略(Chunk-based Prefilling),将超长视频分块处理,降低计算成本与显存开销 [8] - 设计双粒度KV解码机制(Bi-granularity KV Decoding),选择性加载关键片段的完整KVs和次要片段的稀疏KVs,大幅提升解码效率 [8] 应用场景 - 影视内容分析:支持电影情节问答、影视作品内容总结等任务,例如准确识别视频中物体的颜色和人物行为 [20][22] - 异常行为监测:可检测监控视频中的异常事件,如顾客与员工的肢体冲突 [23] - 游戏直播分析:具备处理超长直播内容并生成总结的能力 [23]
姚顺雨提到的「AI下半场」,产品评估仍被误解
机器之心· 2025-06-02 13:22
AI产品评估的重要性 - AI发展进入下半场,重点从解决问题转向定义问题,评估的重要性将超过训练,需要更接近产品经理的思维方式[1] - 评估是运用科学方法的持续实践,而非一劳永逸的工具,需要持续监测AI输出[7] - 评估驱动的开发(EDD)是推动AI产品进步的核心方法,类似于测试驱动的开发[12] 构建产品评估体系的科学方法 - 评估体系遵循观察数据、标注数据、提出假设、设计实验、测量结果的循环流程[8] - 需建立平衡且有代表性的数据集,正负样本比例应接近五五开,覆盖各类输入场景[8] - 实验结果必须量化,准确率提升、缺陷减少等可衡量的改进才是有效改进[9] 评估驱动的开发(EDD)实践 - EDD要求在开发AI功能前先定义成功标准,确保有明确目标和可衡量指标[12] - 通过"写评估-做改动-跑评估-整合改进"的循环实现可衡量的进步[12] - 评估提供即时客观反馈,帮助判断提示词调整、系统更新等改进是否有效[12] 自动化评估工具与人工监督 - 自动化评估工具(LLM-as-judge)需要人工监督校准,不能完全取代人工[14] - 需持续采样输出并标注质量缺陷,用高质量标注数据校准自动评估工具[14] - 理想产品设计应能通过用户交互获取隐式反馈,同时结合显式反馈[14]