Workflow
监督学习
icon
搜索文档
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 21:36
生成式视角下的监督学习范式革新 - 提出预测一致性学习(PCL)框架,通过噪声标签渐进式分解标签信息,实现标签信息的复用和价值挖掘 [1] - 核心思想是将标签作为学习过程的辅助参考而非单纯标准答案,借鉴生成式一致性模型的扩散过程 [1] - 通过引入噪声标签作为输入提示,模型在数据输入和噪声标签共同参照下预测完整标签 [1] PCL训练机制 - 传统监督学习直接对比预测结果与标准答案计算损失,PCL将学习过程分解为逐步逼近的渐进式任务 [4][5] - 采用扩散模型加噪过程,以不同噪声水平的带噪标签作为输入提示,约束跨噪声水平的预测一致性 [5][6] - 损失函数包含预测精度损失和一致性损失,权重由λ₁和λ₂控制 [8] 标签噪声处理技术 - 离散标签采用分类分布噪声过程,通过转移矩阵实现类别间转换 [9] - 连续标签采用高斯扩散模型,逐步添加方差为βₜ的高斯噪声 [10] - 复杂标签直接向潜在嵌入空间引入高斯噪声,计算效率与连续标签一致 [11] 推理阶段优化 - 测试时从随机噪声分布采样标签提示进行单步预测,实际效果优于传统监督学习 [14] - 多步推理策略通过逐步降低噪声水平细化输出,利用早期预测的提示信息提升精度 [14] - 训练目标是将低噪声条件下的高精度传递至高噪声条件,减少对标签提示的依赖 [7][19] 信息论理论基础 - 通过分解互信息I(X;Y)为条件互信息I(X;Y|Yₜ)和I(X;Yₜ),实现标签信息的渐进式学习 [15][16] - 噪声标签Yₜ的信息量控制学习重点:高噪声时捕捉全局结构,低噪声时优化细节 [17] - 最小化噪声条件依赖项,确保预测结果在不同噪声水平下保持一致 [18][19] 跨模态实验结果 - 图像语义分割任务中,PCL单步预测即超越传统监督学习,多步推理进一步提升质量 [22][25] - 图模态预测显示推理步数存在最优平衡点,需通过早停机制避免误差累积 [26][27] - 语言模型微调任务中,PCL在LLaMa2-7B上表现优于传统方法,但噪声过程仍有优化空间 [30][31] 技术实现资源 - 论文与代码已公开,涵盖理论推导和实现细节 [33] - 实验覆盖视觉、图结构、语言三大模态,验证框架通用性 [20]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑
量子位· 2025-05-06 12:24
论文获奖与学术影响 - 谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》(DSN)获得AISTATS 2025年度时间检验奖 [1][2] - DSN提出的中间层监督思想被后续研究REPA和U-REPA继承发展,展示出从单一模型优化到跨模型知识迁移的演进 [3][4] - DSN已成为计算机视觉领域的经典方法,是首个在生成式AI领域产生跨代影响的监督学习框架 [17] 论文核心贡献与技术细节 - DSN旨在解决深度学习中隐藏层特征学习问题,提升分类性能 [12] - DSN通过中间层监督机制解决CNN三大痛点:梯度消失(通过辅助分类器增强梯度信号)、特征鲁棒性(中间层直接参与分类任务,AlexNet第3层特征分类准确率提升18%)、训练效率(CIFAR-10数据集上ResNet-50训练收敛速度加快30%,Top-1准确率提升2.1%) [15] - 截至文章推送,DSN谷歌学术被引量超过3000次 [18] 学术评价与行业反响 - AISTATS官宣获奖后,业界大佬齐聚祝贺 [5] - 计算机会议时间检验奖要求论文在获奖10年前发表,需被同行评价为开创性工作或成为后续研究基础范式 [22] - 类似案例包括被ICLR拒稿后转投NeurIPS的Word2vec(2023年获时间检验奖)和被ICLR 2024拒稿的Mamba [30] 作者经历与学术启示 - DSN是谢赛宁攻读博士学位期间提交的第一篇论文,共同一作为谷歌研究科学家Chen-Yu Lee,通讯作者为UCSD教授屠卓文 [7][8][9] - 谢赛宁分享经验:坚持不懈需要强大支持系统和具体实践指导,导师屠卓文的指导与合作者Chen-Yu Lee的帮助至关重要 [25][26] - Chen-Yu Lee表示对DSN的持续影响力和相关性感到自豪 [28]