监督学习 - 财报，业绩电话会，研报，新闻

监督学习

搜索文档

生成式视角重塑监督学习！标签不只是答案，更是学习指南 | ICML 2025

量子位· 2025-06-24 21:36

生成式视角下的监督学习范式革新 - 提出预测一致性学习（PCL）框架，通过噪声标签渐进式分解标签信息，实现标签信息的复用和价值挖掘 [1] - 核心思想是将标签作为学习过程的辅助参考而非单纯标准答案，借鉴生成式一致性模型的扩散过程 [1] - 通过引入噪声标签作为输入提示，模型在数据输入和噪声标签共同参照下预测完整标签 [1] PCL训练机制 - 传统监督学习直接对比预测结果与标准答案计算损失，PCL将学习过程分解为逐步逼近的渐进式任务 [4][5] - 采用扩散模型加噪过程，以不同噪声水平的带噪标签作为输入提示，约束跨噪声水平的预测一致性 [5][6] - 损失函数包含预测精度损失和一致性损失，权重由λ₁和λ₂控制 [8] 标签噪声处理技术 - 离散标签采用分类分布噪声过程，通过转移矩阵实现类别间转换 [9] - 连续标签采用高斯扩散模型，逐步添加方差为βₜ的高斯噪声 [10] - 复杂标签直接向潜在嵌入空间引入高斯噪声，计算效率与连续标签一致 [11] 推理阶段优化 - 测试时从随机噪声分布采样标签提示进行单步预测，实际效果优于传统监督学习 [14] - 多步推理策略通过逐步降低噪声水平细化输出，利用早期预测的提示信息提升精度 [14] - 训练目标是将低噪声条件下的高精度传递至高噪声条件，减少对标签提示的依赖 [7][19] 信息论理论基础 - 通过分解互信息I(X;Y)为条件互信息I(X;Y|Yₜ)和I(X;Yₜ)，实现标签信息的渐进式学习 [15][16] - 噪声标签Yₜ的信息量控制学习重点：高噪声时捕捉全局结构，低噪声时优化细节 [17] - 最小化噪声条件依赖项，确保预测结果在不同噪声水平下保持一致 [18][19] 跨模态实验结果 - 图像语义分割任务中，PCL单步预测即超越传统监督学习，多步推理进一步提升质量 [22][25] - 图模态预测显示推理步数存在最优平衡点，需通过早停机制避免误差累积 [26][27] - 语言模型微调任务中，PCL在LLaMa2-7B上表现优于传统方法，但噪声过程仍有优化空间 [30][31] 技术实现资源 - 论文与代码已公开，涵盖理论推导和实现细节 [33] - 实验覆盖视觉、图结构、语言三大模态，验证框架通用性 [20]

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

机器之心· 2025-05-26 09:28

人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子，内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降，但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新，后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射，依赖高质量专家数据，是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制，可从次优数据中学习并超越教师，具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力，而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互，涉及数十亿参数模型，成本极高[23] - 现代系统采用Actor-Learner架构：Actors负责环境交互与数据收集，Learners负责策略更新[23][24] - 聊天机器人场景中，Actors是对话接口，环境是用户，Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化，多步RL需解决信用分配问题，后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化，包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差，但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度，结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度，形成完整强化学习解决方案[29][78]

被拒稿11年后翻盘获时间检验奖，DSN作者谢赛宁：拒稿≠学术死刑

量子位· 2025-05-06 12:24

论文获奖与学术影响 - 谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》（DSN）获得AISTATS 2025年度时间检验奖 [1][2] - DSN提出的中间层监督思想被后续研究REPA和U-REPA继承发展，展示出从单一模型优化到跨模型知识迁移的演进 [3][4] - DSN已成为计算机视觉领域的经典方法，是首个在生成式AI领域产生跨代影响的监督学习框架 [17] 论文核心贡献与技术细节 - DSN旨在解决深度学习中隐藏层特征学习问题，提升分类性能 [12] - DSN通过中间层监督机制解决CNN三大痛点：梯度消失（通过辅助分类器增强梯度信号）、特征鲁棒性（中间层直接参与分类任务，AlexNet第3层特征分类准确率提升18%）、训练效率（CIFAR-10数据集上ResNet-50训练收敛速度加快30%，Top-1准确率提升2.1%） [15] - 截至文章推送，DSN谷歌学术被引量超过3000次 [18] 学术评价与行业反响 - AISTATS官宣获奖后，业界大佬齐聚祝贺 [5] - 计算机会议时间检验奖要求论文在获奖10年前发表，需被同行评价为开创性工作或成为后续研究基础范式 [22] - 类似案例包括被ICLR拒稿后转投NeurIPS的Word2vec（2023年获时间检验奖）和被ICLR 2024拒稿的Mamba [30] 作者经历与学术启示 - DSN是谢赛宁攻读博士学位期间提交的第一篇论文，共同一作为谷歌研究科学家Chen-Yu Lee，通讯作者为UCSD教授屠卓文 [7][8][9] - 谢赛宁分享经验：坚持不懈需要强大支持系统和具体实践指导，导师屠卓文的指导与合作者Chen-Yu Lee的帮助至关重要 [25][26] - Chen-Yu Lee表示对DSN的持续影响力和相关性感到自豪 [28]

深度学习

生成式AI

监督学习

Artificial Intelligence

《Deeply-Supervised Nets》（DSN

Artificial Intelligence

《Deeply-Supervised Nets》（DSN

深度监督网络）