监督学习

搜索文档
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 21:36
PCL团队 投稿 量子位 | 公众号 QbitAI 生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。 受生成式一致性模型的启发,来自上海交大、SII、MIT、港中文深圳等机构的研究团队在ICML 2025最新提出预测一致性学习(PCL, Predictive Consistency Learning)。 PCL通过扩散模型的扩散过程消减标签的信息,将噪声标签(Noised Labels)引入模型的输入,使得模型在数据输入和噪声标签的共同参照 下预测完整标签,实现标签信息的复用和价值挖掘。 训练过程概览 传统监督学习中,输入 通过神经网络预测 ,通过对比和标准答案 之间的关系,来计算损失和反向传播更新模型,对应损失函数 $${\mathcal{L}}_{S L}=d(f_{\theta}(\mathbf{x}),\mathbf{y}),$$ 其中 为具体损失函数, 为神经网络函数。受生成一致性模型中一致性映射思想 ...
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 17:57
在建模复杂的数据分布方面,扩散生成模型表现出色,不过它的成果大体上与表征学习(representation learning)领域关联不大。 机器之心报道 编辑:Panda 通常来说,扩散模型的训练目标包含一个专注于重构(例如去噪)的回归项,但缺乏为生成学习到的表征的显式正则化项。这种图像生成范式与图像识别范式差 异明显 —— 过去十年来,图像识别领域的核心主题和驱动力一直是表征学习。 在表征学习领域,自监督学习常被用于学习适用于各种下游任务的通用表征。在这些方法中,对比学习提供了一个概念简单但有效的框架,可从样本对中学习表 征。 直观地讲,这些方法会鼓励相似的样本对(正例对)之间相互吸引,而相异的样本对(负例对)之间相互排斥。研究已经证明,通过对比学习进行表征学习,可 以有效地解决多种识别任务,包括分类、检测和分割。然而,还没有人探索过这些学习范式在生成模型中的有效性。 鉴于表征学习在生成模型中的潜力,谢赛宁团队提出了 表征对齐 (REPA) 。该方法可以利用预训练得到的现成表征模型的能力。在训练生成模型的同时,该方法 会鼓励其内部表征与外部预训练表征之间对齐。有关 REPA 的更多介绍可阅读我们之前的报道 ...
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
AI科技大本营· 2025-06-02 15:24
大语言模型的局限性 - 当前大语言模型仅擅长信息检索和已有解决方案的复述 无法进行真正的抽象思考、推理和规划 [3][5][6] - 模型通过统计规律生成答案 本质是模式匹配游戏 无法创造新事物或提出正确问题 [5][6][18] - 训练数据已达边际效益递减 天然文本数据接近耗尽 合成数据成本高且回报有限 [11][13][14] AI发展的新范式方向 - 未来AI系统需具备理解物理世界、持久记忆、推理和规划四大核心能力 [29][37][38] - JEPA架构通过非生成式方法学习世界抽象表征 可预测物理规律并实现真正规划 [44][47][49] - 视频数据训练比纯文本更高效 儿童通过10^14字节视觉数据即可掌握基础物理规律 [36][37] 开源与闭源竞争格局 - 开源生态创新速度显著快于闭源 全球协作可加速技术突破 [50][53] - DeepSeek案例证明中国团队具备独立创新能力 2015年ResNet论文成为全球被引最高单篇论文 [3][53] - 实际部署中开源模型成本更低且可控 Llama等开源引擎正被广泛采用 [51] 行业投资与商业化前景 - 当前AI投资主要用于推理基础设施扩建 而非短期技术突破 [19][20] - 消费级AI应用已获验证 Meta AI用户达6亿 但企业级部署仍面临可靠性挑战 [21][24] - 专家系统历史表明AI需避免过度炒作 新范式需3-5年才能成熟应用 [25][30]
AI“化学侦探”快速解析未知分子结构
科技日报· 2025-05-29 07:43
技术突破 - 捷克技术大学领衔的国际团队研发出名为DreaMS的AI分子解码器,能快速解析未知分子结构 [1] - DreaMS采用自监督学习模式,模仿人类婴儿学习语言的过程,无需预先灌输化学规则 [1] - 通过"阅读"数千万份质谱图,自主构建分子结构认知体系,发现传统方法难以捕捉的深层关联 [1] 应用领域 - 有望应用于药物研发与太空生命探测等领域 [1] - 可解析隐藏在植物、土壤甚至外星环境中的神秘分子,可能蕴藏治疗顽疾的新药配方、环保农药分子蓝图 [1] - 具备氟元素检测能力,突破现代药物和农药中氟原子难以通过质谱法识别的瓶颈 [2] 技术原理 - 每个分子有独特的"指纹"质谱图,现代光谱仪能捕获图谱但解读难度大 [1] - DreaMS能解读由数百万数据点构成的质谱图并揭示确切分子结构 [1] - 特训后掌握氟元素检测法,解决学界多年检测难题 [2] 研究成果 - 相关研究发表于《自然·生物技术》杂志 [1] - 发现杀虫剂、食物与人类皮肤之间的分子相似性,推测某些杀虫剂可能与牛皮癣等自身免疫疾病存在关联 [1]
软件所提出小批量数据采样策略
经济观察网· 2025-05-27 15:50
该研究基于因果效应估计等手段,提出小批量数据采样策略,来消除不可观测变量语义干扰的混杂影 响。这一策略通过学习隐变量模型,来估计在给定"锚点"样本的条件下,不可观测语义变量的后验概率 分布,将其记为平衡分数。进而,该策略将具有相同或相近平衡分数的样本对划分为同一个小批量数据 集,确保每个小批量数据集内的不可观测语义变量与"锚点"样本在条件上是独立的,从而帮助模型避免 学习到虚假关联,提升模型的分布外泛化能力。 经济观察网讯据软件研究所消息,近日,中国科学院软件研究所科研团队提出了小批量数据采样策略, 可消除由不可观测变量语义引起的虚假关联对表征学习的干扰,来提升自监督学习模型分布外泛化能 力。 自监督学习的分布外泛化能力是指模型在面对与训练数据分布不同的测试数据时,仍能够保持良好性 能。简单来说,模型需要在"未见过"的数据分布上表现得和在训练数据上一样好。但是,有研究发现, 自监督学习模型在训练过程中受到与学习任务无关的不可观测变量的语义干扰,从而削弱分布外泛化能 力。 进一步,该研究在基准数据集上进行了广泛实验。所有实验均仅替换批次生成机制,无需调整模型架构 或超参数。实验显示,这一采样策略使当前主流自监督 ...
2025,AI Agent赛道还有哪些机会?
虎嗅· 2025-05-26 16:16
AI Agent行业动态 - OpenAI以30亿美元收购编程工具Windsurf [1] - 编程工具Cursor母公司Anysphere获9亿美元融资 估值达90亿美元 [1] - 中国通用AI Agent项目Manus获Benchmark领投7500万美元融资 [1] - OpenAI推出具备浏览器能力的Operator和复杂任务处理产品Deep Research [1] 技术演进 - 2025年AI Agent技术实现跃迁 结合强化学习与推理模型能力 [8] - RFT(强化学习微调)技术推动Agent具备自主学习能力 [8] - 大语言模型达到"AlphaGo时刻" 能自主探索解题路径 [15] - 环境理解成为关键 Devin构建包含四个子界面的综合开发环境 [21] 产品分析 - Cursor从编程工具向通用平台转型 积极接入MCP接口 [31][55] - Windsurf内置context engine 环境理解能力突出 [19] - Devin创新性加入笔记系统 支持长期开发过程管理 [21] - Manus依赖Claude Sonnet 3.7模型 面临API稳定性挑战 [33] 创业机会 - 通用Agent领域被大厂占据 创业者机会集中在垂直场景 [23] - 服务型Agent面临被整合风险 如Operator覆盖上百个场景 [22] - 个人化Agent可能成为新方向 类似自媒体网红模式 [24] - 评估机制(Evaluation)成为构建竞争力Agent的关键 [40][43] 技术路线 - RFT相比SFT性能提升25% 但成本高出数倍 [47] - Manus采用SFT技术调优外围执行模块而非核心模型 [48] - MCP协议发展缓慢 行业采纳面临商业化障碍 [72] - 代码层成为数字世界操作的关键中间层 [28] 垂直领域案例 - Vantel为保险经纪人节省80%重复工作时间 [58] - Sweet Spot服务中小企业申请政府资助 用户体验优异 [59] - Gamma革新PPT制作流程 模块化设计获长期用户认可 [61][62] - Replit和Fellou在人机交互设计上表现突出 [49][52] 行业趋势 - 产品开发节奏加快 执行优先于计划 [65] - 环境侧建设滞后 MCP生态渗透需以年计 [68] - 编程Agent可能发展为通用型平台 [31][56] - 用户需求理解仍是待解难题 [69]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑
量子位· 2025-05-06 12:24
论文获奖与学术影响 - 谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》(DSN)获得AISTATS 2025年度时间检验奖 [1][2] - DSN提出的中间层监督思想被后续研究REPA和U-REPA继承发展,展示出从单一模型优化到跨模型知识迁移的演进 [3][4] - DSN已成为计算机视觉领域的经典方法,是首个在生成式AI领域产生跨代影响的监督学习框架 [17] 论文核心贡献与技术细节 - DSN旨在解决深度学习中隐藏层特征学习问题,提升分类性能 [12] - DSN通过中间层监督机制解决CNN三大痛点:梯度消失(通过辅助分类器增强梯度信号)、特征鲁棒性(中间层直接参与分类任务,AlexNet第3层特征分类准确率提升18%)、训练效率(CIFAR-10数据集上ResNet-50训练收敛速度加快30%,Top-1准确率提升2.1%) [15] - 截至文章推送,DSN谷歌学术被引量超过3000次 [18] 学术评价与行业反响 - AISTATS官宣获奖后,业界大佬齐聚祝贺 [5] - 计算机会议时间检验奖要求论文在获奖10年前发表,需被同行评价为开创性工作或成为后续研究基础范式 [22] - 类似案例包括被ICLR拒稿后转投NeurIPS的Word2vec(2023年获时间检验奖)和被ICLR 2024拒稿的Mamba [30] 作者经历与学术启示 - DSN是谢赛宁攻读博士学位期间提交的第一篇论文,共同一作为谷歌研究科学家Chen-Yu Lee,通讯作者为UCSD教授屠卓文 [7][8][9] - 谢赛宁分享经验:坚持不懈需要强大支持系统和具体实践指导,导师屠卓文的指导与合作者Chen-Yu Lee的帮助至关重要 [25][26] - Chen-Yu Lee表示对DSN的持续影响力和相关性感到自豪 [28]
语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
机器之心· 2025-04-29 07:04
机器之心报道 机器之心编辑部 近日,ISCA Fellow 2025 入选结果揭晓! ISCA Fellow 是由国际语音通讯协会(International Speech Communication Association,ISCA)设立的荣誉称号,旨在表彰在语音通信科学与技术领域做出杰出贡献 的会员,包括研究人员、工程师和学者。 该奖项设立于 2007 年,每年新晋 Fellow 不超过当年 ISCA 会员总数的千分之三,确保稀有性和权威性。 自设立以来,ISCA Fellow 人数已经超过 100 人。ISCA Fellow 2025 入选者共有 8 位,包括以下三位华人学者: 华人入选者 俞凯 个人简介: 俞凯,思必驰联合创始人、首席科学家,上海交通大学特聘教授,清华大学本科、硕士,剑桥大学博士。入选国家级重大人才工程,国家自然科学基 金委优青,上海市「东方学者」特 聘 教 授 。IEEE 信号处理学会会议理事会 (Conference Board) 和会员理事会 (Membership Board) 理事,IEEE Speech and Language Processing Technical C ...
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
2025 年 2 月的全球 AI 重要趋势。 文 丨 贺乾明 2025 年 2 月的 AI 月报,你会看到: 硅谷巨头的新共识:推理能力是大模型的一部分 OpenAI 和 Manus 的 Agent 开发经验 DeepSeek 推动中国大公司加大算力投入,阿里、字节两家加起来,今年就超过 2000 亿 3 家售价过亿的 AI 公司和 23 家获得超过 5000 万美元融资的 AI 公司 OpenAI 时薪 100 美元招专家生产数据提高模型能力 这一期月报中,我们开始邀请研究者、创业者和投资人提供一手视角的对每月 AI 趋势和标志性事件的评述和 洞察。 晚点 AI 月报,每月选取最值得你知道的 AI 信号。 以下是我们第 4 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。 技术丨GPT-5 雏形出现,行业新共识诞生 DeepSeek 带来的冲击波继续扩散,全球大模型公司陷入混战:不论是马斯克用超过 10 万张 GPU 训练 的 Grok 3,还是 OpenAI 可能投入 10 亿美元训练的 GPT-4.5,或是 Anthropic 融合推理(reasoning) 能力的最新模型 Claude 3 ...