Workflow
监督学习
icon
搜索文档
生成式视角重塑监督学习!标签不只是答案,更是学习指南 | ICML 2025
量子位· 2025-06-24 21:36
PCL团队 投稿 量子位 | 公众号 QbitAI 生成式视角可以对监督学习重新思考乃至重新定义! 想象你在教一个学生解数学题——你会直接让他交卷对答案,还是会让他参考完整答案来理解解题思路? 如今,一种全新的监督学习范式正受到关注:标签不应只是用于对照回答的标准答案,更可能成为学习过程中的辅助参考。 受生成式一致性模型的启发,来自上海交大、SII、MIT、港中文深圳等机构的研究团队在ICML 2025最新提出预测一致性学习(PCL, Predictive Consistency Learning)。 PCL通过扩散模型的扩散过程消减标签的信息,将噪声标签(Noised Labels)引入模型的输入,使得模型在数据输入和噪声标签的共同参照 下预测完整标签,实现标签信息的复用和价值挖掘。 训练过程概览 传统监督学习中,输入 通过神经网络预测 ,通过对比和标准答案 之间的关系,来计算损失和反向传播更新模型,对应损失函数 $${\mathcal{L}}_{S L}=d(f_{\theta}(\mathbf{x}),\mathbf{y}),$$ 其中 为具体损失函数, 为神经网络函数。受生成一致性模型中一致性映射思想 ...
何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
机器之心· 2025-06-12 17:57
扩散生成模型与表征学习 - 扩散生成模型在建模复杂数据分布方面表现出色,但与表征学习领域关联不大[2] - 扩散模型训练目标包含重构回归项,但缺乏为生成学习表征的显式正则化项,与图像识别领域以表征学习为核心的范式差异明显[3] - 自监督学习中对比学习通过样本对学习表征,已有效解决分类、检测等识别任务,但尚未在生成模型中探索应用[4][5] REPA方法的局限性 - 谢赛宁团队提出表征对齐(REPA)方法,利用预训练表征模型能力实现生成模型内部表征与外部预训练表征对齐[6] - REPA依赖额外预训练、额外模型参数和外部数据访问,操作复杂且不够独立极简[7][8] 分散损失(Dispersive Loss)创新 - MIT团队提出分散损失作为即插即用正则化器,将自监督学习集成到扩散生成模型,无需预训练、额外参数或外部数据[9][10] - 分散损失核心思想是在标准回归损失外增加正则化内部表征的目标,鼓励隐藏空间表征分散[10][13] - 该方法行为类似"没有正例对的对比损失",无需双视图采样、数据增强或额外编码器,仅需增加可忽略计算开销的正则化损失[13] 分散损失技术实现 - 目标函数由标准扩散损失L_Diff和批次依赖的分散损失L_Disp组成,加权系数λ控制正则化强度[14] - 直接应用于中间表示层,不增加额外可学习参数或修改原始L_Diff实现[15][16] - 通过适当移除正例项可从现有对比损失推导分散损失,形成鼓励表征分散的通用目标类别[18] 分散损失变体与性能 - 开发基于InfoNCE、Hinge和Covariance的三种分散损失变体,均比对应对比损失更简洁[19][24][26] - 实验显示采用ℓ₂距离的InfoNCE变体表现最佳,使FID分数降低11.35%[31][34] - 在DiT和SiT模型上分散损失均优于基线,对更强模型改进更显著,验证其正则化作用[36][37] 方法优势与应用 - 相比REPA无需DINOv2等预训练模型(11B参数/1.42亿图像训练),实现完全独立[41][42][43] - 可泛化应用于一步式扩散模型,在MeanFlow上实现持续改进并达到SOTA性能[44][45]
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
AI科技大本营· 2025-06-02 15:24
大语言模型的局限性 - 当前大语言模型仅擅长信息检索和已有解决方案的复述 无法进行真正的抽象思考、推理和规划 [3][5][6] - 模型通过统计规律生成答案 本质是模式匹配游戏 无法创造新事物或提出正确问题 [5][6][18] - 训练数据已达边际效益递减 天然文本数据接近耗尽 合成数据成本高且回报有限 [11][13][14] AI发展的新范式方向 - 未来AI系统需具备理解物理世界、持久记忆、推理和规划四大核心能力 [29][37][38] - JEPA架构通过非生成式方法学习世界抽象表征 可预测物理规律并实现真正规划 [44][47][49] - 视频数据训练比纯文本更高效 儿童通过10^14字节视觉数据即可掌握基础物理规律 [36][37] 开源与闭源竞争格局 - 开源生态创新速度显著快于闭源 全球协作可加速技术突破 [50][53] - DeepSeek案例证明中国团队具备独立创新能力 2015年ResNet论文成为全球被引最高单篇论文 [3][53] - 实际部署中开源模型成本更低且可控 Llama等开源引擎正被广泛采用 [51] 行业投资与商业化前景 - 当前AI投资主要用于推理基础设施扩建 而非短期技术突破 [19][20] - 消费级AI应用已获验证 Meta AI用户达6亿 但企业级部署仍面临可靠性挑战 [21][24] - 专家系统历史表明AI需避免过度炒作 新范式需3-5年才能成熟应用 [25][30]
AI“化学侦探”快速解析未知分子结构
科技日报· 2025-05-29 07:43
技术突破 - 捷克技术大学领衔的国际团队研发出名为DreaMS的AI分子解码器,能快速解析未知分子结构 [1] - DreaMS采用自监督学习模式,模仿人类婴儿学习语言的过程,无需预先灌输化学规则 [1] - 通过"阅读"数千万份质谱图,自主构建分子结构认知体系,发现传统方法难以捕捉的深层关联 [1] 应用领域 - 有望应用于药物研发与太空生命探测等领域 [1] - 可解析隐藏在植物、土壤甚至外星环境中的神秘分子,可能蕴藏治疗顽疾的新药配方、环保农药分子蓝图 [1] - 具备氟元素检测能力,突破现代药物和农药中氟原子难以通过质谱法识别的瓶颈 [2] 技术原理 - 每个分子有独特的"指纹"质谱图,现代光谱仪能捕获图谱但解读难度大 [1] - DreaMS能解读由数百万数据点构成的质谱图并揭示确切分子结构 [1] - 特训后掌握氟元素检测法,解决学界多年检测难题 [2] 研究成果 - 相关研究发表于《自然·生物技术》杂志 [1] - 发现杀虫剂、食物与人类皮肤之间的分子相似性,推测某些杀虫剂可能与牛皮癣等自身免疫疾病存在关联 [1]
软件所提出小批量数据采样策略
经济观察网· 2025-05-27 15:50
自监督学习技术突破 - 中国科学院软件研究所科研团队提出小批量数据采样策略,可消除不可观测变量语义对表征学习的干扰,提升自监督学习模型的分布外泛化能力 [1] - 分布外泛化能力指模型在"未见过"数据分布上保持与训练数据相当的性能,但此前模型易受无关变量语义干扰而削弱该能力 [1] - 新策略通过因果效应估计和隐变量模型,计算不可观测变量的平衡分数,将相同分数样本划分为同批次以消除虚假关联 [1] 实验验证与性能提升 - 在ImageNet100和ImageNet分类任务中,新策略使Top1和Top5准确率超越自监督方法SOTA水平 [2] - 半监督分类任务中Top1和Top5准确率分别提升超3%和2%,目标检测与实例分割任务平均精度获稳定增益 [2] - 少样本转移学习任务(Omniglot/miniImageNet/CIFARFS)性能提升超5%,所有实验仅调整批次生成机制无需改动模型架构 [2] 学术影响力 - 研究成果被人工智能顶级会议ICML-25(CCF-A类)接收,证实方法论的前沿性 [2]
2025,AI Agent赛道还有哪些机会?
虎嗅· 2025-05-26 16:16
AI Agent行业动态 - OpenAI以30亿美元收购编程工具Windsurf [1] - 编程工具Cursor母公司Anysphere获9亿美元融资 估值达90亿美元 [1] - 中国通用AI Agent项目Manus获Benchmark领投7500万美元融资 [1] - OpenAI推出具备浏览器能力的Operator和复杂任务处理产品Deep Research [1] 技术演进 - 2025年AI Agent技术实现跃迁 结合强化学习与推理模型能力 [8] - RFT(强化学习微调)技术推动Agent具备自主学习能力 [8] - 大语言模型达到"AlphaGo时刻" 能自主探索解题路径 [15] - 环境理解成为关键 Devin构建包含四个子界面的综合开发环境 [21] 产品分析 - Cursor从编程工具向通用平台转型 积极接入MCP接口 [31][55] - Windsurf内置context engine 环境理解能力突出 [19] - Devin创新性加入笔记系统 支持长期开发过程管理 [21] - Manus依赖Claude Sonnet 3.7模型 面临API稳定性挑战 [33] 创业机会 - 通用Agent领域被大厂占据 创业者机会集中在垂直场景 [23] - 服务型Agent面临被整合风险 如Operator覆盖上百个场景 [22] - 个人化Agent可能成为新方向 类似自媒体网红模式 [24] - 评估机制(Evaluation)成为构建竞争力Agent的关键 [40][43] 技术路线 - RFT相比SFT性能提升25% 但成本高出数倍 [47] - Manus采用SFT技术调优外围执行模块而非核心模型 [48] - MCP协议发展缓慢 行业采纳面临商业化障碍 [72] - 代码层成为数字世界操作的关键中间层 [28] 垂直领域案例 - Vantel为保险经纪人节省80%重复工作时间 [58] - Sweet Spot服务中小企业申请政府资助 用户体验优异 [59] - Gamma革新PPT制作流程 模块化设计获长期用户认可 [61][62] - Replit和Fellou在人机交互设计上表现突出 [49][52] 行业趋势 - 产品开发节奏加快 执行优先于计划 [65] - 环境侧建设滞后 MCP生态渗透需以年计 [68] - 编程Agent可能发展为通用型平台 [31][56] - 用户需求理解仍是待解难题 [69]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
被拒稿11年后翻盘获时间检验奖,DSN作者谢赛宁:拒稿≠学术死刑
量子位· 2025-05-06 12:24
论文获奖与学术影响 - 谢赛宁十年前被NeurIPS拒收的论文《Deeply-Supervised Nets》(DSN)获得AISTATS 2025年度时间检验奖 [1][2] - DSN提出的中间层监督思想被后续研究REPA和U-REPA继承发展,展示出从单一模型优化到跨模型知识迁移的演进 [3][4] - DSN已成为计算机视觉领域的经典方法,是首个在生成式AI领域产生跨代影响的监督学习框架 [17] 论文核心贡献与技术细节 - DSN旨在解决深度学习中隐藏层特征学习问题,提升分类性能 [12] - DSN通过中间层监督机制解决CNN三大痛点:梯度消失(通过辅助分类器增强梯度信号)、特征鲁棒性(中间层直接参与分类任务,AlexNet第3层特征分类准确率提升18%)、训练效率(CIFAR-10数据集上ResNet-50训练收敛速度加快30%,Top-1准确率提升2.1%) [15] - 截至文章推送,DSN谷歌学术被引量超过3000次 [18] 学术评价与行业反响 - AISTATS官宣获奖后,业界大佬齐聚祝贺 [5] - 计算机会议时间检验奖要求论文在获奖10年前发表,需被同行评价为开创性工作或成为后续研究基础范式 [22] - 类似案例包括被ICLR拒稿后转投NeurIPS的Word2vec(2023年获时间检验奖)和被ICLR 2024拒稿的Mamba [30] 作者经历与学术启示 - DSN是谢赛宁攻读博士学位期间提交的第一篇论文,共同一作为谷歌研究科学家Chen-Yu Lee,通讯作者为UCSD教授屠卓文 [7][8][9] - 谢赛宁分享经验:坚持不懈需要强大支持系统和具体实践指导,导师屠卓文的指导与合作者Chen-Yu Lee的帮助至关重要 [25][26] - Chen-Yu Lee表示对DSN的持续影响力和相关性感到自豪 [28]
语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
机器之心· 2025-04-29 07:04
机器之心报道 机器之心编辑部 近日,ISCA Fellow 2025 入选结果揭晓! ISCA Fellow 是由国际语音通讯协会(International Speech Communication Association,ISCA)设立的荣誉称号,旨在表彰在语音通信科学与技术领域做出杰出贡献 的会员,包括研究人员、工程师和学者。 该奖项设立于 2007 年,每年新晋 Fellow 不超过当年 ISCA 会员总数的千分之三,确保稀有性和权威性。 自设立以来,ISCA Fellow 人数已经超过 100 人。ISCA Fellow 2025 入选者共有 8 位,包括以下三位华人学者: 华人入选者 俞凯 个人简介: 俞凯,思必驰联合创始人、首席科学家,上海交通大学特聘教授,清华大学本科、硕士,剑桥大学博士。入选国家级重大人才工程,国家自然科学基 金委优青,上海市「东方学者」特 聘 教 授 。IEEE 信号处理学会会议理事会 (Conference Board) 和会员理事会 (Membership Board) 理事,IEEE Speech and Language Processing Technical C ...
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
技术趋势 - 硅谷巨头形成新共识:推理能力应作为大模型的核心组成部分而非附加功能,OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光:结合GPT-4.5基础模型与推理模型o3,采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈:Grok 3(10万张GPU训练)、GPT-4.5(10亿美元投入)、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式:无监督学习(GPT-3.5/4/4.5主导)与推理能力(o1/o3-mini推动),OpenAI计划分层服务用户[6] - 模型封装引发争议:斯坦福学者批评系统黑箱化导致底层机制不可解释[7],中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆:OpenAI版本支持多层级订阅(20/200美元/月),分析师评价其接近AGI水平,效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键:强化学习驱动的端到端训练优于人工编排规则,高质量数据集决定模型上限[14] - 应用局限显现:热门话题易受低质信息污染,冷门领域价值更高,无法获取未公开信息[13] - Manus提出Agent开发哲学:主张"less structure, more intelligence",重构AI浏览器、搜索等产品形态[13][15] - 投资人观点:推理/编程/工具使用能力突破临界点,催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增:阿里宣布三年3800亿元(530亿美元)投入,字节2025年资本开支达200亿美元,腾讯GPU采购大幅增长[17] - DeepSeek成关键变量:6710亿参数模型推动部署需求,完整版R1需80台H800(月成本500-600万)[17] - 算力需求矛盾显现:黄仁勋称下一代模型算力需求增长100倍[18],微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡:2月先涨17%后跌20%,中国收入占比降至15%(禁令前30%)[19][20] 投融资动态 - 并购市场活跃:3笔超1亿美元交易包括Voyage AI(2.2亿被MongoDB收购)、Humane(1.16亿被惠普收购)、Kinara(3.07亿被恩智浦收购)[21] - 基础设施领域火热:CoreWeave拟IPO募40亿(估值350亿),Together AI获3.05亿融资(估值33亿),Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化:Safe Superintelligence(OpenAI系)寻求300亿估值融资,Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司:23家获超5000万融资企业中,仅2家成立于2023年后(Genspark、Eudia),医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新:OpenAI以100美元时薪雇佣300名专家生成高质量数据(如医学/物理问题,单问题耗时2小时)[32][33] - 数据质量决定上限:行业从AI生成数据(如DeepSeek专家模型)转向人工专家生产,Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升:GPT-4.5后训练阶段依赖高价专业数据,OpenAI投入超600万美元/月用于专家数据生产[33]