无监督学习

搜索文档
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
2025 年 2 月的全球 AI 重要趋势。 文 丨 贺乾明 2025 年 2 月的 AI 月报,你会看到: 硅谷巨头的新共识:推理能力是大模型的一部分 OpenAI 和 Manus 的 Agent 开发经验 DeepSeek 推动中国大公司加大算力投入,阿里、字节两家加起来,今年就超过 2000 亿 3 家售价过亿的 AI 公司和 23 家获得超过 5000 万美元融资的 AI 公司 OpenAI 时薪 100 美元招专家生产数据提高模型能力 这一期月报中,我们开始邀请研究者、创业者和投资人提供一手视角的对每月 AI 趋势和标志性事件的评述和 洞察。 晚点 AI 月报,每月选取最值得你知道的 AI 信号。 以下是我们第 4 期 AI 月报,欢迎大家在留言区补充我们没有提到的重要趋势。 技术丨GPT-5 雏形出现,行业新共识诞生 DeepSeek 带来的冲击波继续扩散,全球大模型公司陷入混战:不论是马斯克用超过 10 万张 GPU 训练 的 Grok 3,还是 OpenAI 可能投入 10 亿美元训练的 GPT-4.5,或是 Anthropic 融合推理(reasoning) 能力的最新模型 Claude 3 ...