Workflow
去中心化强化学习
icon
搜索文档
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
选自 Symbolic Capital 作者:Sam Lehman 机器之心编译 AI / 机器学习 scaling 简史 (极简版) 强化学习(RL)是当今 AI 领域最热门的词汇之一。近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意 义。 原文地址:https://www.symbolic.capital/writing/the-worlds-rl-gym 「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。」这句话形容当今的现代 AI 领域最为贴切。似乎每天都有新的突破性模型、训练方法或公司 涌现,迫使我们重新思考 AI 世界的可能性。今年早些时候是 DeepSeek,接下来是星际之门项目,现在还有 Qwen、Manus、MCP 等。谁知道接下来会发生什么? 目前,在打造更好的模型方面,通过预训练以及最近的测试时间计算进行 scaling 是引领性方法。但最近,随着 DeepSeek-R1 和 R1-Zero 的发布,人们开始更加亲 睐一种不同的模型 scaling 方法 —— 强化学习(RL)。本文的目标是探索基于 RL 的模型改进的含义,并会特别 ...