RL Infra - 财报，业绩电话会，研报，新闻

RL Infra

搜索文档

RL Infra 行业全景：环境和 RLaaS 如何加速 RL 的 GPT-3 时刻

海外独角兽· 2025-09-24 13:02

文章核心观点 - RL Scaling 正在推动 AI 从依赖静态人类数据的时代，迈向由 Agent 与环境动态交互产生经验的“体验时代” [2] - 这一范式转变催生了对新基础设施的需求，RL Infra 的核心价值在于弥合模拟训练与真实世界之间的差距，使 AI Agent 在部署前能经历高强度测试 [2] - 行业呈现出两种主流商业路径：横向平台化的 RL 环境公司（目标是成为 AI 时代的“Unreal Engine”）和纵向一体化的 RLaaS 公司（目标是成为垂直行业的“AI-native Palantir”） [3] - 随着趋势演进，行业将迎来 RL 的“GPT-3 时刻”，即 RL 数据规模被拉升到预训练量级 [3][6] RL Infra 的必要性 - 基础模型面临瓶颈，仅依赖静态、人类互联网生成的数据集带来的性能提升呈现边际递减趋势 [6] - AI 社区开始转向 RL 环境交互，通过在模拟环境中试错，模型可以学到长链条推理、复杂决策等 pretrain + SFT 难以获得的能力 [6] - 实现 RL 的规模化需要将交互环境的规模和多样性提升到远超当前的数量级，例如达到“上万年等效任务时长的交互经验数据”，与 GPT-3 的 3000 亿 token 预训练规模相当 [8] - 当前 RL 训练环境非常初级且受限，远不能模拟现实工作的复杂性，存在“生产环境悖论”，即在真实环境中学习高效但风险极高 [9] - 奖励函数设计不精确会导致智能体出现“奖励破解”（reward hacking）问题，在训练环境中表现良好但迁移到实际场景时失败 [10] RL Infra 行业图谱框架 - 当前创业公司主要分为三大类：RL 环境类公司、RL 即服务（RLaaS）公司、以及数据/评估类公司 [12] - **RL 环境类公司**：作为模拟环境的搭建者，提供标准化、可扩展的模拟训练环境和任务平台，目标是将真实工作流“可模拟化” [13] - **RLaaS 公司**：采用类似 Palantir 的深度定制化模式，针对大型企业的具体业务需求提供端到端的 RL 解决方案，单个合同金额可观，可达千万美金级别 [14] - **数据/评估类公司**：专注于为 RL 训练提供高质量的交互数据、评测基准和评估工具，充当“数据军火商”的角色 [15] - 从投资角度看，RL 环境与数据构成一个对冲组合，而 RLaaS 则有望在特定垂直行业孵化出垄断型领军者 [3][15] RL 环境：构建软件的 Unreal Engine - RL 环境的核心是构建一个可以安全、大规模、可复现地生成“经验数据”的工厂，其三大核心要素包括状态管理系统、任务场景和奖励/评估系统 [16] - 环境平台主要有几种形态：针对特定软件工作流的应用级沙盒（如 CRM/ERP 模拟器）、通用的浏览器/桌面环境、以及利用历史数据训练环境模型的“世界模型”思路 [17][18] - **案例：Mechanize**：提出“复制训练”新范式，让 AI Agent 完整复现现有软件功能作为训练任务，并将成功与否通过自动化方式验证，解决了为复杂任务设计奖励函数的难题 [20][21] - **案例：Veris AI**：为企业客户构建其生产环境的“数字孪生”，精确复刻客户独特的内部工具和数据结构，以解决环境安全和训练有效性两大痛点，已完成850万美元种子轮融资 [23][24] - **案例：Halluminate**：提供高度并行的“真实感沙盒”环境覆盖常用企业软件，并配套专有数据集和评估服务，进行“数据驱动的失败模式分析”以加速模型迭代 [27] RLaaS：打造 AI-native Palantir - RLaaS 的服务模式通常涵盖三个关键环节：奖励建模（将抽象业务 KPI 转化为可计算的奖励函数）、自动化评分（搭建评分管道作为 AI 的自动化裁判）、以及模型定制与强化微调（RFT） [30][32][33] - **案例：Fireworks AI**：作为 AI Inference 基础设施公司，其平台允许用户通过一段 Python 代码定义评价函数即可进行 RFT，据称效果可追平顶尖封闭模型，且推理速度提升10-40倍 [34] - **案例：Applied Compute**：由 OpenAI 前研究人员创立，采用高举高打的项目制模式，与少数大企业深度绑定，每单合同可能高达数千万美金，pre-launch 阶段即以1亿美元估值获2000万美元种子轮融资 [36] - **案例：RunRL**：代表民主化方向，提供一键运行 RL 的服务，按节点小时收费（$80/node-hour），旨在降低 RL 使用门槛 [36] RL 趋势下的未来展望 - 在线学习（RL 环境）与离线学习（RL 数据）是两种核心路径，前者能生成完美的 on-policy 数据但成本高，后者成本低但存在 off-policy 学习导致的泛化问题 [37][40] - 一个稳健的投资策略是同时布局环境和数据两条路径，以对冲具体实现路径的不确定性 [43] - RLaaS 的 Palantir 模式执行路径清晰：嵌入专家解决核心问题 -> 构建专有数据飞轮 -> 形成极高替换成本的护城河，极有可能在特定垂直行业催生“赢家通吃”的局面 [43][44][45] - 未来格局可能不是由一个巨大平台主导，而是由一系列在各自垂直领域内占据垄断地位的“小 Palantir”构成 [45]

Artificial Intelligence

Artificial Intelligence

RL Infra