Post-training - 财报，业绩电话会，研报，新闻

Post-training

搜索文档

强化学习环境与科学强化学习：数据工厂与多智能体架构 --- RL Environments and RL for Science_ Data Foundries and Multi-Agent Architectures

2026-01-07 11:05

电话会议纪要研读分析涉及的行业与公司 * **行业**：人工智能，特别是大语言模型与强化学习领域，以及相关的数据服务、环境构建、科学发现应用 * **主要AI实验室/公司**：OpenAI， Anthropic， Google DeepMind， xAI， Meta， DeepSeek， Kimi， Moonshot， Z.ai， Qwen * **数据/环境服务商**：Scale AI， Surge， Mercor， Handshake， Aboda.ai， Windsurf， Cursor， Habitat， DeepTune， Fleet， Vmax， Turing， Mechanize， Preference Model， Bespoke Labs， Prime Intellect， HUD， LLM Data Company * **RL即服务与科学应用公司**：RunRL， Osmosis， Applied Compute， ThinkingMachines Tinker， Periodic Labs 核心观点与论据 1. 强化学习规模化是当前AI能力提升的关键路径 * 过去18个月OpenAI模型性能的提升完全依赖于训练后优化与强化学习算力扩展[4] * 各实验室正全力聚焦于强化学习算力的规模化部署，预训练虽持续优化但非当前焦点[2] * OpenAI使用相同的基础模型GPT-4o，通过后训练和强化学习算力扩展推出了o1， o3及GPT-5系列旗舰模型[4] 2. 强化学习规模化面临数据与任务构建的挑战 * 强化学习需要持续的任务流供模型学习，但适用于强化学习的等效语料库尚未完全建立[7] * 大多数强化学习数据和任务必须从头构建，过程耗费大量人力[7] * 任务创建从易于评分的数学问题，已拓展至医疗健康和金融建模等新兴领域[8] 3. 催生了“RL环境”构建与数据工厂的新兴产业 * 已有超过35家公司专注于提供强化学习环境服务[23][24] * **UI Gyms**：公司雇佣海外开发者复制网站界面，每个网站环境成本约2万美元，OpenAI已为ChatGPT智能体训练购买了数百个网站[25][26][27] * **复杂软件平台环境**：包括Slack， Salesforce， AWS终端， Microsoft OneDrive， Gmail等，目标是让智能体自主操作[29] * **编程环境需求最高**：对编程环境的需求极高，以至于一些已倒闭的初创公司因其私有GitHub仓库的价值被收购[38] * 通过自动化流程从GitHub等平台筛选和构建任务，例如SWE-rebench从45万个初始任务中最终筛选出21，336个有效任务[40][43][44] * DeepSeek使用24，667个从GitHub提取的编码任务训练V3.2模型[47] 4. 评估标准从抽象智力转向现实世界效用 * OpenAI创建了GDPval评估，涵盖44个职业的1000多项任务，这些任务选自占经济总量5%以上的行业[10][11] * 任务由平均拥有14年经验的专家设计，人类完成每项任务平均需要数小时[11] * 目前最好的模型GPT-5.2在GDPval上得分约为71%，意味着其工作有71%的时间与人类专家输出持平或更受青睐[12] 5. 模型自主性与AI自动化研究成为长期目标 * 根本趋势是模型能够更长时间地自主运行[16] * OpenAI的目标是在2028年3月前拥有自主的人工智能研究员[16] * Anthropic预计到2027年，像Claude这样的系统将能够自主发现原本需要数年才能取得的突破[16] 6. 数据供应链因竞争与安全考量发生变化 * 历史上Scale AI是各大实验室最大的数据承包商之一，2024年收入超过14亿美元[19] * 被Meta收购后，多家AI实验室停止了与Scale的合作，以避免Meta获取其核心数据[21] * 数据承包商公司如Surge， Mercor， Handshake， Aboda.ai被用于跨专业领域招聘专家，Surge的年经常性收入据信已接近10亿美元[55] * 承包商负责设计任务，撰写解决方案，指定奖励信号，并对模型输出进行评分[53] 7. 主要AI实验室的采购与战略各有侧重 * **Anthropic**：激进买家，与超过十家RL环境公司合作，希望建立广泛的供应商生态系统以商品化产品，降低成本[74] * **OpenAI**：供应商来源更有限，但在数据净支出上超过其他实验室，正在组建内部人类数据团队以减少对第三方依赖[78] * **Google DeepMind**：采购流程分散，由不同团队的研究人员推动，重点关注编码和计算机使用，特别是ML相关环境[84] * **中国实验室**：处于强化学习规模化早期阶段，例如Qwen目前仅将约5%的预训练算力用于后训练，中国VC正积极扶持本土数据工厂竞争者[58][59] 8. 企业级“强化学习即服务”市场正在形成 * 一些初创公司为大型企业提供定制化的强化学习服务，使用Qwen等易于后训练的模型[104][105] * OpenAI推出了“强化微调”服务，但被认为不稳定且昂贵，需求流向成本低5倍的年轻初创公司[107][108][109] * Anthropic也正在进入该领域，并大规模采用亚马逊的Trainium芯片以降低HBM成本，优化服务利润[112][114][115] 9. 强化学习在科学发现领域具有巨大潜力 * 目标是创建基于物理实验奖励的闭环强化学习系统，模型利用工具测试假设并验证想法[120][122] * Periodic Labs正在建设大型物理实验室，为强化学习和中期训练生成实验验证的数据[137] * Meta发现中期训练的益处持续存在，为近期模型使用了1万亿标记进行中期训练，预计OpenAI使用量是其5到10倍[129][130] * 中期训练阶段会添加先前模型进行强化学习时收集的环境轨迹数据[132][133] 10. 自动化对就业的影响可能是增强而非取代 * OpenAI的GDPval研究发现，随着AI能力提升，人类专家完成任务更快，成本更低，人类得到了增强，而非被自动化取代[88] * 短期内，专家工作可能实现任务增强，而非完全自动化，软件工程等领域可能如此[89][90] * 对于短期，重复性任务，如呼叫中心工作，自动化取代的可能性更高[95] 其他重要但可能被忽略的内容 * **平台政治与访问限制**：谷歌降低了对其产品如Gmail的数据抓取限制，亚马逊等公司可能限制外部智能体访问其生态系统，以保护自身业务和广告收入[86][96][98][100] * **基础设施规模**：Kimi实验室开发的基础设施可支持同时实例化超过10，000个训练实例[48] * **中期训练的作用**：中期训练是持续的预训练，用于更新模型知识截止日期，提升特定领域知识，或为高计算量强化学习做准备，各项目数据被汇总并重新注入中期训练以提升整体性能[81][128] * **生物学应用的差异化路径**：OpenAI和Anthropic均已建立制药合作伙伴关系，但各自专注于解决药物发现流程中“识别候选药物”和“加速开发”的不同瓶颈环节[140]

Reinforcement Learning

Pre-training

Post-training

Artificial Intelligence

GPT-5

Claude for Life Sciences

Reinforcement Learning

Pre-training

Post-training

Artificial Intelligence

GPT-5

Claude for Life Sciences

喝点VC｜红杉美国对谈OpenAI前研究主管：预训练已经进入边际效益递减阶段，其真正杠杆在于架构的改进

Z Potentials· 2025-07-04 11:56

AI技术发展现状与趋势 - 预训练、后训练和推理构成AI发展的"三位一体"框架预训练已进入边际效益递减阶段真正杠杆在于架构改进后训练聚焦模型个性与智能表现推理能力训练则引导AI自主摸索链式思维[4][8] - 2025年成为"推理之年" 各大实验室重点转向推理优化但后续进展将越来越困难[5][7] - 预训练收益递减源于基本规律模型智能水平与计算资源呈对数线性增长提升智能需指数级增加计算资源[7][8] Agent商业模式与竞争格局 - Agent价格将趋近计算使用成本普适性和性价比将颠覆传统人力密集型领域[6][18] - 简单重复性任务由AI完成复杂需人类理解的服务保持价值稀缺性[19][26] - 创业公司机会在于构建网络效应和规模经济而非依赖高价Agent[21][26] 机器人技术突破与商业化 - LLMs为机器人提供低成本语言接口结合强大视觉编码器赋予处理通用任务的先发优势[24][25] - 机器人领域正处于研究最后阶段距离商业化仅数月到数年时间[22][25] - 技术突破使机器人能快速解决多样化任务如叠衣服、搬运纸箱等[25] 编程领域变革与未来趋势 - 编程发展呈现非线性加速未来将形成混合模式:人类主导设计+Agent自动编码[32][34] - Agentic工程师处理明确结果的任务如bug修复、代码重构人类负责需"品味"的设计工作[34][35] - 关键挑战在于如何让Agent理解代码库目前仍需人类进行高层次设计[33][35] 专有数据价值重估 - 专有数据价值被高估 "无限智能、无限耐心"的Agent可从公开数据重构替代信息[29][30] - 真正有价值的专有数据是具体客户的深度个性化信息可辅助专业决策而非训练技能[31] - 垂直领域专属模型表现普遍不如下一代通用模型因综合能力远超单纯记忆[29] 企业管理与文化构建 - 技术团队应消除研究员与工程师界限建立平等环境促进全栈理解[37][38] - 管理者核心是真诚关心团队成员建立忠诚度才能推动困难决策[50][51] - 高绩效人才管理需平衡个人创作欲望与团队协作目标[52] AI教育应用与人才培养 - AI最佳应用是帮助用户成为领域专家同时减轻重复性工作负担[42][43] - 教育应聚焦学习过程和自主能动性培养而非特定技能[43][44] - 即时响应式学习能抓住最佳学习时机大幅提升教育效果[46] 安全防御新范式 - AI使攻击能力提升防御措施需更加自主化和智能化[53] - 企业需重构业务流程以适应自主安全系统这为创业公司创造机会[53]

Artificial General Intelligence (AGI)

Artificial Intelligence

Artificial General Intelligence (AGI)

Artificial Intelligence