在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

吴翼个人背景与职业经历 - 吴翼拥有姚班、伯克利、OpenAI、清华等亮眼背景，是ACM世界奖牌得主和IOI教练，曾亲历Facebook 2012崛起、字节跳动2016-2018高速成长期以及OpenAI爆火前关键阶段 [2] - 创立的边塞科技在2024年被蚂蚁收购，团队4年规模化强化学习成果积累至开源项目AReaL，这是一个完全异步的强化学习训练框架，专为大型推理模型设计，在Github已收获2.4k stars [2] - AReaL完全围绕Agent打造，定位独特，自称没有竞品 [2] OpenAI工作经历与决策文化 - 加入OpenAI源于Google Headcount限制，OpenAI作为非盈利机构无此限制，面试后第二周即获录用 [4] - OpenAI内部以evidence驱动决策，强调bottoms-up、快速迭代、无master plan的文化，研究员被当作mini-CEO [12] - GPT系列工作较bottom up，如GPT早期由Alec Recford一人主导，ChatGPT原型几人开发后爆火，不在OpenAI原计划内 [12] - 团队目标明确后不过度规划，激进寻找evidence并调整迭代，资源富裕与否不影响组织逻辑，AI时代放大穷团队能力 [13] - Codex团队7周从0到1推出产品，体现创业精神，但创新是长跑，需慢跑寻找evidence后冲刺，盲目冲刺可能错过evidence [14][15] 强化学习与竞赛观点 - ICPC、IOI等竞赛被类比为sports programming，类似电子竞技，涉及技巧和心理因素，非纯粹算法思维和编程速度考验 [6] - 大模型在IMO、IOI等竞赛挂零因模型未ready即推出，通用推理模型如Google/OpenAI已实现IMO金牌，专用模型如字节也取得不错成绩，大模型攻克竞赛是迟早的事 [6] - Gemini和OpenAI在IMO夺金明确归功于RL训练，竞赛未来参考围棋/Dota发展，因AI出现可能产生新规定和训练方式变革 [7] 创业经历与行业观察 - 中国创业公司几乎无机会走OpenAI路线，创业需看客观机会和势，非主观导向，当前中国非技术创业好时机，纯AI技术创业需慎重 [19][25] - 边塞科技创业期间困扰多属人性层面，非技术或商业问题，团队私下交流多，强调共同做大蛋糕而非分蛋糕 [27] - 创业非技术命题，时间窗口关键，决策抓住时间点即成功，错过非主观错误，建议多尝试以提高概率 [28] - 硅谷资源更多，对技术创业者更友好，国内创业是身心灵修炼场，中国互联网时代创造过奇迹，AI时代仍有机会 [17] AReaL框架与技术路线 - AReaL是面向大模型智能体训练的强化学习框架，目标让人更快训练出更好Agent模型，一切围绕Agent设计，自称无竞品 [8][36] - 团队从2020年开始做开源规模化强化学习工作，从MAPPO、SRL、ReaLHF到AReaL一脉相承，均围绕RL scaling [34][35] - 好的RL框架需好且快（产出SOTA模型且快）和好用（用户简单修改代码完成定制），AReaL-lite发布后实现全面重构 [37] - 开源RL训练框架基本是中国人天下，但头部公司如OpenAI、Anthropic有更好infra和团队，资源更优 [38] - AReaL围绕Agent打造，但也可训练代码模型和泛化模型，Agent应用不一定需RL训练，但资源成本下降后RL可训练更好Agent模型 [39] Agent技术未来展望 - Multi-Agent是必要方向，因Agent workflow复杂需多智能体配合，智能体普及后交互和算法逻辑更复杂，带来更多算法和infra机会 [41] - Agent将成为大模型交互形式主流，从被动变主动，自主探索和工作时间空间扩大，算法提升空间大，新范式一定会出现 [42]