吴翼个人背景与职业经历 - 吴翼拥有姚班、伯克利、OpenAI、清华等亮眼背景,是ACM世界奖牌得主和IOI教练,曾亲历Facebook 2012崛起、字节跳动2016-2018高速成长期以及OpenAI爆火前关键阶段 [2] - 创立的边塞科技在2024年被蚂蚁收购,团队4年规模化强化学习成果积累至开源项目AReaL,这是一个完全异步的强化学习训练框架,专为大型推理模型设计,在Github已收获2.4k stars [2] - AReaL完全围绕Agent打造,定位独特,自称没有竞品 [2] OpenAI工作经历与决策文化 - 加入OpenAI源于Google Headcount限制,OpenAI作为非盈利机构无此限制,面试后第二周即获录用 [4] - OpenAI内部以evidence驱动决策,强调bottoms-up、快速迭代、无master plan的文化,研究员被当作mini-CEO [12] - GPT系列工作较bottom up,如GPT早期由Alec Recford一人主导,ChatGPT原型几人开发后爆火,不在OpenAI原计划内 [12] - 团队目标明确后不过度规划,激进寻找evidence并调整迭代,资源富裕与否不影响组织逻辑,AI时代放大穷团队能力 [13] - Codex团队7周从0到1推出产品,体现创业精神,但创新是长跑,需慢跑寻找evidence后冲刺,盲目冲刺可能错过evidence [14][15] 强化学习与竞赛观点 - ICPC、IOI等竞赛被类比为sports programming,类似电子竞技,涉及技巧和心理因素,非纯粹算法思维和编程速度考验 [6] - 大模型在IMO、IOI等竞赛挂零因模型未ready即推出,通用推理模型如Google/OpenAI已实现IMO金牌,专用模型如字节也取得不错成绩,大模型攻克竞赛是迟早的事 [6] - Gemini和OpenAI在IMO夺金明确归功于RL训练,竞赛未来参考围棋/Dota发展,因AI出现可能产生新规定和训练方式变革 [7] 创业经历与行业观察 - 中国创业公司几乎无机会走OpenAI路线,创业需看客观机会和势,非主观导向,当前中国非技术创业好时机,纯AI技术创业需慎重 [19][25] - 边塞科技创业期间困扰多属人性层面,非技术或商业问题,团队私下交流多,强调共同做大蛋糕而非分蛋糕 [27] - 创业非技术命题,时间窗口关键,决策抓住时间点即成功,错过非主观错误,建议多尝试以提高概率 [28] - 硅谷资源更多,对技术创业者更友好,国内创业是身心灵修炼场,中国互联网时代创造过奇迹,AI时代仍有机会 [17] AReaL框架与技术路线 - AReaL是面向大模型智能体训练的强化学习框架,目标让人更快训练出更好Agent模型,一切围绕Agent设计,自称无竞品 [8][36] - 团队从2020年开始做开源规模化强化学习工作,从MAPPO、SRL、ReaLHF到AReaL一脉相承,均围绕RL scaling [34][35] - 好的RL框架需好且快(产出SOTA模型且快)和好用(用户简单修改代码完成定制),AReaL-lite发布后实现全面重构 [37] - 开源RL训练框架基本是中国人天下,但头部公司如OpenAI、Anthropic有更好infra和团队,资源更优 [38] - AReaL围绕Agent打造,但也可训练代码模型和泛化模型,Agent应用不一定需RL训练,但资源成本下降后RL可训练更好Agent模型 [39] Agent技术未来展望 - Multi-Agent是必要方向,因Agent workflow复杂需多智能体配合,智能体普及后交互和算法逻辑更复杂,带来更多算法和infra机会 [41] - Agent将成为大模型交互形式主流,从被动变主动,自主探索和工作时间空间扩大,算法提升空间大,新范式一定会出现 [42]
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
AI前线·2025-08-23 13:32