Workflow
AReaL
icon
搜索文档
外滩大会观察:中国“小虎队”勾勒科技新图景
环球网· 2025-09-11 18:23
【环球网科技综合报道】当 DeepSeek席卷全球AI战场,当宇树机器人在春晚舞台上演 "机械之舞",这些在今年让世界侧目的"小龙"也让人们开始关注起他 们背后跃动着的年轻身影。他们不是传统意义上的商界大佬,而是平均年龄不足30岁的 "科创小虎队" —— 这群用代码撬动世界、以实验室为战场的年轻 人,正以燎原之势重塑中国科技的版图。 正在上海举行的2025Inclusion外滩大会,便云集了这样的中国年轻一代科技研究者、开发者、创业者。大会通过2025外滩大会科技智能创新赛(简称"外滩 大会AI科创赛")、创新者舞台、前沿科技展区、"创投 Meetup"等多元形式,为他们搭建了丰富的舞台。 据主办方介绍,本届大会有百余名演讲嘉宾是90后甚至00后,仅AI科创赛就吸引近 2 万名科技爱好者与AI创业者参与,其中 00 后占比超过一半,最年轻的 参赛者为初中生。在外滩大会期间,记者近距离走访了这些活跃在中国科技创新一线的"小虎队",感受他们的敢想敢为、拒绝平庸,见证新生科技力量的崛 起。 打破壁垒,披荆斩棘踏科技无人区 加州大学圣地亚哥分校终身教授&Hillbot创始人苏昊和清华大学交叉信息研究院助理教授吴翼,则 ...
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
AI前线· 2025-08-23 13:32
吴翼个人背景与职业经历 - 吴翼拥有姚班、伯克利、OpenAI、清华等亮眼背景,是ACM世界奖牌得主和IOI教练,曾亲历Facebook 2012崛起、字节跳动2016-2018高速成长期以及OpenAI爆火前关键阶段 [2] - 创立的边塞科技在2024年被蚂蚁收购,团队4年规模化强化学习成果积累至开源项目AReaL,这是一个完全异步的强化学习训练框架,专为大型推理模型设计,在Github已收获2.4k stars [2] - AReaL完全围绕Agent打造,定位独特,自称没有竞品 [2] OpenAI工作经历与决策文化 - 加入OpenAI源于Google Headcount限制,OpenAI作为非盈利机构无此限制,面试后第二周即获录用 [4] - OpenAI内部以evidence驱动决策,强调bottoms-up、快速迭代、无master plan的文化,研究员被当作mini-CEO [12] - GPT系列工作较bottom up,如GPT早期由Alec Recford一人主导,ChatGPT原型几人开发后爆火,不在OpenAI原计划内 [12] - 团队目标明确后不过度规划,激进寻找evidence并调整迭代,资源富裕与否不影响组织逻辑,AI时代放大穷团队能力 [13] - Codex团队7周从0到1推出产品,体现创业精神,但创新是长跑,需慢跑寻找evidence后冲刺,盲目冲刺可能错过evidence [14][15] 强化学习与竞赛观点 - ICPC、IOI等竞赛被类比为sports programming,类似电子竞技,涉及技巧和心理因素,非纯粹算法思维和编程速度考验 [6] - 大模型在IMO、IOI等竞赛挂零因模型未ready即推出,通用推理模型如Google/OpenAI已实现IMO金牌,专用模型如字节也取得不错成绩,大模型攻克竞赛是迟早的事 [6] - Gemini和OpenAI在IMO夺金明确归功于RL训练,竞赛未来参考围棋/Dota发展,因AI出现可能产生新规定和训练方式变革 [7] 创业经历与行业观察 - 中国创业公司几乎无机会走OpenAI路线,创业需看客观机会和势,非主观导向,当前中国非技术创业好时机,纯AI技术创业需慎重 [19][25] - 边塞科技创业期间困扰多属人性层面,非技术或商业问题,团队私下交流多,强调共同做大蛋糕而非分蛋糕 [27] - 创业非技术命题,时间窗口关键,决策抓住时间点即成功,错过非主观错误,建议多尝试以提高概率 [28] - 硅谷资源更多,对技术创业者更友好,国内创业是身心灵修炼场,中国互联网时代创造过奇迹,AI时代仍有机会 [17] AReaL框架与技术路线 - AReaL是面向大模型智能体训练的强化学习框架,目标让人更快训练出更好Agent模型,一切围绕Agent设计,自称无竞品 [8][36] - 团队从2020年开始做开源规模化强化学习工作,从MAPPO、SRL、ReaLHF到AReaL一脉相承,均围绕RL scaling [34][35] - 好的RL框架需好且快(产出SOTA模型且快)和好用(用户简单修改代码完成定制),AReaL-lite发布后实现全面重构 [37] - 开源RL训练框架基本是中国人天下,但头部公司如OpenAI、Anthropic有更好infra和团队,资源更优 [38] - AReaL围绕Agent打造,但也可训练代码模型和泛化模型,Agent应用不一定需RL训练,但资源成本下降后RL可训练更好Agent模型 [39] Agent技术未来展望 - Multi-Agent是必要方向,因Agent workflow复杂需多智能体配合,智能体普及后交互和算法逻辑更复杂,带来更多算法和infra机会 [41] - Agent将成为大模型交互形式主流,从被动变主动,自主探索和工作时间空间扩大,算法提升空间大,新范式一定会出现 [42]
清华叉院教授手把手教你用强化学习训练智能体
机器之心· 2025-08-19 10:43
大模型智能体技术发展 - 智能体强化学习(Agentic RL)是训练通用智能体的核心技术之一 [1] - ASearcher项目基于AReaL全异步Agentic RL框架打造端到端搜索智能体(Search Agent) [1] - AReaL框架支持智能体进行128次复杂环境交互并实现长程工具调用(Long-Horizon Tool Use) [2] ASearcher项目技术特点 - 采用极简代码设计实现单文件内完成复杂长程工具调用 [2] - 全异步RL技术解锁智能体的长程工具调用能力 [11] - 提供轻量级开发工具AReaL-Lite实现极速Agentic RL训练 [11] 技术实践与分享 - 以多轮搜索智能体(multi-turn search agent)为例展示极简代码实现 [2] - 直播将手把手教学在jupyter notebook中实现多轮search agent训练 [11] - 推荐使用4卡GPU服务器进行训练实践 [11] 团队与资源 - 项目由清华大学交叉信息院吴翼教授团队主导 [11] - 核心成员包括清华博士生及蚂蚁强化学习实验室研究员 [11] - 提供预习用的jupyter notebook资源(GitHub链接) [11] 行业活动信息 - 直播主题为"清华叉院教授手把手教你用强化学习训练智能体" [8] - 直播时间定于北京时间8月21日19:30-20:30 [10] - 活动包含QA环节并提供技术交流群 [10]
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 09:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]