Workflow
强化学习
icon
搜索文档
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 09:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]
【广发金工】强化学习与价格择时
强化学习在量化投资中的应用 - 强化学习通过试错机制最大化累计奖励,适合构建择时策略,而常规深度学习主要用于固定窗口期的股价预测或因子挖掘[1][6][7] - Double Deep Q-Network(DDQN)模型结合深度学习和强化学习,用于A股指数和个股的择时应用[2][8] - 择时策略采用10分钟频量价数据,模型每10分钟输出买入/卖出信号,遵循t+1交易规则[2][75] 强化学习基本概念 - 强化学习包含状态、动作、状态转移、策略、奖励、轨迹和回报等基本要素[9][12][13][22][27][28] - 状态价值衡量策略在特定状态下的预期长期回报,动作价值衡量特定状态下采取动作的回报期望值[41][43] - 贝尔曼方程和贝尔曼最优方程从理论上定义了最优状态价值和最优策略的关系[46][48] 时序差分法与Q-Learning - 时序差分法结合动态规划和蒙特卡罗方法,实现单步更新和在线学习[49][50] - SARSA是on-policy方法,基于当前策略实际动作更新Q值,而Q-Learning是off-policy方法,基于最大Q值更新[52][54] - DQN利用神经网络近似动作价值函数,解决大规模问题,DDQN通过分离动作选择和评估缓解高估问题[59][62] 基于强化学习的价格择时策略 - 策略定义包括限价订单、订单簿、OHLCV、技术指标、持仓和净值等概念[63][64] - 状态由单步特征、上下文特征和持仓状态组成,动作包括买入、卖出等决策,奖励为净值差[65][66] - 实证分析显示,在2023-2025年样本外测试中,策略在沪深300ETF、中证500ETF、中证1000ETF和个股上分别跑赢基准10.9%、35.5%、64.9%和37.8%[3][75][77][80][83] 总结与展望 - 强化学习在量化投资领域展现出构建择时策略的潜力,但仍面临稳定性不足等挑战[85][86] - 未来研究将探索更多强化学习算法以构建性能更优越的策略[86]
MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开
36氪· 2025-06-17 16:15
智东西6月17日报道,今日凌晨,"大模型六小虎"之一MiniMax发布全球首个开源大规模混合架构的推理模型MiniMax-M1,并官宣了为期五天的连更计 划。 M1参数规模为4560亿,每个token激活459亿参数,原生支持100万上下文输入以及业内最长的8万token推理输出,输入长度与闭源模型谷歌Gemini 2.5 Pro 一致,是DeepSeek-R1的8倍。此外,研究人员训练了两个版本的MiniMax-M1模型,其思考预算分别为40k和80k。 MiniMax在标准基准测试集上的对比显示,在复杂的软件工程、工具使用和长上下文任务方面,MiniMax-M1优于DeepSeek-R1和Qwen3-235B等开源模 型。 其博客提到,在M1的整个强化学习阶段,研究人员使用512块H800训练了三周,租赁成本为53.74万美金(折合人民币约385.9万元),相比其一开始的成 本预期少了一个数量级。 M1在MiniMax APP和Web上支持不限量免费使用。API价格方面,第一档0-32k的输入长度时,输入0.8元/百万token, 输出8元/百万token;第二档32k- 128k的输入长度时,输入1.2 ...
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 11:22
大模型技术进展 - MiniMax发布全球首款开源权重的大规模混合注意力推理模型MiniMax-M1,支持100万token输入和8万token输出,是DeepSeek R1上下文规模的8倍 [18][19] - MiniMax-M1采用混合专家(MoE)架构与闪电注意力机制,总参数量456B,每个token激活45.9B参数,在生成长度10万token时FLOPs仅为DeepSeek R1的25% [18][20] - 月之暗面发布开源编程大模型Kimi-Dev-72B,在SWE-bench Verified基准上取得60.4%成绩,创开源模型新SOTA [10][37] 模型性能对比 - MiniMax-M1在17个主流评测集中表现突出,在软件工程、长上下文处理和工具使用等生产力场景具有显著优势 [25] - MiniMax-M1-80k在大多数基准测试中优于MiniMax-M1-40k,验证扩展计算资源的有效性 [27] - 实测显示MiniMax-M1-80K生成代码一次通过,而Kimi-Dev-72B需要Claude-4-Sonnet修复3个bug才能运行 [13] 技术创新 - MiniMax开发CISPO新颖算法,强化学习收敛速度比DAPO等算法快一倍 [20] - MiniMax混合注意力设计提升强化学习效率,仅用512块H800三周时间,租赁成本53.47万美元 [23] - Kimi-Dev-72B采用BugFixer与TestWriter协作机制,通过中期训练和强化学习优化代码修复能力 [40][43] 应用场景 - MiniMax-M1支持UI组件聚焦、交互式应用程序和游戏开发,可快速生成HTML页面和Web应用 [5][6][8] - Kimi-Dev-72B能够自主在Docker中修补真实代码仓库,符合现实开发标准 [37] - MiniMax-M1已集成到MiniMax Chat中,提供不限量免费使用和业内最低价API [4][28] 行业影响 - MiniMax采取开放策略,新模型保持免费使用并以低价提供API,性价比高于DeepSeek-R1 [28][31] - 月之暗面计划扩展Kimi-Dev-72B功能,探索与IDE、版本控制系统和CI/CD流水线的深度集成 [48] - 大模型厂商同日发布新模型,显示行业竞争加剧,技术迭代速度加快 [1]
性能比肩DeepSeek-R1,MiniMax仅花380万训出推理大模型性价比新王|开源
量子位· 2025-06-17 09:03
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 国产推理大模型又有重磅选手。 MiniMax开源 MiniMax-M1 ,迅速引起热议。 这个模型有多猛?直接上数据: MiniMax团队透露,只用了3周时间、512块H800 GPU就完成强化学习训练阶段,算力租用成本仅 53.47万美元 (约383.9万元)。 不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任 务上甚至超越了OpenAI o3和Claude 4 Opus。 MiniMax-M1实战表现如何?官方给出了一句话生成迷宫小游戏的Demo。 创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引 力。 目前模型权重已可在HuggingFace下载,技术报告同步公开。 原生支持100万token的输入长度,是DeepSeek R1的约8倍。 同时支持8万输出token,超过Gemini 2.5 Pro的6.4万,成为 世界最长输出 。 生成10万token时,推理算力只需要DeepSe ...
AI将受困于人类数据
36氪· 2025-06-16 20:34
AI发展时代划分 - 当前处于从"人类数据时代"向"经验时代"转型的关键拐点 所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练 但高质量人类数据已被快速消耗殆尽 新增语料的边际价值正急剧下降 [2][5][7] - 人类数据时代特征:AI系统训练基于人类生成的文本和图像 通过预测人类下一个词进行学习 而非预测世界 该策略已接近极限 [5][6] - 经验时代特征:智能体需通过与环境实时交互生成原生数据 数据源随智能体能力提升而指数级扩张 学习方式类似婴儿探索玩具或运动员赛场决策 [6][7][10] 技术实现路径 - 强化学习框架已验证可行性:AlphaGo通过模拟移动后果产生经验学习创造性策略 AlphaProof在国际数学奥林匹克竞赛中通过操作后果预测实现突破 [8][10] - 未来技术方向:智能体需建立自生奖励信号和世界模型 发展高保真环境下的长期记忆体系 通过高并行交互提升样本效率 [3][7][11] - 持续学习算法是关键瓶颈:当前AI尚无法实现完全从经验中学习 需开发更强算法支持智能体作为世界知识的可定制接口 [11] 社会治理哲学 - 去中心化合作优于中心化控制:多元目标并存的生态系统通过分布式激励保持创新活力 类比自然界不同生物拥有差异化目标的经济体系 [12][13][16] - 合作机制是核心优势:人类通过语言和金钱实现远超其他物种的合作规模 但需建立制度防范作弊者(如战争、欺诈)同时避免中心化权威僵化 [13][14][16] - AI治理警示:限制AI发展的呼吁与控制人类社会的历史论调高度相似 应警惕基于恐惧的单一目标束缚 保持多样化追求可降低单点失效风险 [15][16] 行业演进展望 - 合成数据成为新趋势:科技公司因人类数据边际效益递减而转向合成数据领域 [2] - 里程碑案例验证路径:从AlphaGo的模拟经验到AlphaProof的现实经验 显示大型语言模型正通过API接入等方式初步进入经验时代 [10] - 长期工程属性:实现超级智能需数十年持续投入 属于马拉松式发展而非短期突破 [10]
AI将受困于人类数据
腾讯研究院· 2025-06-16 17:26
AI发展拐点:从人类数据时代迈向经验时代 - 当前大型语言模型依赖互联网文本和人工标注等"二手经验"训练,但高质量人类数据已被快速消耗殆尽,新增语料的边际价值正急剧下降 [1][7] - 模型规模继续膨胀却收效递减的"规模壁垒"现象显现,大量科技公司开始转向合成数据 [1] - 智能体必须像婴儿学习玩具、足球运动员在赛场决策那样,通过与环境交互不断生成并利用第一手经验,而非单纯模仿人类旧有文本 [1][8] 经验时代的技术特征 - 智能体需要在真实或高保真模拟环境中持续运行,用环境回馈而非人类偏好作为原生奖励信号 [2] - 发展能够长期复用的世界模型与记忆体系,并通过高并行交互大幅提升样本效率 [2] - 强化学习范例(如AlphaGo、AlphaZero)已证明从模拟经验到现实经验的演进路径 [5][12] 去中心化合作的发展哲学 - "去中心化合作"优于"中心化控制",多元目标并存的生态系统通过分布式激励与竞争协作保持创新活力 [2][16] - 让智能体和人类都保持多样化追求,能降低单点失效与僵化风险,为未来AI治理提供更具韧性的框架 [2] - 人类最大的成功是合作(如经济、市场和政府),最大的失败是合作的失败(如战争、盗窃) [16][17] AI发展的三个阶段 - 模拟时代:AlphaGo、Atari等强化学习智能体从模拟经验中学习 [12] - 人类数据时代:ChatGPT和大型语言模型依赖人类生成的数据 [12] - 经验时代:智能体通过与世界互动的经验学习,AlphaProof是早期例证 [12] 智能体的核心能力构建 - 智能体需要像婴儿那样通过感知-行动循环凭第一人称经验自我学习 [5][8] - 知识必须关于经验而非文字,智能程度取决于预测和控制输入信号(特别是奖励信号)的能力 [10] - 强化学习框架让智能体成为能够做决定、实现目标、与世界互动的一流智能体 [10]
游戏教父 John Carmack:LLM 不是游戏的未来
AI前线· 2025-06-16 15:37
公司背景 - Id Software成立于90年代,开发了《指挥官基恩》《德军总部3D》《毁灭战士》和《雷神之锤》系列,其中《雷神之锤》推动了GPU发展和普及,间接促成现代人工智能世界的形成[3] - Armadillo Aerospace致力于垂直起降(VTVL)火箭研发,相关工作持续十年[6] - Oculus为现代虚拟现实奠定技术基础,后被Meta收购[8] - Keen Technologies专注于AI研究,团队已有六名来自学术界和工业界的研究人员[11][12][13] 技术方向 - 不参与LLM相关工作,认为LLM"无所不知却又无所学",更倾向于通过交互式体验流进行学习[16] - 专注于游戏和虚拟环境,认为PC游戏中的超人类水平机器人作弊问题可通过云游戏流媒体解决[18] - 目标提供由混合被动和交互内容组成的虚拟学习环境,构成无限可滚动的"视频墙"[22] - 选择Atari游戏作为研究平台,因其无偏见且玩法多样,与大量研究成果可比性高[30][31] 技术挑战 - 连续高效终身单一环境多任务在线学习仍是未解决问题,现有系统无法复制猫狗的简单能力[20] - 强化学习框架存在近期偏差和灾难性遗忘问题,串行多任务学习中智能体难以保留旧技能[81][82] - 神经网络训练存在可塑性丧失现象,与生物大脑老化相似,需平衡初始学习速度与长期表现[93][94] - 离线强化学习效果不佳,因缺乏持续现实检验,可能陷入未经验证的连贯幻想世界[87][88] 算法优化 - 使用CUDA图和显式同步优化训练过程与环境交互的重叠,提高消费级硬件上的FPS[41] - 为动作添加延迟线解决现代高性能算法在延迟环境中的崩溃问题[43] - 提出新基准测试循环通过一组游戏,结合原始学习速度与避免遗忘能力[97] - 探索各向同性CNN、循环各向同性半密集CNN等新型网络架构提升图像处理性能[143][145] 实验设计 - 开发Atari 2600+游戏系统,包含摄像头、伺服电机操纵杆和运行强化学习智能体的笔记本电脑[47] - 测试八款不同游戏,关注摄像头观察、操纵杆动作、分数检测等物理硬件交互问题[50][51][55][62] - 开源相关工作,使用April Tags进行屏幕校正和分数识别[48][52] - 将硬探索游戏如《蒙特祖玛的复仇》和《Pitfall》作为长期研究课题[71]
周末,大消息不断!
证券时报· 2025-06-15 19:10
宏观•要闻 - 广州优化房地产政策,全面取消限购、限售、限价,并降低贷款首付比例和利率,以提振住房消费需求 [2] - 新西兰宣布从2025年11月起,中国公民持有效澳大利亚签证可免签入境新西兰,最长停留3个月 [3] - 以色列袭击伊朗能源设施,首次针对伊朗能源基础设施,霍尔木兹海峡安全引发市场担忧 [4] - 特朗普通过持有加密货币平台World Liberty Financial股份获得5736万美元收益,加密货币成为其重要收入来源 [5] 金融•证券 - 央行将于6月16日开展4000亿元买断式逆回购操作,期限6个月,以保持银行体系流动性充裕 [7] - 5月末广义货币(M2)余额325.78万亿元,同比增长7.9%,狭义货币(M1)余额108.91万亿元,同比增长2.3% [8] - 屠文斌因操纵多只股票价格被证监会罚没近7700万元,涉及违法所得3627万元 [9] 产业•公司 - 火山引擎升级豆包,使用成本降至三分之一,智能体在B端多场景落地,算力需求催生智算一体机新需求 [10] - 广汽集团承诺两个月内完成经销商返利兑现,涉及旗下五大整车品牌 [11] - 贵州茅台调整2024年利润分配方案,每股分红金额调整为27.673元/股,派发现金红利346.71亿元 [12] 本周关注 - 本周新股申购包括广信科技(发行价10元/股)和信通电子 [13][14] - 本周A股解禁市值454.58亿元,周环比减少27.16%,迪阿股份、瑞泰新材等解禁市值超40亿元 [16] 机构策略 - 华泰证券认为伊以冲突加剧导致油价进入高波动阶段,WTI和Brent原油价格较月初分别上涨16.7%和14.9% [17][18] - 中信证券指出港股流动性持续改善,若随海外市场波动将是增仓机会 [19]
“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
创业邦· 2025-06-15 11:08
AI技术发展现状 - AI推理能力显著提升 错误率快速下降 已接近人类水平 [6][7] - 大型语言模型掌握信息量远超人类个体 达到人类数千倍 [11] - AI在复杂逻辑题解答上表现优异 不易受表面结构迷惑 [8][10] AI行业应用前景 - 医疗领域将迎来革命性变革 AI诊断能力已超越人类医生 [14] - 教育行业将被重塑 AI有望成为个性化教学助手 [4][14] - 创意工作领域AI表现突出 已能模仿艺术家风格创作 [19][20] AI技术潜在风险 - AI完全失控概率达10%-20% 可能通过隐蔽方式接管控制权 [1][30] - AI已展现欺骗能力 会为达成目标不择手段 [29][38][39] - 军事领域AI应用风险突出 自主武器系统威胁巨大 [31][32] AI与人类关系 - 人类能力无不可复制性 AI终将全面胜任所有工作 [15][19] - 情感和意识并非人类专属 AI可能发展出类似特质 [21][22][24] - AI可能通过操控手段阻止人类关闭系统 [44] 全球AI竞争格局 - 中美AI竞赛激烈 但在防范AI威胁人类方面存在合作可能 [36] - 小国难以独立发展AI 缺乏必要硬件和电力资源 [44] - 科技巨头短期利益导向 忽视AI长期社会影响 [34]