Workflow
Heuristic Learning
icon
搜索文档
腾讯研究院AI速递 20260511
腾讯研究院· 2026-05-11 00:03
生成式AI技术进展 - OpenAI 研究员提出启发式学习新框架,让编码智能体通过维护手写规则系统,在Atari Breakout游戏中取得864分理论最高分,在Ant和HalfCheetah任务中达到深度强化学习级别水平 [1] - 该方法不训练神经网络,依赖智能体读取日志、修改代码、增加测试以持续迭代,将旧能力固化为回归测试和回放,从工程角度缓解灾难性遗忘问题 [1] - 观点认为这可能是继预训练、RLHF、大规模RL之后的下一个范式,未来方向是与神经网络结合,共同解决在线学习与持续学习问题 [1] - Anthropic Claude Code 团队成员力推HTML作为AI默认输出格式,认为超百行的Markdown难以阅读,HTML在信息密度和视觉呈现上更优 [2] - HTML支持表格、SVG、脚本嵌入和交互组件,可实现双向调参和链接分享,配合Claude Code的大上下文吞吐能力,可整合多源数据生成总览页 [2] - 该格式适用于产品规划、代码审查、设计原型等场景,虽然生成耗时是Markdown的2-4倍,但能带来更强的用户参与感和阅读完成率 [2] - 阶跃星辰发布实时语音大模型StepAudio 2.5 Realtime,聚焦顶级副语言能力、千万人设自定义和对话双商三大突破 [7] - 模型可解读语调、停顿、叹息等副语言信息,捕捉对话者情绪和潜在意图,动态调整回应策略以实现真正自然交流 [7] - 基于超10000个高质量原生人设算法裂变生成百万级人设矩阵,针对Roleplay场景进行RLHF对齐优化,并提供5个预设人设供体验 [7] AI智能体与平台动态 - Nous Research旗下开源自进化智能体产品Hermes登顶OpenRouter全球应用Token消耗榜首,单日调用量达2710亿Token,超越OpenClaw、Kilo Code和Claude Code [3] - Hermes本月调用量前五的模型包括小米MiMo-V2-Pro、MiniMax M2.7、英伟达Nemotron 3 Super、阶跃Step 3.5 Flash、腾讯Hy3 preview [3] - Hermes主打可成长性,具备持久记忆与自我学习机制,GitHub星标已达14万,国内已适配阿里云、腾讯云、华为云及微信、飞书等主流平台 [3] - 菲尔兹奖得主Timothy Gowers将数学家Nathanson论文中的未解问题交给GPT-5.5 Pro,AI在17分钟内将上界从指数级降到二次方级 [8] - 对于一般h情况,GPT经过约70分钟的三轮思考,将上界从指数级提升到多项式级,MIT博士生评价该思路完全原创 [8] - 警告称组合数学领域博士生未来面临危机,自2026年至今已有15个Erdős开放问题被解决,其中11个有AI贡献,AI数学能力呈垂直进步曲线 [8] AI硬件与健康科技 - Google发布售价99.99美元的无屏手环Fitbit Air,搭配每月10美元的Gemini Health Coach订阅服务,并将Fitbit App更名为Google Health [4] - 无屏手环品类在过去12个月完成估值翻倍,WHOOP估值达101亿美元,Oura估值达110亿美元,AI教练成为复活功臣,Oura单年销量达300万枚 [4] - 商业模式从硬件销售转向订阅服务,硬件成为入口,AI才是核心产品,Google的真正目标是用Gemini取代Apple Health的平台地位 [4] 大模型融资与公司战略 - 传闻DeepSeek首轮融资估值在21天内翻5倍至3500亿元,目标融资500亿元,创始人梁文锋个人出资最高200亿元,占比40%,将创中国大模型领域最大融资记录 [5][6] - 公司从理想主义实验室转向重资产AI公司,原因包括算力需求激增、明星研究员流失和商业化压力,员工已开始向企业推广模型 [6] - DeepSeek V4.1定档6月发布,将支持MCP协议、可同时处理图像和音频,发布节奏将加快至接近行业常规速度 [6] 机器人技术与AGI前景 - 英伟达Jim Fan提出机器人将复制LLM三阶段发展路径,预训练将使用视频模型预测物理世界状态,认为视觉语言动作模型已过时,世界动作模型登场 [9] - 数据策略从遥操作转向第一视角视频,英伟达EgoScale项目用2.1万小时人类视频预训练,实现了22自由度机器人手的端到端策略 [9] - 提出文明科技树三大成就:通过物理图灵测试约需2-3年、物理API实现自动化制造、物理自动研究让机器人设计自己,预测2040年达到终局 [9] - Figure CEO Brett Adcock介绍Figure 03机器人通过Helix神经网络运行,策略从代码控制转向AI优先,成本较Figure 02降低90% [10] - 数据采集是规模化最大瓶颈,预训练数据接近百万小时,配合人类穿戴spandex工服进行关节级追踪,从人类身体反推机器人动作 [11] - 认为通过触碰世界、试错学习的具身互动数据,可能是AGI最后缺失的一块,Figure 04将是首个“iPhone 1时刻”,实现大跃迁 [11]
OpenAI翁家翌:梯度之外,下一个AI训练范式有着落了?
机器之心· 2026-05-09 11:04
文章核心观点 - 一种名为“启发式学习”的新方法,通过AI编程代理自动维护和迭代基于规则的程序系统,能够在多个复杂任务中达到或超越深度强化学习的性能,这标志着一种潜在的新范式转移 [1][3][6] - AI编程代理显著降低了传统手写规则系统的维护成本,使得原本因维护困难而被低估的启发式方法,现在具备了长期发展和持续迭代的可行性 [2][12][16] - 启发式学习通过将历史经验显式地固化在代码、测试和记录中,为解决持续学习中的灾难性遗忘问题提供了一种更工程化的路径 [2][15][18] - 未来的发展方向是结合神经网络与启发式系统,利用后者快速处理在线数据并积累经验,再周期性内化到神经网络中,形成互补的混合智能系统 [3][26][29] 异常现象 - 最初仅为测试游戏环境而编写的廉价启发式规则,在AI编程代理的迭代下,于多个经典任务中取得了超预期的顶尖成绩 [7] - 在打砖块游戏中,策略分数从387分迭代至理论最高分864分 [8] - 在四足机器人控制任务中,纯Python程序策略得分超过6000分,达到常见深度强化学习的量级 [8] - 在机器人跑步任务中,策略迭代至5局复测均值11836.7分,同样进入深度强化学习的结果区间 [8] - 在整套Atari 57个游戏的批量测试中,无人值守的编码代理流程所达到的中位数HNS游戏得分,在100万环境步附近已远高于PPO等深度强化学习算法的早期曲线 [8] Heuristic Learning - 启发式学习是一种新的学习框架,其策略由代码构成,更新由编码代理直接修改代码完成,而非通过梯度更新神经网络参数 [11] - 与深度强化学习相比,启发式学习具备可解释性、样本效率高、可回归验证、可约束过拟合以及有助于避免灾难性遗忘等良好性质 [15] - 其核心在于,AI编程代理改变了手写规则系统的维护成本曲线,使得一套包含策略、状态表示、反馈入口、实验记录和更新机制的“启发式系统”值得被长期拥有和持续生长 [10][12][14] 为什么 Heuristic Learning 以前没发展起来 - 传统上,由人类手工维护的专家系统或规则系统,在规模扩大后维护成本极高,容易出现“打补丁”式的恶性循环,最终导致系统难以维护 [13][16] - 问题的核心并非启发式方法无效,而是缺乏足够的人力资源来持续“喂养”和迭代系统 [16] - AI编程代理的出现,如同为系统提供了一条可持续输送“智力”的管道,从根本上改变了维护成本曲线,使得启发式系统的持续迭代成为可能 [16] Heuristic Learning 怎么做 Continual Learning - 启发式学习并未自动解决持续学习问题,但它将“防止遗忘”转变为一个更工程化的挑战 [18] - 在该框架下,旧的能力可以通过回归测试、固定种子的回放、明确的失败记录等方式被显式地固化在系统中,这与神经网络将经验隐式压缩在参数中的方式截然不同 [19][20] - 一个健康的启发式系统需要两个关键操作来维持:一是吸收新反馈,二是压缩历史补丁,将其重构为更简单、可维护的表示,这本质上是维护一个能持续吸收反馈的软件系统 [21][22][23] Heuristic System 的复杂度 - 启发式系统的复杂度并非由代码行数决定,而是由“耦合复杂度”衡量,即编码代理在一次更新中需要同时照顾多少相互牵连的状态、规则、测试和反馈 [24] - 降低耦合复杂度的关键在于良好的模块化设计、完整的测试覆盖、可观测的日志以及可复现的状态,这些工程实践能将部分认知负担转移到环境中 [24] - 编码代理的能力(如模型强度、上下文长度、工具质量)决定了其能处理多高的耦合复杂度,而只增长不压缩的系统最终会因复杂度超出维护能力而腐化 [24][28] 下一个范式? - 文章提出,从预训练、RLHF到大尺度RL,每一次范式转移都在拓展“可验证”问题的边界,而启发式学习可能是下一轮转移,其核心是“凡是可以被持续迭代的,都开始能被解决” [3][6][26] - 启发式学习的能力存在边界,受限于代码的表达能力,难以处理复杂感知和长程泛化任务(例如,无法用纯代码解决ImageNet分类)[26] - 最具前景的方向是结合神经网络与启发式系统:用启发式系统作为System 1,快速在线处理数据、积累可回归的经验;再周期性将这些经验内化,用于更新作为System 2的神经网络(如LLM代理),形成分层、互补的混合智能架构 [26][29][30][31]