Heuristic Learning - 财报，业绩电话会，研报，新闻

Heuristic Learning

搜索文档

腾讯研究院AI速递 20260511

腾讯研究院· 2026-05-11 00:03

生成式AI技术进展 - OpenAI 研究员提出启发式学习新框架，让编码智能体通过维护手写规则系统，在Atari Breakout游戏中取得864分理论最高分，在Ant和HalfCheetah任务中达到深度强化学习级别水平 [1] - 该方法不训练神经网络，依赖智能体读取日志、修改代码、增加测试以持续迭代，将旧能力固化为回归测试和回放，从工程角度缓解灾难性遗忘问题 [1] - 观点认为这可能是继预训练、RLHF、大规模RL之后的下一个范式，未来方向是与神经网络结合，共同解决在线学习与持续学习问题 [1] - Anthropic Claude Code 团队成员力推HTML作为AI默认输出格式，认为超百行的Markdown难以阅读，HTML在信息密度和视觉呈现上更优 [2] - HTML支持表格、SVG、脚本嵌入和交互组件，可实现双向调参和链接分享，配合Claude Code的大上下文吞吐能力，可整合多源数据生成总览页 [2] - 该格式适用于产品规划、代码审查、设计原型等场景，虽然生成耗时是Markdown的2-4倍，但能带来更强的用户参与感和阅读完成率 [2] - 阶跃星辰发布实时语音大模型StepAudio 2.5 Realtime，聚焦顶级副语言能力、千万人设自定义和对话双商三大突破 [7] - 模型可解读语调、停顿、叹息等副语言信息，捕捉对话者情绪和潜在意图，动态调整回应策略以实现真正自然交流 [7] - 基于超10000个高质量原生人设算法裂变生成百万级人设矩阵，针对Roleplay场景进行RLHF对齐优化，并提供5个预设人设供体验 [7] AI智能体与平台动态 - Nous Research旗下开源自进化智能体产品Hermes登顶OpenRouter全球应用Token消耗榜首，单日调用量达2710亿Token，超越OpenClaw、Kilo Code和Claude Code [3] - Hermes本月调用量前五的模型包括小米MiMo-V2-Pro、MiniMax M2.7、英伟达Nemotron 3 Super、阶跃Step 3.5 Flash、腾讯Hy3 preview [3] - Hermes主打可成长性，具备持久记忆与自我学习机制，GitHub星标已达14万，国内已适配阿里云、腾讯云、华为云及微信、飞书等主流平台 [3] - 菲尔兹奖得主Timothy Gowers将数学家Nathanson论文中的未解问题交给GPT-5.5 Pro，AI在17分钟内将上界从指数级降到二次方级 [8] - 对于一般h情况，GPT经过约70分钟的三轮思考，将上界从指数级提升到多项式级，MIT博士生评价该思路完全原创 [8] - 警告称组合数学领域博士生未来面临危机，自2026年至今已有15个Erdős开放问题被解决，其中11个有AI贡献，AI数学能力呈垂直进步曲线 [8] AI硬件与健康科技 - Google发布售价99.99美元的无屏手环Fitbit Air，搭配每月10美元的Gemini Health Coach订阅服务，并将Fitbit App更名为Google Health [4] - 无屏手环品类在过去12个月完成估值翻倍，WHOOP估值达101亿美元，Oura估值达110亿美元，AI教练成为复活功臣，Oura单年销量达300万枚 [4] - 商业模式从硬件销售转向订阅服务，硬件成为入口，AI才是核心产品，Google的真正目标是用Gemini取代Apple Health的平台地位 [4] 大模型融资与公司战略 - 传闻DeepSeek首轮融资估值在21天内翻5倍至3500亿元，目标融资500亿元，创始人梁文锋个人出资最高200亿元，占比40%，将创中国大模型领域最大融资记录 [5][6] - 公司从理想主义实验室转向重资产AI公司，原因包括算力需求激增、明星研究员流失和商业化压力，员工已开始向企业推广模型 [6] - DeepSeek V4.1定档6月发布，将支持MCP协议、可同时处理图像和音频，发布节奏将加快至接近行业常规速度 [6] 机器人技术与AGI前景 - 英伟达Jim Fan提出机器人将复制LLM三阶段发展路径，预训练将使用视频模型预测物理世界状态，认为视觉语言动作模型已过时，世界动作模型登场 [9] - 数据策略从遥操作转向第一视角视频，英伟达EgoScale项目用2.1万小时人类视频预训练，实现了22自由度机器人手的端到端策略 [9] - 提出文明科技树三大成就：通过物理图灵测试约需2-3年、物理API实现自动化制造、物理自动研究让机器人设计自己，预测2040年达到终局 [9] - Figure CEO Brett Adcock介绍Figure 03机器人通过Helix神经网络运行，策略从代码控制转向AI优先，成本较Figure 02降低90% [10] - 数据采集是规模化最大瓶颈，预训练数据接近百万小时，配合人类穿戴spandex工服进行关节级追踪，从人类身体反推机器人动作 [11] - 认为通过触碰世界、试错学习的具身互动数据，可能是AGI最后缺失的一块，Figure 04将是首个“iPhone 1时刻”，实现大跃迁 [11]

生成式AI

Heuristic Learning

AGI

Artificial Intelligence

Hermes Agent

StepAudio 2.5 Realtime

生成式AI

Heuristic Learning

AGI

Artificial Intelligence

Hermes Agent

StepAudio 2.5 Realtime

OpenAI翁家翌：梯度之外，下一个AI训练范式有着落了？

机器之心· 2026-05-09 11:04

文章核心观点 - 一种名为“启发式学习”的新方法，通过AI编程代理自动维护和迭代基于规则的程序系统，能够在多个复杂任务中达到或超越深度强化学习的性能，这标志着一种潜在的新范式转移 [1][3][6] - AI编程代理显著降低了传统手写规则系统的维护成本，使得原本因维护困难而被低估的启发式方法，现在具备了长期发展和持续迭代的可行性 [2][12][16] - 启发式学习通过将历史经验显式地固化在代码、测试和记录中，为解决持续学习中的灾难性遗忘问题提供了一种更工程化的路径 [2][15][18] - 未来的发展方向是结合神经网络与启发式系统，利用后者快速处理在线数据并积累经验，再周期性内化到神经网络中，形成互补的混合智能系统 [3][26][29] 异常现象 - 最初仅为测试游戏环境而编写的廉价启发式规则，在AI编程代理的迭代下，于多个经典任务中取得了超预期的顶尖成绩 [7] - 在打砖块游戏中，策略分数从387分迭代至理论最高分864分 [8] - 在四足机器人控制任务中，纯Python程序策略得分超过6000分，达到常见深度强化学习的量级 [8] - 在机器人跑步任务中，策略迭代至5局复测均值11836.7分，同样进入深度强化学习的结果区间 [8] - 在整套Atari 57个游戏的批量测试中，无人值守的编码代理流程所达到的中位数HNS游戏得分，在100万环境步附近已远高于PPO等深度强化学习算法的早期曲线 [8] Heuristic Learning - 启发式学习是一种新的学习框架，其策略由代码构成，更新由编码代理直接修改代码完成，而非通过梯度更新神经网络参数 [11] - 与深度强化学习相比，启发式学习具备可解释性、样本效率高、可回归验证、可约束过拟合以及有助于避免灾难性遗忘等良好性质 [15] - 其核心在于，AI编程代理改变了手写规则系统的维护成本曲线，使得一套包含策略、状态表示、反馈入口、实验记录和更新机制的“启发式系统”值得被长期拥有和持续生长 [10][12][14] 为什么 Heuristic Learning 以前没发展起来 - 传统上，由人类手工维护的专家系统或规则系统，在规模扩大后维护成本极高，容易出现“打补丁”式的恶性循环，最终导致系统难以维护 [13][16] - 问题的核心并非启发式方法无效，而是缺乏足够的人力资源来持续“喂养”和迭代系统 [16] - AI编程代理的出现，如同为系统提供了一条可持续输送“智力”的管道，从根本上改变了维护成本曲线，使得启发式系统的持续迭代成为可能 [16] Heuristic Learning 怎么做 Continual Learning - 启发式学习并未自动解决持续学习问题，但它将“防止遗忘”转变为一个更工程化的挑战 [18] - 在该框架下，旧的能力可以通过回归测试、固定种子的回放、明确的失败记录等方式被显式地固化在系统中，这与神经网络将经验隐式压缩在参数中的方式截然不同 [19][20] - 一个健康的启发式系统需要两个关键操作来维持：一是吸收新反馈，二是压缩历史补丁，将其重构为更简单、可维护的表示，这本质上是维护一个能持续吸收反馈的软件系统 [21][22][23] Heuristic System 的复杂度 - 启发式系统的复杂度并非由代码行数决定，而是由“耦合复杂度”衡量，即编码代理在一次更新中需要同时照顾多少相互牵连的状态、规则、测试和反馈 [24] - 降低耦合复杂度的关键在于良好的模块化设计、完整的测试覆盖、可观测的日志以及可复现的状态，这些工程实践能将部分认知负担转移到环境中 [24] - 编码代理的能力（如模型强度、上下文长度、工具质量）决定了其能处理多高的耦合复杂度，而只增长不压缩的系统最终会因复杂度超出维护能力而腐化 [24][28] 下一个范式？ - 文章提出，从预训练、RLHF到大尺度RL，每一次范式转移都在拓展“可验证”问题的边界，而启发式学习可能是下一轮转移，其核心是“凡是可以被持续迭代的，都开始能被解决” [3][6][26] - 启发式学习的能力存在边界，受限于代码的表达能力，难以处理复杂感知和长程泛化任务（例如，无法用纯代码解决ImageNet分类）[26] - 最具前景的方向是结合神经网络与启发式系统：用启发式系统作为System 1，快速在线处理数据、积累可回归的经验；再周期性将这些经验内化，用于更新作为System 2的神经网络（如LLM代理），形成分层、互补的混合智能架构 [26][29][30][31]

Heuristic Learning

Continual Learning

Online Learning

Artificial Intelligence

Artificial Intelligence

GPT系列