生成式AI技术进展 - OpenAI 研究员提出启发式学习新框架,让编码智能体通过维护手写规则系统,在Atari Breakout游戏中取得864分理论最高分,在Ant和HalfCheetah任务中达到深度强化学习级别水平 [1] - 该方法不训练神经网络,依赖智能体读取日志、修改代码、增加测试以持续迭代,将旧能力固化为回归测试和回放,从工程角度缓解灾难性遗忘问题 [1] - 观点认为这可能是继预训练、RLHF、大规模RL之后的下一个范式,未来方向是与神经网络结合,共同解决在线学习与持续学习问题 [1] - Anthropic Claude Code 团队成员力推HTML作为AI默认输出格式,认为超百行的Markdown难以阅读,HTML在信息密度和视觉呈现上更优 [2] - HTML支持表格、SVG、脚本嵌入和交互组件,可实现双向调参和链接分享,配合Claude Code的大上下文吞吐能力,可整合多源数据生成总览页 [2] - 该格式适用于产品规划、代码审查、设计原型等场景,虽然生成耗时是Markdown的2-4倍,但能带来更强的用户参与感和阅读完成率 [2] - 阶跃星辰发布实时语音大模型StepAudio 2.5 Realtime,聚焦顶级副语言能力、千万人设自定义和对话双商三大突破 [7] - 模型可解读语调、停顿、叹息等副语言信息,捕捉对话者情绪和潜在意图,动态调整回应策略以实现真正自然交流 [7] - 基于超10000个高质量原生人设算法裂变生成百万级人设矩阵,针对Roleplay场景进行RLHF对齐优化,并提供5个预设人设供体验 [7] AI智能体与平台动态 - Nous Research旗下开源自进化智能体产品Hermes登顶OpenRouter全球应用Token消耗榜首,单日调用量达2710亿Token,超越OpenClaw、Kilo Code和Claude Code [3] - Hermes本月调用量前五的模型包括小米MiMo-V2-Pro、MiniMax M2.7、英伟达Nemotron 3 Super、阶跃Step 3.5 Flash、腾讯Hy3 preview [3] - Hermes主打可成长性,具备持久记忆与自我学习机制,GitHub星标已达14万,国内已适配阿里云、腾讯云、华为云及微信、飞书等主流平台 [3] - 菲尔兹奖得主Timothy Gowers将数学家Nathanson论文中的未解问题交给GPT-5.5 Pro,AI在17分钟内将上界从指数级降到二次方级 [8] - 对于一般h情况,GPT经过约70分钟的三轮思考,将上界从指数级提升到多项式级,MIT博士生评价该思路完全原创 [8] - 警告称组合数学领域博士生未来面临危机,自2026年至今已有15个Erdős开放问题被解决,其中11个有AI贡献,AI数学能力呈垂直进步曲线 [8] AI硬件与健康科技 - Google发布售价99.99美元的无屏手环Fitbit Air,搭配每月10美元的Gemini Health Coach订阅服务,并将Fitbit App更名为Google Health [4] - 无屏手环品类在过去12个月完成估值翻倍,WHOOP估值达101亿美元,Oura估值达110亿美元,AI教练成为复活功臣,Oura单年销量达300万枚 [4] - 商业模式从硬件销售转向订阅服务,硬件成为入口,AI才是核心产品,Google的真正目标是用Gemini取代Apple Health的平台地位 [4] 大模型融资与公司战略 - 传闻DeepSeek首轮融资估值在21天内翻5倍至3500亿元,目标融资500亿元,创始人梁文锋个人出资最高200亿元,占比40%,将创中国大模型领域最大融资记录 [5][6] - 公司从理想主义实验室转向重资产AI公司,原因包括算力需求激增、明星研究员流失和商业化压力,员工已开始向企业推广模型 [6] - DeepSeek V4.1定档6月发布,将支持MCP协议、可同时处理图像和音频,发布节奏将加快至接近行业常规速度 [6] 机器人技术与AGI前景 - 英伟达Jim Fan提出机器人将复制LLM三阶段发展路径,预训练将使用视频模型预测物理世界状态,认为视觉语言动作模型已过时,世界动作模型登场 [9] - 数据策略从遥操作转向第一视角视频,英伟达EgoScale项目用2.1万小时人类视频预训练,实现了22自由度机器人手的端到端策略 [9] - 提出文明科技树三大成就:通过物理图灵测试约需2-3年、物理API实现自动化制造、物理自动研究让机器人设计自己,预测2040年达到终局 [9] - Figure CEO Brett Adcock介绍Figure 03机器人通过Helix神经网络运行,策略从代码控制转向AI优先,成本较Figure 02降低90% [10] - 数据采集是规模化最大瓶颈,预训练数据接近百万小时,配合人类穿戴spandex工服进行关节级追踪,从人类身体反推机器人动作 [11] - 认为通过触碰世界、试错学习的具身互动数据,可能是AGI最后缺失的一块,Figure 04将是首个“iPhone 1时刻”,实现大跃迁 [11]
腾讯研究院AI速递 20260511
腾讯研究院·2026-05-11 00:03