可验证奖励强化学习(RLVR)

搜索文档
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
生成式AI 一、 H20之后,英伟达全新「阉割版」的Blackwell GPU曝光 1. 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50%,被国产芯片抢占市场; 2. 为应对困局推出新款阉割版Blackwell GPU,售价6500-8000美元,远低于H20的1-1.2万 美元; 3. 新芯片采用GDDR7内存技术,内存带宽约1.7TB/秒,以符合出口管制限制要求。 https://mp.weixin.qq.com/s/62VnkP-TrmhSd18CmDLWBA 二、 Claude 4如何思考?资深研究员回应,RLVR已得到验证 1. Claude 4采用可验证奖励强化学习(RLVR)范式,在编程和数学等有清晰反馈信号的领域取 得突破; 2. 当前AI Agent发展受限于高可靠性不足,但预计明年将出现能独立完成实际工作的软件工 程Agent; 3. 研究员预测到2026年底,AI将具备足够的"自我意识",能执行复杂任务并判断自身能力边 界。 https://mp.weixin.qq.com/s/0mQ9xEKdGiSMsFqyXMJVgg https://mp.weixin.qq.com/ ...