Workflow
RL
icon
搜索文档
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]
清华创业团队打造!国内首个专注AI推理Serverless GPU平台
机器之心· 2025-05-28 11:54
公司介绍 - 共绩科技是全球唯一利用动态闲置资源提供安全稳定服务的分布式计算平台,致力于构建信息、算力、能源一体化的资源调度网络 [1] - 公司核心团队来自清华大学、北京大学及Intel、字节跳动、阿里等知名企业,在分布式资源调度领域深耕多年 [27] - 已承建青海省、河北省省级算力调度平台,累计服务90余家人工智能企业 [27] 产品技术 - 共绩云AI推理Serverless平台支持极简快速部署,RTX 4090价格低至1.68元/小时,按毫秒计费 [2] - 采用Docker容器化技术实现五步部署,提供预制镜像与7x24h免费技术支持 [25][26] - 自研闲时算力调度平台整合26家智算中心资源(包括金山云、火山引擎),形成万卡资源池 [27] 行业痛点 - AI推理市场存在"弹性、稳定、低价"不可能三角,传统整租模式导致闲置成本高或扩容慢 [8][11] - 国内Serverless GPU服务资源稀缺,供需错配造成大量闲置与短租一卡难求并存 [19][12] - 现有服务模式要求长租且管理繁琐,阻碍创业公司快速迭代 [12] 解决方案 - 通过Serverless GPU实现毫秒级按量计费,流量激增时秒级扩容,回落时缩容归零 [23][24] - 独创动态资源调度网络打破单一云厂商边界,将闲置算力转化为可用资源 [21][27] - 支持实时/批量推理、3D渲染等场景,冷启动速度媲美国外RunPod [15][17] 市场活动 - 新用户注册充值可获20%额外积分,邀请好友双方各得50元积分 [3][30] - 活动期限至6月18日,RTX 4090推理服务维持1.68元/小时促销价 [29][30]
RWA项目完整落地手册1.0版本(一):RWA介绍
搜狐财经· 2025-05-28 11:15
(1) 一、RWA 介绍 1)1.RWA 的定义 · RWA的全称:Real World Assets (现实世界资产)。 2)2.RWA的背景与发展 · 传统资产市场的痛点: · 核心概念:指将现实世界中的有形或无形资产(如房地 产、贵金属、艺术品、债券等)通过区块链技术进行数字化、 确权和流通。 ● 本 质:将传统资产与区块链技术结合,赋予其更高的流 动性、透明性和可追溯性。 o 流动性低:如房地产等资产的交易周期较长,难 以快速变现。 o 透明性不足:资产的权属信息、交易记录等难以 公开和高效验证。 o 高门槛:传统资产投资往往需要高额资金,普通 投资者难以参与。 o 中介成本高:涉及多方中介机构,交易成本较高。 · 区块链技术的崛起: o 区块链技术提供了去中心化、不可篡改、智能合 约等特性,为传统资产的数字化和流通提供了技术基础。 o 随着去中心化金融 (DeFi) 的兴起, RWA 逐 渐 成为区块链领域的重要应用方向。 · 政策与市场的推动: o 各国对数字资产和区块链技术的逐步接受,为 RWA 的落地提供了政策支持。 o 全球资产数字化趋势加快, RWA 成为连接传统 金融与数字经济的重要桥梁 ...
Westward Gold Breaks Ground at Campfire Target & Details Additional Exploration Activities at Toiyabe Hills
Thenewswire· 2025-05-27 21:00
5,000-metre drilling campaign at the Campfire Target Complex slated to commence in mid-JuneVancouver, British Columbia, May 27, 2025 – TheNewswire – Westward Gold Inc. (CSE: WG, OTCQB: WGLIF, FSE: IM50) (“Westward” or the “Company”) is pleased to announce that pre-drilling earthwork activities – including road and drill-pad construction – began during the week of May 12th at its flagship Toiyabe Hills Property in Lander County, Nevada (“Toiyabe Hills”, or the “Property”). This followed approval of the Comp ...
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
量子位· 2025-05-27 20:31
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 仅需一个强化学习 (RL) 框架,就能实现 视觉任务大统一 ? 现有RL对推理和感知任务只能二选一,但"大模型六小强"之一 MiniMax 表示:我全都要! 最新开源 V-Triune (视觉三重统一强化学习系统) 框架,使VLM 首次 能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。 通过 三层组件设计 和 基于动态交并比 (IoU) 的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。 甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的 Orsta (One RL to See Them All) 模型系列 (7B至32B) ,在 MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。 值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO 闫俊杰 也参与了这项研究。 目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。 那话不多说,咱们直接上细节。 推理感知"两手抓" 视觉任务可以分为 推理 和 感知 两类,在当前,RL研究主要集中于数 ...
RWA 资产路线深度投研报告
搜狐财经· 2025-05-27 12:52
行业概览 - RWA指将现实世界资产如储蓄借款、债券、不动产等进行链上标签化、可交易化的资产组合方案 [1] - 美国国债代币化规模达39.6亿美元(2024年),反映机构避险需求驱动链上化趋势 [1] - MakerDAO的RWA抵押占比达63%,成为DeFi与传统金融融合标杆案例 [1] - 香港计划2025年启动黄金代币化项目,推动贵金属进入可编程金融领域 [1] - 蚂蚁数科Jovay区块链支持10万TPS,实现毫秒级RWA交易 [1] 市场规模与增长 - 2025年3月链上RWA总规模达154亿美元(不含稳定币),同比增长80% [2] - 美国国债代币化增速达415%(从7.69亿增至39.6亿美元),私人信贷增长48% [2] - 房地产代币化年复合增长率超20%,RealT平台代币化房产总值超25亿美元 [2][3] - 美国国债与私人信贷形成"双核驱动"格局,合计占比超85% [2] - 碳信用市场规模突破15亿美元,Moss.Earth代币化200万公顷亚马逊雨林 [3] 机构参与与基础设施 - 贝莱德BUIDL基金规模超5亿美元,摩根大通Onyx平台日处理3000亿美元回购交易 [2] - Plume、Mantra等公链构建RWA专属Layer1生态,Chainlink覆盖70% RWA定价需求 [3][23] - Ondo Chain TVL突破10亿美元,占美债代币化市场50%份额 [22] - ERC-3643代币标准将合规成本降低90%,Wormhole NTT协议支持原生跨链传输 [11][23] 应用场景与创新 - MakerDAO将63%抵押品置换为RWA资产,DAI发行量突破250亿美元 [13] - Ondo Finance发行的OUSG美债代币收益率达4.44%-4.65%,整合入Curve流动性挖矿池 [5][24] - RealT平台提供100美元起投的房地产代币化,年租金收益达7.5% [17][24] - Flux Finance叠加OUSG收益实现15% APY,Huma Finance提供10.5% USDC年化收益 [24] 区域发展与政策 - 香港金管局Ensemble计划完成8项试点,总融资超5亿港元 [24] - 美国通过ERC-3643协议推动链上KYC/AML标准化,贝莱德等机构吸引千亿美元资金 [24][25] - 中国海南探索"数据跨境+资产上链"监管沙盒,2025年成都发布《RWA技术规范》 [9][10] 未来趋势 - 预计2025年美债代币化市值突破100亿美元,房地产、碳信用等另类资产加速上链 [33] - 亚洲新兴市场(香港、新加坡)凭借政策优势成为RWA合规枢纽 [33] - DeFi与RWA融合催生收益聚合场景,如Pendle收益池提供可编程收益率管理工具 [6][33] - 类ETF指数型RWA产品(债券组合、地产篮子)将成为链上主流投资选项 [33]
MannKind: Why I'm Still Bullish Despite Tyvaso DPI Competition
Seeking Alpha· 2025-05-27 12:02
分析师背景 - 分析师Stephen拥有注册护士和MBA背景 结合临床洞察力与严谨的估值方法分析医疗保健和科技股 [1] - 擅长基于情景的DCF建模 敏感性分析和蒙特卡洛模拟 以发现不对称的风险回报机会 [1] - 专注于将复杂的科学和市场动态转化为可操作的投资论点 [1] 分析方法 - 采用概率性分析方法 而非绝对确定性预测 反映作者个人观点 [3] - 分析基于作者独立研究 不代表任何机构立场 [4] 内容性质 - 文章旨在提供信息内容 不作为详尽分析或个性化投资建议 [3] - 不包含具体的买卖持有等投资推荐 [3] - 读者需自行验证信息并独立研究 [3]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
生成式AI 一、 H20之后,英伟达全新「阉割版」的Blackwell GPU曝光 1. 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50%,被国产芯片抢占市场; 2. 为应对困局推出新款阉割版Blackwell GPU,售价6500-8000美元,远低于H20的1-1.2万 美元; 3. 新芯片采用GDDR7内存技术,内存带宽约1.7TB/秒,以符合出口管制限制要求。 https://mp.weixin.qq.com/s/62VnkP-TrmhSd18CmDLWBA 二、 Claude 4如何思考?资深研究员回应,RLVR已得到验证 1. Claude 4采用可验证奖励强化学习(RLVR)范式,在编程和数学等有清晰反馈信号的领域取 得突破; 2. 当前AI Agent发展受限于高可靠性不足,但预计明年将出现能独立完成实际工作的软件工 程Agent; 3. 研究员预测到2026年底,AI将具备足够的"自我意识",能执行复杂任务并判断自身能力边 界。 https://mp.weixin.qq.com/s/0mQ9xEKdGiSMsFqyXMJVgg https://mp.weixin.qq.com/ ...
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
例如,模型虽然能够识别图像中的物体并描述它们之间一些相对简单的空间关系,但在追求极致的定位精度,或需要深入理解和预测物体间高度复杂、动态或隐 含的交互逻辑(而非仅仅识别表面现象)时,其表现仍可能因视觉信息在文本化过程中的细节损失而受到限制。 机器之心报道 编辑:Panda、+0 近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理 视觉信息时也是如此 。 常见的 MLLM 结构。 这种模式要求模型首先将视觉信息「翻译」或「映射」为文本描述或内部的文本化 token,然后再利用大型语言模型的文本推理能力进行处理。 这个转换过程不可避免地可能导致视觉信息中固有的丰富细节、空间关系和动态特征的丢失或削弱,形成了所谓的「模态鸿沟 (modality gap) 」。这种鸿沟不仅限 制了模型对视觉世界的精细感知,也影响了其在复杂视觉场景中进行有效规划的能力。 来自剑桥、伦敦大学学院、谷歌的研究团队认为: 语言不一定始终是进行推理最自然或最有效的模态,尤其是在涉及空间与几何信息的任务场景中 。 基于此动因,研究团队提出了一种 ...