强化学习

搜索文档
学海拾珠系列之二百三十四:利用强化学习和文本网络改进相关矩阵估计
华安证券· 2025-05-08 16:07
量化模型与构建方式 1. **模型名称**:RL-TBN(基于文本网络的强化学习模型) - **模型构建思路**:通过融合强化学习的动态优化与文本网络(TBN)的结构化先验,构建数据驱动的协方差矩阵估计框架。强化学习采用近似策略优化(PPO)算法,TBN用于衡量企业间的产品相似性[3] - **模型具体构建过程**: 1. **收缩方法**:将样本协方差矩阵向目标矩阵收缩,公式为: $$\widetilde{\mathbf{R}}_{t}=(1-\alpha)\widehat{\mathbf{R}}_{t}+\alpha\mathbf{\widetilde{R}}_{t}$$ 其中$\alpha$为收缩强度,$\widetilde{\mathbf{R}}_{t}$为目标矩阵(如TBN或单位矩阵)[32][33] 2. **TBN构建**:解析公司10-K报告中的产品描述,计算企业间相似性得分。通过归一化词向量和余弦相似度构建TBN矩阵: $$B_{t}={\frac{M_{t}M_{t}^{\mathsf{T}}}{\|M_{t}\|_{F}^{2}}}$$ $M_t$为归一化后的企业产品描述矩阵[37][38] 3. **强化学习优化**: - 状态定义为股票收益向量$s_t = (r_{1,t}, r_{2,t}, ..., r_{N,t})$ - 动作为收缩强度$\alpha_t$ - 奖励函数采用指数效用:$r_t = \frac{1 - e^{-\gamma r_{p,t}}}{\gamma}$,其中$r_{p,t}$为投资组合收益率[48] - 使用PPO算法更新策略,目标函数为: $$J(\theta) = \mathbb{E}[\min(\rho_t(\theta) A_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) A_t)]$$ $\rho_t$为策略比率,$A_t$为优势函数[53] - **模型评价**:RL-TBN结合了TBN的低波动性优势和RL的动态适应性,能有效降低估计误差并提升投资组合稳健性[4][5] 量化因子与构建方式 1. **因子名称**:基于文本网络的相似性因子(TBN因子) - **因子构建思路**:通过分析公司10-K报告中的产品描述,量化企业间产品相似性,作为股票相关性的先验信息[36] - **因子具体构建过程**: 1. 提取每家公司10-K报告中描述产品的非通用名词(约200个/公司) 2. 构建二进制词向量$P_i$并归一化: $$V_{i}={\frac{P_{i}}{\|P_{i}\|_{2}^{2}}}$$ 3. 计算企业间余弦相似度,形成TBN矩阵$B_t$[37][38] - **因子评价**:TBN因子具有低波动性和基本面关联性,能捕捉行业结构和供应链关系,优于传统相关性矩阵[23][24] --- 模型的回测效果 1. **RL-TBN模型**: - 年化波动率:0.088 - 夏普比率:1.351 - 风险价值(VaR):0.129 - 换手率:未明确数值(但提及考虑20bps交易成本)[4][77][79] 2. **基准模型对比**: - 样本协方差法(Sample):波动率0.186,夏普比率0.805 - TBN固定收缩法(TBN_Half):波动率0.186,夏普比率0.805 - 等权重组合(Naive):波动率未明确,夏普比率低于RL-TBN[77][79] --- 因子的回测效果 1. **TBN因子**: - 预测股票相关性:滞后一期的TBN相似性得分对下一期股票相关性的回归系数为0.349(显著)[106] - 矩阵范数稳定性:TBN的Frobenius范数波动显著低于样本相关性矩阵[100][101] - 经济周期敏感性:高收缩强度($\alpha>0.773$)与低投资者情绪(-0.106)和高宏观经济不确定性(0.938)显著相关[94][95] --- 补充分析 - **面板向量自回归(PVAR)**:验证TBN与股票相关性的动态关系,过渡矩阵显示TBN对相关性有持续影响[109][110] - **脉冲响应分析**:TBN相似性得分每增加1单位,未来股票相关性下降0.133单位(统计显著)[106][110]
国泰海通:具身智能驱动人形机器人商业化落地 算法突破等成行业上涨催化剂
智通财经网· 2025-05-08 15:56
行业前景 - 具身智能是人形机器人商业化落地核心因素 驱动感知性能、算力、通信效率等需求增长 [1] - 人形机器人潜在应用场景覆盖生产制造、社会服务、危险作业等领域 对人类社会适配性高 [1] - 2024-2028年中国人形机器人智能水平整体处于Lv1 少部分产品向Lv2探索 市场规模不足百亿元 [1] - 2045年以后中国人形机器人市场规模有望突破万亿元 [1] 技术发展 - 多模态大模型提高人机交互效率 英伟达GR00T、特斯拉Grok3整合多模态感知 提升交互及决策精度 [2] - 优必选基于DeepSeek-R1研发具身推理大模型 预期可实现复杂环境中准确高效反应和决策 [2] - 强化学习成为运动算法主要范式 基于奖励函数实现步态、奔跑等运动高效学习并增强泛化能力 [2] - 纯视觉+六维力传感器+电子皮肤有望成为传感器标准方案 显著降低硬件成本并提高感知灵敏度 [2] 基础设施 - EtherCAT具备高实时性、低延迟与高同步性 通信延迟由CAN协议的毫秒级降至微秒级 预计成为主流通信协议 [2] - 机器人智能向具身智能演进 端侧算力需求持续增长 驱动端侧芯片性能升级 [2]
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位· 2025-05-08 14:58
核心观点 - 多模态奖励模型(MRMs)在多模态大语言模型(MLLMs)表现提升中起关键作用,强化学习(RL)可增强其长期推理能力但存在训练不稳定问题 [1] - 中科院自动化所、清华大学、快手和南京大学团队提出R1-Reward模型,基于MM-RLHF框架,通过StableReinforce算法实现训练稳定性突破 [1][11] - 模型在benchmark上超越SOTA模型5%-15%,且推理采样次数增加时性能可进一步提升 [2][3][42] 技术突破 算法创新 - 提出StableReinforce算法:改进损失函数裁剪操作(Pre-Clip)、设计优势过滤器(3-sigma规则)、引入一致性奖励机制 [11][23][26] - 优化目标函数:$$\ell_{Reward}(\theta)=E_{x,y_w,y_l}[-\log\sigma(r(y_w|x)-r(y_l|x))]$$ 强化好答案与坏答案的分差 [12] - 渐进式训练策略:先用GPT-4o生成20万条偏好数据(R1-Reward-200k)进行监督微调,再针对高难度样本进行RL训练 [33][36][41] 性能表现 - 在VL Reward-Bench等测评基准上准确率提升8.4%-14.3%,推理时采样15次投票策略可使准确率从71%跃升至86.47% [11][38][42] - 输出分析内容平均长度减少15%,显示推理效率提升 [44] - "Any Correct"策略在K=15时接近100%准确率,显示模型潜力 [42] 方法论 问题重构 - 将奖励模型训练转化为基于规则的RL任务:模型需判断两个答案的优劣并给出分析 [8] - 设计三重奖励函数:格式奖励(规范输出结构)、结果奖励(匹配人类偏好)、一致性奖励(分析逻辑自洽) [40] 数据策略 - 构建R1-Reward-200k数据集,标注样本难度(GPT-4o尝试次数),RL阶段专注训练高难度样本 [11][36][41] - 冷启动解决方案:通过GPT-4o生成带思考链的SFT数据,缓解长思考链冷启动问题 [33][34] 实验发现 - 模型展现人类式反思能力:能自主发现计算错误并修正 [43] - 投票机制显著提升性能,验证RL在多模态奖励建模中的潜力 [39][42] - 一致性奖励有效解决"精神分裂"问题(分析结论与最终答案矛盾) [30][31] 应用前景 - 为RL在多模态奖励模型中的应用提供新范式 [45] - 开源模型与代码(Hugging Face/GitHub)推动行业研究 [46] - 未来可探索更先进的推理时扩展方法和训练策略优化 [45]
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
量子位· 2025-05-08 12:04
技术突破 - UC伯克利团队研发出VideoMimic系统,可将视频动作迁移到真实机器人,无需动作捕捉技术[1][3] - 系统已成功让宇树G1机器人模仿100多段人类动作[2] - 核心原理是从视频提取姿态和点云数据,在模拟环境中训练后迁移到实体机器人[3][17] 技术实现细节 - 工作流程包括视频到仿真环境转换、仿真训练、真实机器人部署验证三大步骤[18] - 从单目RGB视频获取人体三维姿态和稠密场景点云,通过SMPL人体模型表示[19] - 将稠密点云转换为轻量级三角网格模型以提高碰撞检测和渲染效率[21] - 训练过程分为四个渐进阶段,最终得到泛化能力强的控制策略[24][32] - 策略输入包括机器人本体感受信息、局部高度图和期望躯干运动方向[24] 应用效果 - 宇树Go1机器人已学会适应各种地形,包括跨越路肩和上下楼梯[7][9][12] - 机器人能在脚底滑动时快速反应恢复平衡避免跌倒[14] - 掌握了行走、爬楼梯、坐下、站立等多种动作[16][25] 硬件配置 - 宇树Go1机器人拥有12个自由度,配置与仿真模型相似[30] - 搭载深度相机和IMU等传感器,提供环境感知和本体感受信息[31][37] - 嵌入式计算平台支持策略模型实时推理[39] - 策略模型以50Hz频率运行,与机器人控制周期匹配[40] 研究团队 - 项目由UC伯克利团队开发,四位共同一作均为博士生[43] - 包括Arthur Allshire、Hongsuk Choi、华人学者章俊一和David McAllister[43][44][48][52] - 导师包括Pieter Abbee、Jitendra Malik等知名学者[43][44][45]
梁文锋和杨植麟再“撞车”
创业家· 2025-05-07 17:57
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
机器之心· 2025-05-07 12:34
| 机器之心报道 | | --- | 编辑:蛋酱、泽南 本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B 。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。有人表示期待 DeepSeek R1 风格的训练方法用来提升代码效率已久,这回终于有人站出来了。 在一篇博客中,Cognition AI 详细介绍了新模型强化学习训练的机制。 代码是一个不断迭代的过程 —— 需要我们编写、执行程序,评估结果,并根据反馈优化代码。大语言模型(LLM)在代码生成方面的最新进展尝试将此过程融入 推理阶段,并使用并行采样等方法。虽然这些方法是有效的,但它们依赖于搜索而非实际学习 —— 在这其中模型权重被冻结。 Cognition AI 探索了多轮强化学习,使用来自环境的中间反馈,并屏蔽模型思维以避免在多轮训练中上下文爆炸。 他们提出的模型 Kev ...
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
强化学习范式革新 - 强化学习(RL)成为AI模型性能提升的新范式 尤其体现在DeepSeek-R1和R1-Zero模型的突破性进展上 [2][3][20] - 传统预训练Scaling Law面临数据耗尽危机 Ilya Sutskever预测互联网数据作为预训练燃料的时代即将终结 [16][19] - 模型改进形成三支柱框架:预训练Scaling 测试时间计算(TTC) Scaling 强化学习微调Scaling 其中RL可形成自我改进闭环 [25][26] DeepSeek技术路径 - 创新性采用GRPO(组相对策略优化)替代PPO 移除价值模型和复杂奖励系统 计算开销降低50% [44][45][46] - R1-Zero完全摒弃监督微调(SFT) 通过硬编码验证器实现纯强化学习训练 但输出可读性差 [35][37] - R1模型分四阶段优化:冷启动SFT→GRPO→拒绝采样SFT→RL微调 平衡推理能力与人类可读性 [52][54][56] 去中心化应用潜力 - 训练场(Training Grounds)模块最具去中心化价值 可分布式生成数学/物理/编程等领域的验证型推理数据 [73][74][77] - PETALS框架实现模型层分布式托管 支持8位量化通信 176B参数模型可在消费级GPU协作推理 [92][94][98] - RL Swarm架构实现策略模型P2P协作学习 在Qwen-2 5B模型实验中输出质量提升30% [102][103][104] 硬件与算法协同 - FP8量化技术大幅降低内存需求 4000系以上NVIDIA显卡可支持 促进异构硬件参与 [84][87][89] - DiPaCo路径分片技术使MoE模型训练分布式成为可能 150M参数路径可匹配13B密集模型效果 [99][101] - 模块化专家系统(如HDEE)预示未来方向 异构领域专家可并行训练后集成 [106][107] 行业生态演进 - Hugging Face启动Open R1项目 旨在完全开源复现R1技术栈 [109] - Prime Intellect通过SYNTHETIC-1项目尝试分布式复制R1训练流程 [109] - 谷歌DeepMind与哈佛合作证明8位量化PPO训练速度提升1 5-2 5倍 [87]
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 12:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
OpenAI放弃营利性转型!奥特曼:非营利组织继续掌控;关税重压下Temu停运中国直邮美国商品;英伟达再推中国特供版AI芯片
雷峰网· 2025-05-06 08:29
跨境电商与关税政策 - Temu因美国130%-150%进口关税压力,宣布停止向美国出口中国产品,全托管链接大规模下架,转为本地卖家供货模式[5] - 美国海关T86政策取消小额包裹关税豁免,2025年5月起中国输美货物需全额报关缴税[5] - Temu美国站全托管卖家4月26日起遭遇商品下架,部分店铺下架比例超50%,截至4月30日全托管业务近乎停摆[6] 新能源汽车行业动态 - 哪吒汽车App及官网因流量欠费导致五一期间瘫痪,2023年销量下滑后暴露经营困境,2024年10月被曝裁员、拖欠货款[8][9] - 小米、华为、理想等车企集体将"智驾"宣传改为"辅助驾驶",门店话术显著调整[10][11] - 蔚来调整天津和大连区域总经理,乐道渠道架构加速融合,人事变动频率加快[11][12] 人工智能与大模型进展 - DeepSeek推出6710亿参数数学定理证明模型Prover-V2,月之暗面同期发布Kimina-Prover,两者均采用强化学习技术[12][13] - OpenAI放弃营利性转型计划,维持非营利架构,强调AGI造福全人类使命不变[18][20] - 英伟达开发中国特供版AI芯片以应对出口限制,样品预计6月交付测试,H20芯片遭禁售或致55亿美元损失[20][21] 互联网与科技企业动向 - 小红书内测"种草直达"功能,计划开放广告跳转至天猫的外域合作[14] - 蚂蚁集团考虑分拆蚂蚁国际在香港上市,该板块收入占集团20%[14] - 小米高管许斐新任国际市场部总经理,雷军职务调整为董事,经营范围新增智能家居销售[15][16] 国际科技产业动态 - 特斯拉内部曾建议马斯克采用SpaceX模式挂名CEO,但遭其拒绝[22] - AMD放弃三星4纳米工艺合作,三星代工因3纳米良率问题丢失高通、英伟达订单[22][23] - Instagram创始人批评AI公司过度追求用户互动指标,忽视答案质量[23][24] 零售与消费电子 - 淘宝闪购提前4天全国上线,整合饿了么资源后订单激增,奈雪首日订单增长200%[9] - 苹果库克回应Siri个性化功能延迟,强调需打磨品质,计划一年内推出[25] - 沃尔沃旗下NOVO Energy因合作伙伴破产裁员50%,调整运营规模[25]
梁文锋和杨植麟再“撞车”
华尔街见闻· 2025-05-05 20:26
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿规模增长近百倍,在miniF2F测试通过率达88.9%,解决普特南测试49道题 [3] - 月之暗面同期推出形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F测试通过率80.7%,普特南测试解决10道题 [3] - 两家公司技术报告均采用强化学习方法,DeepSeek通过子目标分解推进数学推理,月之暗面基于强化学习技术构建形式推理模型 [4] - DeepSeek模型矩阵同步进化,Prover系列从2024年3月发布后历经三次升级,代码系列Coder从2024年4月起完成五次迭代至V3-0324版本 [10] 行业竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量仅为R1的1/3但性能全面超越,阿里已开源200余个模型全球下载超3亿次 [19] - 百度发布文心4.5 Turbo和X1 Turbo,性能更强成本更低,计划6月开源文心大模型4.5系列 [19][21] - 月之暗面Kimi用户增长受挑战,腾讯元宝通过微信引流和14亿元投流费用超越Kimi成为月活第三的AI产品,Kimi月活2000万不及豆包5600万 [16] - 华为昇腾芯片被传用于DeepSeek R2模型研发,但行业人士指出其训练效果一般且生态系统不完善,更适合推理部署 [14] 技术发展路径 - DeepSeek押注数学/代码、多模态和自然语言三大AGI实现路径,认为数学和代码是封闭可验证系统,可能通过自我学习实现高智能 [9] - 推理大模型R1价格低廉且性能强劲,Prover-V2以DeepSeek-V3为基础模型进行微调,利用子目标分解和思维过程链强化推理能力 [12] - 算法专家指出R2可能侧重强化学习能力提升,研发周期较短,而V4将涉及预训练工程和方法变革,研发周期更长 [13] 市场动态 - 中国AI原生APP月活排名变化:DeepSeek以1.94亿居首,豆包1.16亿次之,腾讯元宝0.42亿超越Kimi成为第三 [16] - 行业观点认为中国需要2-3个世界领先大模型而非单一明星企业,应鼓励领域内竞争和创业 [19] - 百度指出DeepSeek存在处理单一文本、幻觉率高、响应速度慢和API价格高等局限性 [19][20]