Workflow
强化学习
icon
搜索文档
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
量子位· 2025-06-22 12:46
产品技术 - 灵初智能推出自研灵巧手,每只手21个自由度,支持16主动自由度,具备高精度操作能力,远超常见的6自由度抓取器 [1][2] - 人类一只手27个自由度,特斯拉Optimus Gen-3灵巧手22个自由度,21个自由度意味着机械结构复杂,硬件制造难度高 [3] - 灵巧手在夹持、旋转、精准插拔等精细操作上能力突出,能完成转笔、翻书、调方向等高自由度操作 [1][10] - 公司采用分层端到端快慢脑架构技术路线,快脑S1专注操作,慢脑S2专注推理规划,通过Action Tokenizer隐式连接 [22] - 推出分层端到端VLA+强化学习算法模型Psi-R1,结合历史动作与环境状态,理解动作长期影响,避免误差积累 [22] 团队背景 - 首席科学家杨耀东是北京大学人工智能研究院助理教授,强化学习领域知名学者,曾带领团队获NeurIPS 2022具身灵巧操作冠军 [13] - 联合创始人陈源培师从李飞飞和Karen Liu,曾首次实现强化学习在真实世界同时控制双臂、双手多技能操作 [14] - 团队在机器人领域采用强化学习冷启动训练,解决高自由度训练难度大、开放场景长程任务误差累积、跨任务泛化能力差等挑战 [15][16][17][18][19][20][21] 商业模式 - 目标将机器人整机价格打到10000美元(约71885元)级别,对标特斯拉Model 3定价策略 [3][29] - 自研灵巧手不单卖,采用软硬件深度耦合策略,所有硬件为算法、模型服务,强调系统闭环与数据链条完整性 [26][27] - 整机采用轮式+双手设计,紫色外观,动作系统迭代至Psi-R1,数据逐步积累,任务交付以ToB为主,聚焦3C制造和仓储物流 [4][29][39] 行业对标 - 借鉴特斯拉Model 3产业破局之路,通过降低价格、提升体验推动出货量增长,Model 3累计销量超百万辆 [32][33][34] - 特斯拉硬件+FSD+数据生态一体化构建护城河,灵初智能同样强调可靠硬件平台、一体化软件体验与数据回传机制 [35][36] - 预计2030年硬件成本降至10万元人民币级,单场景出货量突破百万台将触发生态爆发 [37][38]
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]
VR-Robo:real2sim2real,机器人视觉强化学习导航和运动控制新范式!
具身智能之心· 2025-06-20 08:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Shaoting Zhu等 编辑丨具身智能之心 近年来,得益于强化学习与高性能仿真器的结合,足式机器人在自主运动控制方面取得了显著进展。然 而,当这些策略部署到现实世界中时,往往因"仿真到现实(Sim-to-Real)"存在差异而表现不佳。现有方 法难以复现真实场景中的复杂几何和视觉细节,限制了基于视觉感知的高层次任务(如目标导航)的开 展。为解决这一难题,我们提出了VR-Robo:一个面向足式机器人视觉导航与运动控制的"真实-仿真-真实 (Real-to-Sim-to-Real)"统一框架。 作者单位包括清华大学、普林斯顿大学、星海图、上海期智研究院和上海交通大学。 项目主页/代码(现已开源):https://vr-robo.github.io/ 相关工作 以往研究为缩小Sim-to-Real差距做了大量探索。包括: 但这些方法多依赖特定传感器,难以在高保真渲染和真实几何建模之间取得平衡。此外,许多方法仅支持 低层次的运动控制,尚未形成完整的感知-理解-行动闭环。 解决方案 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术 ...
小鹏想要的,不止“留在牌桌上”
虎嗅APP· 2025-06-20 07:55
出品丨虎嗅汽车组 作者丨李赓 头图丨视觉中国 在所有造车新势力中,今年1-5月依旧保持高速增长的只有两家:小鹏和零跑。 两家车企的销量都保持了大幅的提升 (1-5月零跑相比去年同期增长161%,小鹏增长293%) ,今年 一季度的营收也实现了大幅增长 (零跑同比增幅187%,小鹏同比142%) ,净亏损则实现了大幅的 收窄 (零跑净亏损缩小87%,小鹏净亏损缩小52%) 。除去数据上的略微不同,更加不同的是两家 心态的外露。 零跑依旧保持了自己不怎么开发布会不怎么大力做营销的状态 (今年正式发布会也就两场,而且全 是车型更新) ,而去年刚"触底反弹"的小鹏显然更加"珍惜"市场给的又一次机会,在方方面面都选 择了投入到"极点",几乎每个车型都要按着"曝光、预热、预发布、实际发布、会后沟通"的充分流程 走下来,更是在一众车企中罕见地结合产品发布会搞了几次针对实际车主的品牌文化活动。 就拿4月中,上海车展开幕前夕的关键时刻,何小鹏就跑到了香港去,不仅豪横地再次定下了香港启 德邮轮码头的场地 (2021赴港上市,也是这块场地) ,请了近500家中外媒体看新款X9发布。在主 活动之外,小鹏还在香港独立地举办了两场媒体沟 ...
小鹏想要的,不止“留在牌桌上”
虎嗅· 2025-06-20 07:13
销量与财务表现 - 零跑和小鹏1-5月销量同比分别增长161%和293%,一季度营收同比分别增长187%和142%,净亏损分别收窄87%和52% [2] - 两家车企营销策略差异显著:零跑保持低调仅举办两场车型发布会,小鹏则采用高强度营销流程包括多阶段产品发布和车主文化活动 [2][3] 产品策略与市场定位 - 小鹏MONA M03以10万元定价实现销量占比超50%,核心优势为620公里CLTC续航(实际450-500公里)、智能泊车等刚需配置,同时削减非核心功能如后桥扭力梁悬架、热泵空调等控制成本 [7][8][9][10][11] - 产品调整高效:小鹏在6-8个月内完成滴滴C1车型改造,通过用户需求调研优化配置,形成差异化竞争力 [12] 用户画像与营销创新 - MONA M03女性用户占比达38.6%(行业平均21.3%),年轻化(平均28.5岁)和未婚用户(76.5%)特征显著,通过白色内饰等快速响应提升女性占比至50% [18][19][20][21] - 营销活动精准定位:邀请欧阳娜娜等明星强化新手司机视角,打造"MONA小镇"场景化展示,发布会风格年轻化 [23][24][25] 技术研发与自动驾驶 - 小鹏自研"图灵AI芯片"单颗算力超700TOPS,G7搭载3颗实现2200TOPS算力,远超行业主流300TOPS配置,目标验证自动驾驶领域Scaling Law效应 [27][30][31] - 基座大模型采用思维链推理(CoT)技术,已训练720亿参数模型,累计处理2000万条30秒视频数据,结合强化学习实现自动驾驶能力持续进化 [36][40][42] - 实际路测显示复杂场景处理流畅,如无保护左转、多车道变道等,计划通过OTA升级将点对点智驾成功率提升至70% [44][45][47][48] 公司战略与行业竞争 - 小鹏明确"卷科技"路线,避免与传统车企价格战,聚焦智驾和AI技术差异化 [26][27] - 通过引入传统汽车人才优化供应链和成本控制,为技术创新提供支撑,目标建立体系化能力而非依赖单一爆款 [50][51]
羽毛球机器人如何“看得清”“动得准”?(创新汇)
人民日报· 2025-06-20 05:51
机器人技术突破 - 瑞士苏黎世联邦理工学院研发的新型足式机器人系统能够仅凭机载感知设备预测羽毛球飞行轨迹、调整自身位置并精确完成击球动作[2] - 该机器人展示了足式机器人执行复杂、动态、由感知驱动任务的能力,为整合机器人高速感知和全身协调能力提供新思路[2] - 研究团队选择羽毛球作为实验对象,通过设置不同难度击打目标渐进式检验和提升机器人性能[2] 感知与运动协调技术 - 研究团队开发感知噪声模型量化机器人运动状态对目标追踪影响,使机器人能适应动态模糊、目标遮挡等干扰[3] - 机器人可基于历史运动轨迹持续预测目标位置,并主动调整身体俯仰角度优化追踪效果[3] - 通过基于强化学习的统一控制框架,同步协调机器人周身18个关节运动,自主调整步态和击球方式[3] 性能表现与改进方向 - 机器人在测试条件下可与人类对手进行10次连续对打,对球场中心区域的球达到近100%拦截成功率[3] - 目前机器人从发现击球到挥拍动作平均需约0.35秒,感知和反应能力仍有提升空间[4] - 计划通过集成更多传感器、融合多种传感模式并优化视觉算法进一步升级性能[4] 应用前景与行业影响 - 该技术未来可应用于灾难响应、人机协作等需要快速响应和全身协调的复杂场景[4] - 足式机器人具有更强通用性,能适应更广泛应用场景,与人工智能技术融合将具备强大感知和操作功能[5] - 随着技术进步和成本下降,足式机器人将在工业、休闲娱乐、居家生活、养老照护等领域获得广泛应用[5]
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
机器之心· 2025-06-19 17:30
核心观点 - 推荐系统正经历由大型语言模型(LLM)驱动的生成式革命,端到端架构成为解决传统级联架构瓶颈的关键[2] - 快手提出的OneRec系统首次实现端到端生成式推荐全链路重构,在效果与成本上实现双赢[2][8] - OneRec已在快手双端应用,承接25% QPS,提升停留时长0.54%/1.24%,LT7显著增长[2][33] 技术架构创新 - **架构设计**:采用Encoder-Decoder框架,将推荐转化为序列生成任务,Encoder压缩用户行为序列,MoE架构Decoder实现参数扩展[6][11] - **多模态分词**:首创协同感知方案,融合视频标题、标签、语音转文字等多维信息,分层语义编码(RQ-Kmeans三层ID)[13][14] - **强化学习整合**:通过P-Score奖励模型(个性化融合目标预测值)和ECPO优化算法,提升用户停留时长而不损失曝光量[19][22][25] 性能与效率突破 - **算力利用率**:训练/推理MFU提升至23.7%/28.8%,较传统精排模型(4.6%/11.2%)提升3-5倍[27][31] - **成本优化**:OPEX降至传统方案的10.6%,关键算子数量压缩92%至1,200个[27][31] - **训练加速**:自研SKAI系统优化Embedding训练,UGMMU减少kernel数量,时间加权LFU算法提升缓存效率[36] 实验效果 - **短视频场景**:AB测试显示停留时长提升0.54%/1.24%,LT7增长0.05%/0.08%,交互指标全面正向[33] - **本地生活场景**:GMV增长21.01%,订单量提升17.89%,新客获取效率提高23.02%,已100%全量上线[34] - **Scaling Law验证**:参数规模从0.015B增至2.633B时,训练损失显著下降,符合大模型扩展规律[15] 未来方向 - **多模态桥接**:需构建用户行为与LLM/VLM的原生融合架构[38] - **奖励系统完善**:当前设计较初级,需强化对用户偏好和业务需求的引导[38] - **推理能力提升**:Infer阶段Scaling能力不足,需进一步优化[38]
从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我” | AGI 技术 50 人
AI科技大本营· 2025-06-19 09:41
吴翼的职业发展路径 - 高中时期获得全国青少年信息学奥林匹克竞赛金牌并代表中国参加国际竞赛[2] - 保送清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[2] - 本科期间在微软亚洲研究院和Facebook实习[2] - 2014年赴加州大学伯克利分校攻读人工智能博士学位,师从Stuart Russell[4] - 博士毕业后加入OpenAI担任研究员,参与多智能体捉迷藏项目[4][5] - 2020年回国任清华大学交叉信息研究院助理教授[5] - 2023年创办边塞科技,探索大语言模型与强化学习结合[6] - 2024年与蚂蚁技术研究院合作推出开源强化学习系统AReaL[6] 强化学习技术发展 - OpenAI多智能体捉迷藏项目展示复杂行为通过简单规则自发涌现,成为观看量最高的研究视频之一[5] - AReaL系统专为大规模推理模型设计,优化强化学习训练效率与灵活性[6][18] - 推理模型通过"thinking token"机制提升准确性,强化学习成为关键训练工具[18] - 与RLHF相比,AReaL更关注提升模型推理能力而非行为调优[21] - 大模型时代强化学习面临新挑战:模型规模增长1000倍,计算需求剧增[23] - 训练系统效率成为关键瓶颈,开源系统价值可能超过开源模型[32] AI行业趋势与挑战 - 创业公司面临极短时间窗口,错过关键节点可能导致失败[12] - 模型分化趋势:大而强的高成本模型与轻量化高效小模型并存[31] - 强化学习三要素中系统门槛最高,数据质量次之,算法相对次要[30] - 多智能体系统发展缓慢,部分任务仍需多模型协作[42] - 个性化交互成为AI产品核心竞争力,需适配不同用户类型[37] - 模型"幻觉"问题亟待解决,需建立不确定性认知机制[38][39] 技术突破方向 - 记忆表达与个性化交互是未来重要发展方向[40] - 强化学习Scaling Law仍将持续,后训练阶段提升空间显著[26] - 垂类模型在细分领域深度优化,如代码生成等场景表现突出[26] - 产品+强化学习组合仍是重要方向,生态可能呈现多层次结构[28] - 人机协作场景需AI更好理解人类意图,减少主动打扰[37]
【广发金工】强化学习与价格择时
强化学习在量化投资中的应用 - 强化学习通过试错机制最大化累计奖励,适合构建择时策略,而常规深度学习主要用于固定窗口期的股价预测或因子挖掘[1][6][7] - Double Deep Q-Network(DDQN)模型结合深度学习和强化学习,用于A股指数和个股的择时应用[2][8] - 择时策略采用10分钟频量价数据,模型每10分钟输出买入/卖出信号,遵循t+1交易规则[2][75] 强化学习基本概念 - 强化学习包含状态、动作、状态转移、策略、奖励、轨迹和回报等基本要素[9][12][13][22][27][28] - 状态价值衡量策略在特定状态下的预期长期回报,动作价值衡量特定状态下采取动作的回报期望值[41][43] - 贝尔曼方程和贝尔曼最优方程从理论上定义了最优状态价值和最优策略的关系[46][48] 时序差分法与Q-Learning - 时序差分法结合动态规划和蒙特卡罗方法,实现单步更新和在线学习[49][50] - SARSA是on-policy方法,基于当前策略实际动作更新Q值,而Q-Learning是off-policy方法,基于最大Q值更新[52][54] - DQN利用神经网络近似动作价值函数,解决大规模问题,DDQN通过分离动作选择和评估缓解高估问题[59][62] 基于强化学习的价格择时策略 - 策略定义包括限价订单、订单簿、OHLCV、技术指标、持仓和净值等概念[63][64] - 状态由单步特征、上下文特征和持仓状态组成,动作包括买入、卖出等决策,奖励为净值差[65][66] - 实证分析显示,在2023-2025年样本外测试中,策略在沪深300ETF、中证500ETF、中证1000ETF和个股上分别跑赢基准10.9%、35.5%、64.9%和37.8%[3][75][77][80][83] 总结与展望 - 强化学习在量化投资领域展现出构建择时策略的潜力,但仍面临稳定性不足等挑战[85][86] - 未来研究将探索更多强化学习算法以构建性能更优越的策略[86]