强化学习
搜索文档
梁文锋和杨植麟再“撞车”
创业家· 2025-05-07 17:57
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
机器之心· 2025-05-07 12:34
| 机器之心报道 | | --- | 编辑:蛋酱、泽南 本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B 。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。有人表示期待 DeepSeek R1 风格的训练方法用来提升代码效率已久,这回终于有人站出来了。 在一篇博客中,Cognition AI 详细介绍了新模型强化学习训练的机制。 代码是一个不断迭代的过程 —— 需要我们编写、执行程序,评估结果,并根据反馈优化代码。大语言模型(LLM)在代码生成方面的最新进展尝试将此过程融入 推理阶段,并使用并行采样等方法。虽然这些方法是有效的,但它们依赖于搜索而非实际学习 —— 在这其中模型权重被冻结。 Cognition AI 探索了多轮强化学习,使用来自环境的中间反馈,并屏蔽模型思维以避免在多轮训练中上下文爆炸。 他们提出的模型 Kev ...
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
强化学习范式革新 - 强化学习(RL)成为AI模型性能提升的新范式 尤其体现在DeepSeek-R1和R1-Zero模型的突破性进展上 [2][3][20] - 传统预训练Scaling Law面临数据耗尽危机 Ilya Sutskever预测互联网数据作为预训练燃料的时代即将终结 [16][19] - 模型改进形成三支柱框架:预训练Scaling 测试时间计算(TTC) Scaling 强化学习微调Scaling 其中RL可形成自我改进闭环 [25][26] DeepSeek技术路径 - 创新性采用GRPO(组相对策略优化)替代PPO 移除价值模型和复杂奖励系统 计算开销降低50% [44][45][46] - R1-Zero完全摒弃监督微调(SFT) 通过硬编码验证器实现纯强化学习训练 但输出可读性差 [35][37] - R1模型分四阶段优化:冷启动SFT→GRPO→拒绝采样SFT→RL微调 平衡推理能力与人类可读性 [52][54][56] 去中心化应用潜力 - 训练场(Training Grounds)模块最具去中心化价值 可分布式生成数学/物理/编程等领域的验证型推理数据 [73][74][77] - PETALS框架实现模型层分布式托管 支持8位量化通信 176B参数模型可在消费级GPU协作推理 [92][94][98] - RL Swarm架构实现策略模型P2P协作学习 在Qwen-2 5B模型实验中输出质量提升30% [102][103][104] 硬件与算法协同 - FP8量化技术大幅降低内存需求 4000系以上NVIDIA显卡可支持 促进异构硬件参与 [84][87][89] - DiPaCo路径分片技术使MoE模型训练分布式成为可能 150M参数路径可匹配13B密集模型效果 [99][101] - 模块化专家系统(如HDEE)预示未来方向 异构领域专家可并行训练后集成 [106][107] 行业生态演进 - Hugging Face启动Open R1项目 旨在完全开源复现R1技术栈 [109] - Prime Intellect通过SYNTHETIC-1项目尝试分布式复制R1训练流程 [109] - 谷歌DeepMind与哈佛合作证明8位量化PPO训练速度提升1 5-2 5倍 [87]
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 12:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
OpenAI放弃营利性转型!奥特曼:非营利组织继续掌控;关税重压下Temu停运中国直邮美国商品;英伟达再推中国特供版AI芯片
雷峰网· 2025-05-06 08:29
跨境电商与关税政策 - Temu因美国130%-150%进口关税压力,宣布停止向美国出口中国产品,全托管链接大规模下架,转为本地卖家供货模式[5] - 美国海关T86政策取消小额包裹关税豁免,2025年5月起中国输美货物需全额报关缴税[5] - Temu美国站全托管卖家4月26日起遭遇商品下架,部分店铺下架比例超50%,截至4月30日全托管业务近乎停摆[6] 新能源汽车行业动态 - 哪吒汽车App及官网因流量欠费导致五一期间瘫痪,2023年销量下滑后暴露经营困境,2024年10月被曝裁员、拖欠货款[8][9] - 小米、华为、理想等车企集体将"智驾"宣传改为"辅助驾驶",门店话术显著调整[10][11] - 蔚来调整天津和大连区域总经理,乐道渠道架构加速融合,人事变动频率加快[11][12] 人工智能与大模型进展 - DeepSeek推出6710亿参数数学定理证明模型Prover-V2,月之暗面同期发布Kimina-Prover,两者均采用强化学习技术[12][13] - OpenAI放弃营利性转型计划,维持非营利架构,强调AGI造福全人类使命不变[18][20] - 英伟达开发中国特供版AI芯片以应对出口限制,样品预计6月交付测试,H20芯片遭禁售或致55亿美元损失[20][21] 互联网与科技企业动向 - 小红书内测"种草直达"功能,计划开放广告跳转至天猫的外域合作[14] - 蚂蚁集团考虑分拆蚂蚁国际在香港上市,该板块收入占集团20%[14] - 小米高管许斐新任国际市场部总经理,雷军职务调整为董事,经营范围新增智能家居销售[15][16] 国际科技产业动态 - 特斯拉内部曾建议马斯克采用SpaceX模式挂名CEO,但遭其拒绝[22] - AMD放弃三星4纳米工艺合作,三星代工因3纳米良率问题丢失高通、英伟达订单[22][23] - Instagram创始人批评AI公司过度追求用户互动指标,忽视答案质量[23][24] 零售与消费电子 - 淘宝闪购提前4天全国上线,整合饿了么资源后订单激增,奈雪首日订单增长200%[9] - 苹果库克回应Siri个性化功能延迟,强调需打磨品质,计划一年内推出[25] - 沃尔沃旗下NOVO Energy因合作伙伴破产裁员50%,调整运营规模[25]
梁文锋和杨植麟再“撞车”
华尔街见闻· 2025-05-05 20:26
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿规模增长近百倍,在miniF2F测试通过率达88.9%,解决普特南测试49道题 [3] - 月之暗面同期推出形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F测试通过率80.7%,普特南测试解决10道题 [3] - 两家公司技术报告均采用强化学习方法,DeepSeek通过子目标分解推进数学推理,月之暗面基于强化学习技术构建形式推理模型 [4] - DeepSeek模型矩阵同步进化,Prover系列从2024年3月发布后历经三次升级,代码系列Coder从2024年4月起完成五次迭代至V3-0324版本 [10] 行业竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量仅为R1的1/3但性能全面超越,阿里已开源200余个模型全球下载超3亿次 [19] - 百度发布文心4.5 Turbo和X1 Turbo,性能更强成本更低,计划6月开源文心大模型4.5系列 [19][21] - 月之暗面Kimi用户增长受挑战,腾讯元宝通过微信引流和14亿元投流费用超越Kimi成为月活第三的AI产品,Kimi月活2000万不及豆包5600万 [16] - 华为昇腾芯片被传用于DeepSeek R2模型研发,但行业人士指出其训练效果一般且生态系统不完善,更适合推理部署 [14] 技术发展路径 - DeepSeek押注数学/代码、多模态和自然语言三大AGI实现路径,认为数学和代码是封闭可验证系统,可能通过自我学习实现高智能 [9] - 推理大模型R1价格低廉且性能强劲,Prover-V2以DeepSeek-V3为基础模型进行微调,利用子目标分解和思维过程链强化推理能力 [12] - 算法专家指出R2可能侧重强化学习能力提升,研发周期较短,而V4将涉及预训练工程和方法变革,研发周期更长 [13] 市场动态 - 中国AI原生APP月活排名变化:DeepSeek以1.94亿居首,豆包1.16亿次之,腾讯元宝0.42亿超越Kimi成为第三 [16] - 行业观点认为中国需要2-3个世界领先大模型而非单一明星企业,应鼓励领域内竞争和创业 [19] - 百度指出DeepSeek存在处理单一文本、幻觉率高、响应速度慢和API价格高等局限性 [19][20]
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 11:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]
梁文锋和杨植麟再“撞车”
虎嗅APP· 2025-05-04 16:29
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿增长近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [2] - 月之暗面同期发布形式化定理证明模型Kimina-Prover,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试成绩10道题,性能逊于DeepSeek-Prover-V2 [2] - 两家公司技术均采用强化学习方法,DeepSeek侧重子目标分解,月之暗面聚焦形式推理 [3] 公司竞争动态 - DeepSeek面临阿里巴巴开源模型追赶,市场期待其发布R2或V4模型巩固优势 [4] - 月之暗面Kimi受字节跳动豆包和腾讯元宝挑战,豆包月活5600万领先Kimi的2000万(2024年11月数据),2025年2月DeepSeek以1.94亿月活反超豆包1.16亿 [12] - 腾讯元宝通过微信引流和14亿元投流费用(一季度数据),月活达4200万超越Kimi [13] 技术路径与产品矩阵 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - DeepSeek模型矩阵同步进化:Prover系列2024年3月首发,2025年4月升级至V2;代码模型Coder迭代至V3-0324;通用推理模型R1性能比肩OpenAI o1 [8] - Prover-V2基于DeepSeek-V3微调,采用子目标分解与思维链合成技术 [9] 行业格局与挑战 - 阿里巴巴发布通义千问Qwen3,参数量为DeepSeek-R1的1/3但性能全面超越,开源模型全球下载量超3亿次 [14] - 百度推出文心4.5 Turbo和X1 Turbo,批评DeepSeek存在多模态缺失、幻觉率高、响应慢及成本高问题,但计划6月跟进开源策略 [15][16] - 行业观点认为中国需多个领先大模型而非单一明星公司,鼓励竞争推动技术发展 [14]
机器人领域新突破!顶刊《IJRR》近期重磅论文概述
机器人大讲堂· 2025-05-03 16:04
机器人学术研究前沿 - 新型低型软体旋转气动执行器采用纤维增强弹性体结构和精确分析模型,解决了传统设计体型庞大和建模不准确的问题,实验误差控制在20%以内[1][2][4] - THÖR-MAGNI数据集包含5类场景和40名参与者的多模态数据,支持长期行为预测和复杂避障交互研究,数据量达3.5小时[6][7][11][14][15][17] - FMB基准测试平台提供66种3D打印物体和22,500条人类演示轨迹,验证了多模态数据对任务成功率的提升效果[18][19][20][22][24][26] 机器人操作与控制技术 - 双臂机器人操作可变形线性物体的框架结合全局规划和局部控制,在仿真和真实实验中实现100%成功率,执行时间<60秒[27][28][30][31][34][37] - 大规模异构多机器人系统实时规划方法采用规划决策树结构,任务分配复杂度仅为O(n),在200个任务状态下规划时间仅16.4秒[38][39][40][42][43][45][47] - 强化学习双足机器人控制框架实现多技能统一控制,在Cassie机器人上完成400米冲刺和0.47米高跳等复杂动作[58][60][61][62][64] 人机交互与学习 - 学习与通信闭环框架通过多模态接口提升人机协作效能,AR+触觉方式使任务正确预测率达100%[48][50][51][53][54][55][57] - 机器人操作研究面临物理复杂性和泛化能力不足的挑战,需要兼顾复杂任务和广泛适应性的解决方案[19][28][39]
OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到
量子位· 2025-05-03 12:05
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4o更新后"变谄媚"?后续技术报告来了。 OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。 CEO奥特曼也做足姿态,第一时间转发小作文并表示: (新报告) 揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。 概括而言,最新报告提到,大约一周前的bug原来出在了"强化学习"身上—— 上次更新 引入了一个基于用户反馈的额外奖励信号 ,即对ChatGPT的点赞或点踩。 虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。 此外,尽管还没有明确证据,但 用户记忆在某些情况下也可能加剧奉承行为的影响。 一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得"谄媚"。 而在看到这篇报告后,目前大多数网友的反应be like: (你小汁) 认错态度不错~ 甚至有人表示,这算得上OpenAI过去几年里最详细的报告了。 具体咋回事儿?接下来一起吃瓜。 完整事件回顾 4月25日,OpenAI对GPT-4o进行了一次更新。 在官网的更新日志中,当时提到 ...