机器之心

搜索文档
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
机器之心· 2025-06-08 16:21
强化学习在大语言模型中的应用 - 强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力,DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型证明了其有效性 [1] - 实现有效强化学习需要解决信用分配问题,即如何将序列最终的评估结果归因到具体的决策动作(token)上 [2] - 信用分配问题的困难在于奖励信号非常稀疏,只能在序列结束时获得明确的成功或失败反馈 [3] 当前主要方法 - 强化学习中通常采用优势值估计(advantage estimation)方法解决信用分配问题,针对大语言模型的方法分为两类 [5] - 粗粒度的轨迹级方法(如 GRPO)根据最终奖励为整个序列计算优势值,高效但反馈信号过于粗糙 [6] - 细粒度的 token 级方法(如 PPO)为每个 token 估计优势值,但需要额外 critic 模型且估计误差大 [6] SPO 框架 - 中科院软件所和香港城市大学团队提出 Segment Policy Optimization (SPO) 框架,采用中等粒度的段级优势值估计方式 [8][11] - SPO 框架具有三大优势:更优的信用分配、更准确的优势值估计、更灵活易调整的粒度 [12] - SPO 框架包含三个核心部分:灵活的段级划分策略、基于蒙特卡洛采样的段级优势值估计、利用段级优势值进行策略优化 [13] SPO 框架的具体实例 - 针对短思维链场景提出 SPO-chain,使用基于切分点的段划分和链式优势值估计 [15] - 针对长思维链场景提出 SPO-tree,采用树形结构优势值估计方法提升 MC 采样效率 [15] - 提出 token 概率掩码策略优化方法,选择性对段内低概率 token 计算损失以强化信用分配 [16] SPO 框架核心技术 - 基于切分点的段划分(Cutpoint-based Partition)为短思维链场景设计,根据 token 概率动态确定段边界 [19] - 固定 token 数量段划分(Fixed Token Count Partition)为长思维链场景设计,便于树形结构组织和优势值估计 [19] - 链式优势值估计(Chain-based)方法在短思维链场景下独立估计每个段边界的 V 值 [22] - 树形优势值估计(Tree-based)方法在长思维链场景下通过自底向上的奖励聚合计算 V 值 [23] 实验结果 - 在短思维链场景(GSM8K 数据集),SPO 训练得到的模型测试集正确率高于基线方法 [29] - 在长思维链场景(MATH 数据集),SPO-tree 在相同训练时间下测试集正确率比 GRPO 更高 [31] - 与 GRPO 方法相比,SPO-tree 在短上下文长度(2K 与 4K)下表现更优,表明 GRPO 可能未有效优化 token 效率 [33] - 实验证明 SPO 采用中等粒度优势值有效,过粗粒度(int100)会导致正确率明显下降 [38] - token 概率掩码去除会导致 SPO-chain 正确率下降,应用到 GRPO 上则能提升其正确率 [40] 总结 - SPO 框架在 token 级和轨迹级之间更好平衡,具有比轨迹级更好的信用分配,且不需要额外 critic 模型 [42] - SPO-chain 和 SPO-tree 通过实验证明了其在短思维链和长思维链场景下的有效性 [43]
告别「失忆」AI!首个大模型记忆操作系统开源框架来了!
机器之心· 2025-06-08 11:45
该项目来自百家 AI,是北京邮电大学白婷副教授所指导的研究小组, 团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。 大语言模型受限于固定上下文窗口,长期对话中「失忆」、记忆断裂等问题频发,北邮 百家 AI 团队重磅推出首个大模型记忆操作系统开源框架 MemoryOS 。巧 妙融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块(存储、更新、检索、生成),提供全链路用户记忆管理方案,让 AI 智能体拥有 持久「记性」与深度「个性」 。 开源项目地址:https://github.com/BAI-LAB/MemoryOS 大型语言模型(LLMs)固定的上下文窗口如同狭窄的信息通道,导致 AI 在长期对话中频繁「失忆」, 常常导致记忆断裂、事实不一致,个性化交互体验也大打折 扣。现有提升 LLM 记忆能力的方法虽各有侧重(如知识提示、RAG 检索优化或模型参数驱动),但均缺乏一个统一的操作系统来对 AI 智能体的记忆进行系统 性、综合性的管理。 北邮百家 AI 团队突破性地提出记忆操作系统 MemoryOS ,旨在为 AI 智能体实现全面、高效的记忆管理。通过打造强大的「记忆操作 ...
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
语言模型对奖励噪音的鲁棒性研究 - 语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分奖励(如正确答案得0分,错误答案得1分),下游任务表现不受显著影响 [2] - 强化学习对下游任务的提升关键在于模型能否产生高质量的思考过程,而非奖励的绝对准确性 [2] - 仅通过奖励模型输出中关键思考词的出现频率(而非答案正确性),语言模型仍能取得高表现 [2] 思考模式奖励机制(RPR) - 设计极简奖励机制RPR,根据高频思考关键词(如"First, I need to"、"finally")的出现频次给予奖励 [6][7] - 仅使用RPR机制(不考虑答案正确性),Qwen-2-5-7B在MATH-500数据集上准确率从5%提升至70%以上 [11] - RPR可校准奖励模型输出,即使奖励模型准确率仅65%,校准后效果接近85%准确率模型的表现 [17] 奖励模型准确率与噪声耐受性 - 当奖励模型准确率超过75%时,不同模型训练结果的主观评测得分相似 [14] - 奖励模型准确率低于75%时训练效果显著下降,65%准确率时表现大幅劣化 [14] - RPR校准可帮助较小模型(如Qwen-2-5-3B)避免训练崩溃,在复杂开放任务中展现良好解题思路 [20][21] 强化学习的核心作用 - 强化学习主要改变语言模型输出风格并形成良好思考模式,而非教授新知识 [22] - 预训练阶段的能力提升仍至关重要,因其构成下游任务表现的基础瓶颈 [23] - 实验显示Llama3因预训练阶段思考路径质量不足,表现和抗噪音能力显著弱于Qwen模型 [23]
数学宇宙二维破壁成功!四人组230页证明阿贝尔曲面镜像通道,大一统要实现了?
机器之心· 2025-06-08 11:45
数学突破与朗兰兹纲领 - 1994年Andrew Wiles证明费马大定理,揭示椭圆曲线与模形式的一一对应关系,开创数学领域"传送门"概念[2][3][11] - 2024年四位数学家将对应关系从一维椭圆曲线拓展至二维阿贝尔曲面,推动朗兰兹纲领实现"大一统理论"目标[4][5][14] - 模块化定理成为连接数论与分析学的核心工具,允许通过模形式镜像研究椭圆曲线性质[12][26] 阿贝尔曲面研究突破 - 团队证明普通阿贝尔曲面必然存在对应模形式,论文长达230页,解决曾被视为"不可能任务"的难题[16][29][45] - 采用"时钟算术"方法(以3为周期)匹配阿贝尔曲面与模形式的数字标签,突破构建严格对应关系的障碍[36][38] - Lue Pan的模形式研究意外成为关键技术支持,团队通过Zoom协作和集中攻关最终完成证明[43][44] 学术影响与未来方向 - 突破直接助力解决贝赫和斯维讷通-戴尔猜想等悬而未决难题,并为阿贝尔曲面版猜想提供理论基础[23][46] - 团队计划将成果扩展至非普通阿贝尔曲面,预计十年内覆盖绝大多数类型[45] - 该研究催生新数学分支,类比Wiles证明后引发的学科革新,改变数论研究范式[20][27] 技术方法论 - 通过限制研究范围(普通阿贝尔曲面)和弱化匹配条件(时钟算术)降低证明复杂度[34][38] - 利用高维模形式的对称性优势处理阿贝尔曲面三维解的复杂性,复刻并升级Wiles的证明路径[28][33] - 跨学科协作(数论与模形式)和长期坚持(2016-2024年)是突破的关键因素[32][44]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-08 06:35
大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]
AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么?
机器之心· 2025-06-07 15:00
Mary Meeker的新报告探讨了哪些重要趋势 - Mary Meeker是科技领域著名分析师,曾领导摩根士丹利TMT团队并准确预测多个重大趋势如在线广告超越印刷广告、移动互联网主导地位等 [4][5] - 其2025年发布的《人工智能趋势报告》全面汇总全球AI产业最新进展,剖析AI未来趋势及对全球格局的深远影响 [5] - AI技术重塑世界的速度远超历史任何技术革命,例如ChatGPT在17个月内用户达8亿,增速前所未有 [7] - 领先芯片制造商生态系统的开发者数量从2005年几乎为零激增至2025年约600万,呈现指数级增长 [7] - 美国六大科技公司(苹果、英伟达等)2025年AI相关资本开支超2000亿美元 [7] - 全球互联网普及为AI提供庞大用户基础和数据来源,例如SpaceX的Starlink项目推动AI技术全球普及 [8] - 新兴AI公司(如DeepSeek、Alibaba Qwen)与传统科技公司在创新、产品发布等方面竞争激烈 [8][9] - 中美在AI领域的技术研发、人才争夺和市场份额竞争推动全球AI技术快速发展 [9] AI模型训练成本狂飙,推理成本却暴跌 - 计算AI成本揭示技术发展中的经济压力和可持续性问题,推理成本变化影响行业竞争格局 [10] AI如何重塑物理世界 - AI与物理世界融合加速,已在医疗、教育、金融等领域重塑行业未来 [9] AI让全球互联网用户增长驶入超车道 - 互联网与AI相辅相成,AI技术普及推动用户行为变革,例如ChatGPT快速获客能力 [7][8] AI如何重塑人类生存法则 - AI产业面临双重压力,货币化进程带来新威胁,同时推动产业升级和创新发展 [9]
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
机器之心· 2025-06-07 11:59
产品发布与市场反响 - 爱诗科技推出国内版AI视频生成工具「拍我 AI」,该产品为全球热门应用PixVerse的本地化版本,已登陆各大应用商店并提供网页端深度体验[4] - 产品上线前已引发国内用户强烈期待,后台收到大量催上线私信,反映出市场对高质量AI视频工具的需求[2][12] - 海外版PixVerse已积累6000万全球用户,月活达1600万,曾位列美国应用总榜第四并登顶视频类应用榜首[13][14] 产品功能与技术特点 - 提供上百种模板支持一键生成同款视频,大幅降低创作门槛,适合新手用户快速上手[6] - 专业功能包括首尾帧控制、多主体合成、运镜设计、视频重绘等,支持短片及电影级创作[8][30][39][40] - 首创5秒内视频生成速度,实测各项指标拉满时生成时间仍不超过1分钟,显著优于行业水平[44] - 底层模型迭代迅速,从V2到V4.5平均每两月更新一版,国内外版本均搭载最新V4.5模型[45] 市场表现与行业地位 - PixVerse上线30天即实现百万访问量,2024年4月达成88天1000万次视频生成的里程碑[17] - 通过病毒式传播的创意模板实现破圈,典型案例包括科目三舞蹈、吉卜力风格等流行内容[18][24][27] - 在专业创作者群体中建立口碑,用户评价显示其渲染稳定性、动作逼真度及运镜功能显著优于竞品[15] 公司战略与竞争优势 - 采用「好玩+好用」双轨策略:降低普通用户参与门槛,同时满足专业创作者高阶需求[49][50] - 形成用户生态良性循环:普通用户模仿专业作品,专业创作者汲取大众创意灵感[51] - 作为成立仅两年的中国初创公司,在视频生成赛道已具备与OpenAI、谷歌等巨头竞争的实力[17] 行业影响 - 产品国内上线将加剧AI视频生成赛道竞争,为行业树立功能丰富度与生成速度的新标杆[47] - 已验证的全球市场成功模式(6000万用户基础)有望在国内复制,可能改变视频创作生态格局[52]
没想到,最Open的开源新模型,来自小红书
机器之心· 2025-06-07 11:59
机器之心报道 编辑:杨文 迄今为止行业最大的开源力度。 在大模型上向来低调的小红书,昨天开源了首个自研大模型。 该模型名为 dots.llm1,是小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队研发的文本大模 型。 它的参数不算最大,总参数量 142B,激活参数 14B,是一款中等规模的 MoE(Mixture of Experts)模型, 不过它仍在较小激活量下展现出了良好性能。 具体来说,在激活 14B 参数的情况下,dots.llm.inst 模型在中英文通用场景、数学、代码、对齐任务上的表 现亮眼,与 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具备较强的竞争力。同时与 Qwen3-32B 相 比,在中英文、数学、对齐任务上表现接近。 | | Benchmark (Metric) | | Qwen-2.5 Qwen-2.5 Qwen-3 | | Qwen-3 | | DeepSeek DeepSeek gpt4o dots. 11m1 | | | | --- | --- | --- | --- | --- | --- ...