Workflow
机器之心
icon
搜索文档
最新!Ilya现身多大毕业演讲:AI会完成我们能做的一切
机器之心· 2025-06-09 12:11
机器之心报道 机器之心编辑部 大脑是一台生物计算机,数字计算机又有什么不同呢? 6 月 6 日,许久没有露面的 Ilya Sutskever 出现在了多伦多大学的校园里,接受母校授予他的荣誉理学博士 学位。 自去年宣布离开 OpenAI 之后,Ilya 鲜少出现在公众视野,社交媒体动态也很少更新,所以很多人都问 「Ilya 去哪儿了」?他创办的新公司 —— 安全超级智能(safe superintelligence,SSI)也非常神秘,大家只 有一个模糊的印象,即该公司业务围绕着开发一个安全、强大的超级智能系统展开。 回顾 Ilya 的学生生涯,他于 2005 年以数学荣誉理学学士学位(honours bachelor of science in mathematics) 毕业,随后继续深造,在多伦多大学先后取得计算机科学硕士学位和博士学位,师从图灵奖、诺贝尔物理 学奖得主 Hinton。 这次颁发的学位是为了表彰 Ilya 作为计算机科学家和人工智能领域先驱所做的基础性工作及全球影响力, 以及他在倡导安全、负责任的人工智能方面作出的杰出贡献。 仪式之后,Ilya 还在多伦多大学做了一场演讲。他指出,我们正生 ...
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
机器之心· 2025-06-08 16:21
核心观点 - 琶洲实验室与华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),在128K超长序列任务中推理速度达标准自注意力机制的7.9倍,键值缓存显存占用减少93% [1][3] - CCA-Attention通过全局池化注意力与局部保留注意力的协同设计,在降低计算量的同时保持长距离依赖建模能力,且无需修改模型结构或引入额外参数 [7][9] - 该方法在LLaMA2-7B模型上的实验显示,64K上下文长度下推理速度提升5.7倍,128K任务中KV Cache显存减少93% [26] 技术原理 - **全局感知池化模块**:将输入序列分组后提取核心token,将注意力计算维度从n降至m,实现线性计算复杂度 [12][14] - **局部保留模块**:确保每个token关注前w个原始token,捕捉细粒度局部上下文,与全局模块互补 [15] - **可微融合策略**:组合全局与局部模块的键值矩阵,形成统一注意力输出,保持完整可达性 [16][17] 性能优势 - 在LLaMA2-7B-80K模型上,LongBench-E基准测试平均得分22.24,优于StreamingLLM(14.94)和LM-Infinite(21.20) [22] - 多文档问答任务中,128K上下文长度下EM得分32.0,超越标准自注意力(30.3),推理延迟仅15.89秒(标准方法124.85秒) [24] - 基于Triton的底层加速实现端到端优化,预填充与解码阶段效率同步提升 [18] 行业对比 - 相比DeepSeek NSA需引入压缩模块和重新训练,CCA-Attention可直接替换现有注意力模块 [9] - 对比Kimi MoBA的块丢弃机制,CCA-Attention通过动态聚合关键上下文保留全局建模能力 [9] - 计算效率显著优于MInference等现有方法,128K任务显存占用仅为标准自注意力的7% [26] 应用前景 - 适用于LLaMA2等主流大模型,仅需少量微调即可集成,具备即插即用特性 [13] - 在代码生成、长文档问答等需超长上下文场景中表现突出,128K序列处理速度提升近8倍 [23][26] - 研究成果已被ICML 2025接收,代码与论文已开源 [8]
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
机器之心· 2025-06-08 16:21
强化学习在大语言模型中的应用 - 强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力,DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型证明了其有效性 [1] - 实现有效强化学习需要解决信用分配问题,即如何将序列最终的评估结果归因到具体的决策动作(token)上 [2] - 信用分配问题的困难在于奖励信号非常稀疏,只能在序列结束时获得明确的成功或失败反馈 [3] 当前主要方法 - 强化学习中通常采用优势值估计(advantage estimation)方法解决信用分配问题,针对大语言模型的方法分为两类 [5] - 粗粒度的轨迹级方法(如 GRPO)根据最终奖励为整个序列计算优势值,高效但反馈信号过于粗糙 [6] - 细粒度的 token 级方法(如 PPO)为每个 token 估计优势值,但需要额外 critic 模型且估计误差大 [6] SPO 框架 - 中科院软件所和香港城市大学团队提出 Segment Policy Optimization (SPO) 框架,采用中等粒度的段级优势值估计方式 [8][11] - SPO 框架具有三大优势:更优的信用分配、更准确的优势值估计、更灵活易调整的粒度 [12] - SPO 框架包含三个核心部分:灵活的段级划分策略、基于蒙特卡洛采样的段级优势值估计、利用段级优势值进行策略优化 [13] SPO 框架的具体实例 - 针对短思维链场景提出 SPO-chain,使用基于切分点的段划分和链式优势值估计 [15] - 针对长思维链场景提出 SPO-tree,采用树形结构优势值估计方法提升 MC 采样效率 [15] - 提出 token 概率掩码策略优化方法,选择性对段内低概率 token 计算损失以强化信用分配 [16] SPO 框架核心技术 - 基于切分点的段划分(Cutpoint-based Partition)为短思维链场景设计,根据 token 概率动态确定段边界 [19] - 固定 token 数量段划分(Fixed Token Count Partition)为长思维链场景设计,便于树形结构组织和优势值估计 [19] - 链式优势值估计(Chain-based)方法在短思维链场景下独立估计每个段边界的 V 值 [22] - 树形优势值估计(Tree-based)方法在长思维链场景下通过自底向上的奖励聚合计算 V 值 [23] 实验结果 - 在短思维链场景(GSM8K 数据集),SPO 训练得到的模型测试集正确率高于基线方法 [29] - 在长思维链场景(MATH 数据集),SPO-tree 在相同训练时间下测试集正确率比 GRPO 更高 [31] - 与 GRPO 方法相比,SPO-tree 在短上下文长度(2K 与 4K)下表现更优,表明 GRPO 可能未有效优化 token 效率 [33] - 实验证明 SPO 采用中等粒度优势值有效,过粗粒度(int100)会导致正确率明显下降 [38] - token 概率掩码去除会导致 SPO-chain 正确率下降,应用到 GRPO 上则能提升其正确率 [40] 总结 - SPO 框架在 token 级和轨迹级之间更好平衡,具有比轨迹级更好的信用分配,且不需要额外 critic 模型 [42] - SPO-chain 和 SPO-tree 通过实验证明了其在短思维链和长思维链场景下的有效性 [43]
告别「失忆」AI!首个大模型记忆操作系统开源框架来了!
机器之心· 2025-06-08 11:45
该项目来自百家 AI,是北京邮电大学白婷副教授所指导的研究小组, 团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。 大语言模型受限于固定上下文窗口,长期对话中「失忆」、记忆断裂等问题频发,北邮 百家 AI 团队重磅推出首个大模型记忆操作系统开源框架 MemoryOS 。巧 妙融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块(存储、更新、检索、生成),提供全链路用户记忆管理方案,让 AI 智能体拥有 持久「记性」与深度「个性」 。 开源项目地址:https://github.com/BAI-LAB/MemoryOS 大型语言模型(LLMs)固定的上下文窗口如同狭窄的信息通道,导致 AI 在长期对话中频繁「失忆」, 常常导致记忆断裂、事实不一致,个性化交互体验也大打折 扣。现有提升 LLM 记忆能力的方法虽各有侧重(如知识提示、RAG 检索优化或模型参数驱动),但均缺乏一个统一的操作系统来对 AI 智能体的记忆进行系统 性、综合性的管理。 北邮百家 AI 团队突破性地提出记忆操作系统 MemoryOS ,旨在为 AI 智能体实现全面、高效的记忆管理。通过打造强大的「记忆操作 ...
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
机器之心· 2025-06-08 11:45
本文主要作者是吕昂和谢若冰。吕昂,中国人民大学博士生,研究方向为语言模型结构优化,导师为严睿教授;谢若冰,腾讯高级研究员,研究方向为大语言模 型、推荐系统。 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。 研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的 出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会 采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。 研究者还展示了基于思考模式的极简奖励如何有效校准奖励模型,从而在开放性 NLP 任务中增强语言模型的表现,并使较小的模型也能通过强化学习成功获得思 考能力。 论文地址:https://huggingface.co/papers/2505.22653 代码链接: ...
数学宇宙二维破壁成功!四人组230页证明阿贝尔曲面镜像通道,大一统要实现了?
机器之心· 2025-06-08 11:45
数学突破与朗兰兹纲领 - 1994年Andrew Wiles证明费马大定理,揭示椭圆曲线与模形式的一一对应关系,开创数学领域"传送门"概念[2][3][11] - 2024年四位数学家将对应关系从一维椭圆曲线拓展至二维阿贝尔曲面,推动朗兰兹纲领实现"大一统理论"目标[4][5][14] - 模块化定理成为连接数论与分析学的核心工具,允许通过模形式镜像研究椭圆曲线性质[12][26] 阿贝尔曲面研究突破 - 团队证明普通阿贝尔曲面必然存在对应模形式,论文长达230页,解决曾被视为"不可能任务"的难题[16][29][45] - 采用"时钟算术"方法(以3为周期)匹配阿贝尔曲面与模形式的数字标签,突破构建严格对应关系的障碍[36][38] - Lue Pan的模形式研究意外成为关键技术支持,团队通过Zoom协作和集中攻关最终完成证明[43][44] 学术影响与未来方向 - 突破直接助力解决贝赫和斯维讷通-戴尔猜想等悬而未决难题,并为阿贝尔曲面版猜想提供理论基础[23][46] - 团队计划将成果扩展至非普通阿贝尔曲面,预计十年内覆盖绝大多数类型[45] - 该研究催生新数学分支,类比Wiles证明后引发的学科革新,改变数论研究范式[20][27] 技术方法论 - 通过限制研究范围(普通阿贝尔曲面)和弱化匹配条件(时钟算术)降低证明复杂度[34][38] - 利用高维模形式的对称性优势处理阿贝尔曲面三维解的复杂性,复刻并升级Wiles的证明路径[28][33] - 跨学科协作(数论与模形式)和长期坚持(2016-2024年)是突破的关键因素[32][44]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-08 06:35
大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]
AI 推理成本暴跌,「互联网女皇」 Mary Meeker 从中看到了什么?
机器之心· 2025-06-07 15:00
Mary Meeker的新报告探讨了哪些重要趋势 - Mary Meeker是科技领域著名分析师,曾领导摩根士丹利TMT团队并准确预测多个重大趋势如在线广告超越印刷广告、移动互联网主导地位等 [4][5] - 其2025年发布的《人工智能趋势报告》全面汇总全球AI产业最新进展,剖析AI未来趋势及对全球格局的深远影响 [5] - AI技术重塑世界的速度远超历史任何技术革命,例如ChatGPT在17个月内用户达8亿,增速前所未有 [7] - 领先芯片制造商生态系统的开发者数量从2005年几乎为零激增至2025年约600万,呈现指数级增长 [7] - 美国六大科技公司(苹果、英伟达等)2025年AI相关资本开支超2000亿美元 [7] - 全球互联网普及为AI提供庞大用户基础和数据来源,例如SpaceX的Starlink项目推动AI技术全球普及 [8] - 新兴AI公司(如DeepSeek、Alibaba Qwen)与传统科技公司在创新、产品发布等方面竞争激烈 [8][9] - 中美在AI领域的技术研发、人才争夺和市场份额竞争推动全球AI技术快速发展 [9] AI模型训练成本狂飙,推理成本却暴跌 - 计算AI成本揭示技术发展中的经济压力和可持续性问题,推理成本变化影响行业竞争格局 [10] AI如何重塑物理世界 - AI与物理世界融合加速,已在医疗、教育、金融等领域重塑行业未来 [9] AI让全球互联网用户增长驶入超车道 - 互联网与AI相辅相成,AI技术普及推动用户行为变革,例如ChatGPT快速获客能力 [7][8] AI如何重塑人类生存法则 - AI产业面临双重压力,货币化进程带来新威胁,同时推动产业升级和创新发展 [9]