机器之心

搜索文档
ICML 2025 | 清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE
机器之心· 2025-05-08 13:51
语言模型长文本处理能力研究 核心观点 - 旋转位置编码(RoPE)的周期性特性理论上可帮助语言模型实现长文本泛化 但实际应用中仍存在外推限制 主要原因是频谱损坏破坏了周期延拓的有效性 [1][4] - 清华大学团队提出傅里叶位置编码(FoPE) 通过傅里叶级数建模和低频分量裁剪 显著提升Transformer模型的长文本泛化能力 [16][17] 频谱损坏机制分析 - 频谱损坏三大来源:线性层导致各维度频率分量混杂 激活函数产生频率线性组合 时域截断造成主频强度扩散 [7][9][11][13] - 实验显示RoPE在超过8k文本长度时性能显著下降 如GovReport数据集8k+文本困惑度达12.02 而FoPE提升至12.38 [19] FoPE技术创新 - 采用傅里叶级数建模 利用三角函数正交性解码混杂频率信息 将极低频分量转为直流分量以保持周期特性 [17] - 在TREC数据集8k+文本任务中 FoPE准确率较RoPE提升15个百分点(36%→51%) 展现显著优势 [19] 应用前景 - 技术可延伸至长视频生成、kv-cache压缩等领域 在语义通信和脑机接口等跨学科场景具潜在价值 [21] - 在MultiNews数据集4-8k文本段 FoPE困惑度改善1.87点(11.11→12.98) 验证算法稳定性 [19]
2025年第二届「兴智杯」全国人工智能创新应用大赛正式启动,线上报名开启
机器之心· 2025-05-08 13:51
机器之心发布 机器之心编辑部 2025 年 5 月 8 日上午,第二届 "兴智杯" 全国人工智能创新应用大赛正式启动。前期,工业和信息化部、科学技术部、深圳市人民政府共同主办了首届 "兴智杯" 全国人工智能创新应用大赛(以下简称 "大赛"),以需求为牵引,推动了一批关键技术突破,加快人工智能与重点行业融合赋能,成为了目前国内规模最大、参 赛主体最丰富的人工智能专业赛事。为进一步发挥 "以赛促研、以赛促用、以赛育人" 的作用,今年,第二届兴智杯大赛如约而至,由中国信息通信研究院、深圳 市人工智能产业办公室、深圳市前海深港现代服务业合作区管理局、深圳市宝安区人民政府主办,旨在聚焦技术创新和应用赋能面临的痛点、难点,加速人工智 能技术创新和产业化落地,培育一批国内外优秀人工智能创新人才,为优秀项目提供展示、推广的平台。 启动仪式以线上方式举行,中国工程院院士王国法出席并致贺词,工业和信息化部科技司副司长杜广达,中国信息通信研究院院长余晓晖以及深圳市工业和信息 化局党组成员、副局长、深圳市人工智能产业办公室主任林毅出席并致辞;深圳前海深港现代服务业合作区、深圳宝安区、北京经济技术开发区、南昌市、常熟 市等大赛、主题赛 ...
绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世
机器之心· 2025-05-08 09:37
在人工智能领域,推理能力的进化已成为通向通用智能的核心挑战。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌现出一 批 「Zero 」类推理模型,摆脱了对人类显式推理示范的依赖,通过强化学习过程自我学习推理轨迹,显著减少了监督训练所需的人力成本。然而,这些方法的学 习任务分布仍由人类预先设计,所依赖的数据依旧高度依赖专家精心策划与大量人工标注,面临着难以扩展与持续演化的瓶颈。 更重要的是,如果智能系统始终受限于人类设定的任务边界,其自主学习与持续进化的潜力将受到根本性限制,这一现实呼唤一种全新的推理范式,迈向超越人 类设计约束的未来。 为应对这一挑战, 清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学的研究者们提出了一种全新的推理训练范式 —— Absolute Zero,使大模型无需依赖人类或 AI 生成的数据任务,即可通过自我提出任务并自主解决,实现 「自我进化式学习 」。在该范式中,模型不仅学习如何生 成最具可学习性的任务(maximize learnability),还通过解决这些自主生 ...
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 15:37
大模型逻辑推理研究综述 核心观点 - 大模型研究从依赖扩展定律的预训练转向聚焦推理能力的后训练,逻辑推理能力成为解决幻觉问题的关键[1] - 大语言模型在逻辑问答和逻辑一致性方面存在显著缺陷,LLaMA 13B在FOLIO数据集上8-shot准确率仅33.63%,接近随机猜测水平[10] - 提升逻辑推理能力需结合外部求解器、提示工程、预训练微调等方法,并需满足否定/蕴涵/传递/事实/复合等多类逻辑一致性[15][21] 技术方法分类 逻辑问答 - **基于外部求解器**:将自然语言问题转换为符号表达式,通过求解器推理后集成答案[16] - **基于提示工程**:通过设计提示词显式构造推理链或实现自然语言与符号语言转换[17] - **预训练与微调**:纳入演绎证明样本增强数据集,针对性优化模型参数[18] 逻辑一致性 - **否定一致性**:禁止对命题p与其否定命题同时判定为真[22] - **蕴涵一致性**:确保前提p→q成立时,若p为真则q不得为假[23][24] - **传递一致性**:要求三段论推理链条自洽,如"喜鹊是鸟→鸟有翅膀→喜鹊有翅膀"需成立[25] - **事实一致性**:模型回答需与知识库事实对齐[26] - **复合一致性**:需同时满足多种逻辑规则组合的复杂推理要求[27][28] 典型案例 - 逻辑问答失败案例:给定"金属导电→铁是金属→钉子由铁制成"前提,模型无法推导"钉子导电"结论[6] - 逻辑不一致案例:Macaw模型承认"喜鹊是鸟"和"鸟有翅膀",却否认"喜鹊有翅膀"[11] 未来方向 - 扩展模态逻辑处理不确定性命题[30] - 开发高阶逻辑推理能力以量化谓词属性[31] - 设计同时满足多类逻辑一致性的高效算法[31] 研究基础 - 覆盖5所顶尖高校联合研究,论文被IJCAI 2025接收[1] - 建立完整分类体系并汇总FOLIO等基准数据集[12][15]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
机器之心· 2025-05-07 12:34
| 机器之心报道 | | --- | 编辑:蛋酱、泽南 本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B 。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。有人表示期待 DeepSeek R1 风格的训练方法用来提升代码效率已久,这回终于有人站出来了。 在一篇博客中,Cognition AI 详细介绍了新模型强化学习训练的机制。 代码是一个不断迭代的过程 —— 需要我们编写、执行程序,评估结果,并根据反馈优化代码。大语言模型(LLM)在代码生成方面的最新进展尝试将此过程融入 推理阶段,并使用并行采样等方法。虽然这些方法是有效的,但它们依赖于搜索而非实际学习 —— 在这其中模型权重被冻结。 Cognition AI 探索了多轮强化学习,使用来自环境的中间反馈,并屏蔽模型思维以避免在多轮训练中上下文爆炸。 他们提出的模型 Kev ...
机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight
机器之心· 2025-05-07 12:34
机器之心发布 机器之心编辑部 从 2023 年的 Sora 到如今的可灵、Vidu、通义万相,AIGC 生成式技术的魔法席卷全球,打开了 AI 应用落地的大门。 无独有偶,AIGC 生成式技术同样在具身智能机器人大模型上带来了惊人的表现。 "给我盛一碗热腾腾的鸡汤",以前这句话能带给你一个温暖感人、栩栩如生的视频。现在,如果你旁边有一个机器人,这句话就能让他真的给你盛一碗汤! 这背后的技术来自于清华大学叉院的 ISRLab 和星动纪元 ——ICML Spotlight 高分作品 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)! 利用预训练视频生成大模型,让 AIGC 的魔力从数字世界走进具身智能的物理世界,就好比" 机器人界的 Sora "! VPP 是机器人界的 "Sora" 目前 AI 大模型领域有两种主流方法,基于自回归的理解模型和基于扩散的生成模型,各自代表作分别为自回归的 GPT 和生成式的 Sora: 论文标题:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual ...
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
机器之心· 2025-05-07 12:34
核心观点 - 研究提出OTC-PO框架,通过强化学习优化大语言模型工具使用行为,在保持准确率前提下显著提升效率(工具调用减少73.1%,工具效率提升229.4%)[10][15] - 首次量化认知卸载现象,发现模型越大越依赖外部工具而削弱自身推理能力[13][16] - 提出工具生产力概念,兼顾答案正确性与调用成本,实现Minimizing Acting=Maximizing Reasoning的智能行为模式[13][21] Agent行为模式 - 核心分为推理(Reasoning)和行动(Acting)两种模式,前者涉及反思/分解等思考技巧,后者涉及工具/API调用[4] - 现有方法仅关注最终答案正确性,导致过度优化问题:过度依赖工具(认知卸载)或过度推理[5][7] - 理想行为应动态平衡两者,如OpenAI o3仅在超出能力范围时调用工具[7] 方法论创新 - 定义最优工具调用次数n,要求模型在答对前提下最小化成本($\operatorname*{arg\,min}_{\tau}\mathrm{Cost}(\tau)$)[11] - 设计奖励函数$r_{\phi}^{tool}(q,y)=\alpha*r_{tool}*r_{\phi}(q,y)$,结合工具效率与答案正确性[12][14] - OTC-PO框架通用性强,代码修改仅需数行即可适配现有RL算法[13] 实验结果 - 7B模型工具生产力最高提升256.9%,工具调用减少73.1%[15] - GRPO算法优于PPO,因多采样能更精准估计最优工具调用次数[16] - 训练效率提升:响应时间缩短,资源消耗降低(图表显示优化曲线更陡峭)[18] - 跨领域测试(OOD)表现优异,部分场景准确率与效率同步提升[20] 行业意义 - 为构建类似OpenAI o3的智能体提供可行路径,推动Agent研究范式转变[22] - 首次将RL应用于工具使用行为优化,开辟大模型效率提升新方向[13][22]
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
强化学习范式革新 - 强化学习(RL)成为AI模型性能提升的新范式 尤其体现在DeepSeek-R1和R1-Zero模型的突破性进展上 [2][3][20] - 传统预训练Scaling Law面临数据耗尽危机 Ilya Sutskever预测互联网数据作为预训练燃料的时代即将终结 [16][19] - 模型改进形成三支柱框架:预训练Scaling 测试时间计算(TTC) Scaling 强化学习微调Scaling 其中RL可形成自我改进闭环 [25][26] DeepSeek技术路径 - 创新性采用GRPO(组相对策略优化)替代PPO 移除价值模型和复杂奖励系统 计算开销降低50% [44][45][46] - R1-Zero完全摒弃监督微调(SFT) 通过硬编码验证器实现纯强化学习训练 但输出可读性差 [35][37] - R1模型分四阶段优化:冷启动SFT→GRPO→拒绝采样SFT→RL微调 平衡推理能力与人类可读性 [52][54][56] 去中心化应用潜力 - 训练场(Training Grounds)模块最具去中心化价值 可分布式生成数学/物理/编程等领域的验证型推理数据 [73][74][77] - PETALS框架实现模型层分布式托管 支持8位量化通信 176B参数模型可在消费级GPU协作推理 [92][94][98] - RL Swarm架构实现策略模型P2P协作学习 在Qwen-2 5B模型实验中输出质量提升30% [102][103][104] 硬件与算法协同 - FP8量化技术大幅降低内存需求 4000系以上NVIDIA显卡可支持 促进异构硬件参与 [84][87][89] - DiPaCo路径分片技术使MoE模型训练分布式成为可能 150M参数路径可匹配13B密集模型效果 [99][101] - 模块化专家系统(如HDEE)预示未来方向 异构领域专家可并行训练后集成 [106][107] 行业生态演进 - Hugging Face启动Open R1项目 旨在完全开源复现R1技术栈 [109] - Prime Intellect通过SYNTHETIC-1项目尝试分布式复制R1训练流程 [109] - 谷歌DeepMind与哈佛合作证明8位量化PPO训练速度提升1 5-2 5倍 [87]
刚刚,Gemini 2.5 Pro升级,成编程模型新王
机器之心· 2025-05-07 08:33
机器之心报道 编辑:Panda 你的默认编程模型是什么?或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本: Gemini 2.5 Pro (I/O edition) 。 其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸主 Claude 3.7 Sonnet (20250219)! | Rank* | Rank | | Arena | A 95% CI | A Votes | A Organization License | | | --- | --- | --- | --- | --- | --- | --- | --- | | (UB) | (StyleCtrl) | Model | Score | | | | | | 1 | ਜ | Gemini-2.5-Pro-Preview-05-06 | 1448 | +7/-12 | 3545 | Google | Proprietary | | 1 | 1 | Gemini-2.5-Pro-Exp-03 ...