机器之心

搜索文档
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
机器之心· 2025-05-07 08:33
核心观点 - Mixture-of-Experts(MoE)在推理时仅激活每个token所需的一小部分专家,凭借稀疏激活特点成为当前LLM主流架构,但整体参数规模仍大于同等性能的Dense模型,在显存资源受限的端侧部署场景面临挑战 [1] - 现有专家卸载(Expert Offloading)方案存在两大缺陷:频繁加载不同专家导致显著推理延迟,批量解码场景可能需加载整层所有专家加剧显存压力 [11] - 研究人员提出Mixture-of-Lookup-Experts(MoLE),通过将专家输入改为embedding token并采用查找表替代矩阵运算,从根本上规避频繁加载开销 [5][6] 技术原理 - MoLE核心思想是预先计算所有可能的输入-输出对应关系并存储为查找表,用简单查找操作代替矩阵运算,需满足专家模块输入来自离散有限集合且检索过程不依赖密集计算 [5] - embedding token天然具备离散有限特性,数量与词表大小一致,可通过token ID直接寻址,满足查找表构建要求 [6] - 训练阶段MoLE与标准MoE有三点区别:输入调整为embedding token、激活所有路由专家、仅使用语言建模损失 [8][9][10] 推理优化 - 推理前MoLE通过预构建查找表完成专家模块重参数化,以embedding层权重矩阵作为专家输入计算完整映射集合 [15] - 查找表构建完成后删除原始路由专家模块,存储在下层设备中,推理时根据token ID直接检索专家输出 [16] - MoLE推理时仅保留共享专家模块,计算量与Dense模型相当,传输开销比MoE减少数个量级,存储需求与单个专家模块同数量级 [17] 实验验证 - 在Pile数据集100B-token子集上训练160M/410M/1B参数模型,控制MoE和MoLE训练参数量相等 [20] - 相同条件下MoLE性能与MoE相当且显著优于Dense,传输开销减少千倍以上 [21] - V100评测显示MoLE推理延迟与Dense基本一致,批量解码场景下延迟稳定,显著优于MoE [22] 性能分析 - 专家数量提升时模型性能同步提升,但专家隐层维度增大到一定程度后性能受限于查找表固定大小达到饱和 [25][26] - 消融实验证实MoLE训练无需辅助损失,查找表可压缩至3-bit精度(如NF3格式)而性能基本不变 [24][27] - MoLE通过激活所有专家弥补输入缺乏上下文信息的缺陷,共享专家和路由保留上下文理解能力 [26][27]
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
机器之心· 2025-05-06 16:04
大模型推理能力发展 - 推理能力成为衡量AI模型智能的关键指标,是行业竞争焦点[2] - 推理效率已成为模型部署和性能的关键限制因素[3] - 英伟达推出Llama-Nemotron系列模型,专注高效推理,采用开放许可方式[3] Llama-Nemotron系列模型概况 - 包含三个模型规模:Nano(8B)、Super(49B)、Ultra(253B),另有支持超长上下文的UltraLong(8B)变体[4] - 模型权重和部分训练数据在Hugging Face公开,遵循NVIDIA Open Model License和Llama社区许可,可商业使用[5] - 首批支持动态推理切换的开源模型,用户可在标准聊天模式和推理模式间自由切换[6] 模型性能与优化技术 - LN-Ultra模型相比DeepSeek-R1显著提高推理吞吐量和部署效率[6] - 通过Puzzle框架实现高效推理优化,支持模块替换和精度-效率权衡[12][15] - 采用移除注意力机制和FFN压缩技术,优化总体吞吐量与内存节省[16] - LN-Super在单块H100 GPU上实现5倍推理吞吐提升,TP1配置下保持≥2.17×吞吐优势[19] - LN-Ultra在8张H100 GPU节点上实现1.71倍延迟提升,支持300万FP8精度Token缓存[20][21] 训练方法与知识迁移 - 多阶段后训练流程强化推理和非推理任务表现,包括监督微调和强化学习[9] - Qwen负责数学和科学数据生成,DeepSeek-R1作为核心教师模型迁移深度逻辑能力[9] - 通过"detailed thinking on/off"指令机制实现推理深度与回答风格的灵活切换[27] - LN-Ultra在MMLU、MATH500、HumanEval等基准测试上超越或接近Llama 3系列[25] 强化学习与性能提升 - 大规模强化学习(RL)帮助学生模型超越教师模型性能[31] - 采用GRPO算法提升科学推理能力,训练消耗约14万张H100 GPU小时[32] - 课程化学习策略显著帮助模型在复杂推理问题上的收敛和泛化[35] - FP8精度生成模式实现1.8倍吞吐提升,单个GPU最高达32 token/s[37] 指令跟随与人类反馈优化 - 短周期强化学习训练优化指令跟随能力,提升传统评测和推理任务表现[39] - LN-Super在Arena Hard评测中取得88.3分,超越多个专有模型和更大规模开源模型[40] - 迭代式在线RPO训练方式最大化偏好奖励,Arena Hard分数从69.1提升至88.1[40][41]
微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」
机器之心· 2025-05-06 16:04
微软UFO² AgentOS技术突破 - 业内首个深度集成Windows操作系统的桌面智能体平台,以"AgentOS"理念设计,解决传统智能体界面交互脆弱和执行中断问题 [3][6] - 多智能体架构包含HostAgent负责任务解析与分解,AppAgent提供定制化API接入和界面感知能力,支持跨应用任务 [6] - 统一GUI-API混合执行模式通过Puppeteer接口动态选择最优方案,平衡效率与通用性 [7] - 混合控件感知结合Windows UIA接口与OmniParser-v2视觉模型,提升复杂界面下的识别准确率至90%以上 [10] - 推测式多步执行技术减少51.5%的LLM调用次数,显著降低延迟和计算成本 [14][21] 系统级创新设计 - 采用RAG技术构建动态知识库,整合应用文档和执行日志实现"越用越强"的学习能力 [12] - PiP虚拟桌面技术利用Windows远程服务创建独立执行环境,避免干扰用户主桌面操作 [16] - 已在Excel/Outlook/Edge等20+主流Windows应用完成验证,任务成功率比OpenAI Operator高10% [18][21] 行业影响与开源生态 - 项目在GitHub获7,000 Stars,标志着桌面智能体进入系统级"AgentOS时代" [1][20] - 微软全面开源代码和文档,推动建立智能办公和人机交互的新生态标准 [19][21] - 技术框架突破传统RPA脚本依赖,为LLM-based智能体的规模化应用提供工程范本 [3][6]
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 12:11
大型语言模型自注意力机制研究 核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值,而值(V)表示无此现象,该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性,与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma),未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃: - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小:城市类任务保持76-88%准确率,名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值:AWQ和SmoothQuant方法能有效保持上下文理解能力,普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源,其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响,优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术,平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性,拓展至多模态等新领域[16]
GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画
机器之心· 2025-05-06 12:11
生成模型与潜在空间 - 潜在空间作为生成模型核心驱动力,通过压缩复杂信息实现图像、语音等高效生成 [2][3] - 主流生成模型包括变分自编码器(VAEs)、生成对抗网络(GANs)和扩散模型,均依赖潜在变量支持 [3] - VQ-VAE通过离散潜在空间提升图像生成效率,分辨率可达256×256,空间位置减少256倍 [16][18] 两阶段训练方法 - 第一阶段训练自编码器,包含编码器和解码器两个子网络 [7] - 第二阶段在潜在表征上训练生成模型,参数冻结编码器 [7] - 使用多种损失函数:回归损失(MAE/MSE)、感知损失(LPIPS)和对抗损失 [10][49] 潜在空间技术演进 - VQGAN结合GANs对抗学习机制,成为近五年感知信号生成建模核心技术 [18] - 潜在扩散模型(LDM)将VQGAN与UNet结合,形成稳定扩散模型基础 [19] - 潜在表征容量由下采样因子和通道数控制,典型配置如256×256输入生成32×32潜在网格 [35] 潜在空间设计权衡 - 需要在重建质量与可建模性之间取得平衡 [30] - 总空间冗余(TSR)是关键参数,影响模型容量与效率 [36][41] - 潜在表征应保留输入信号网格结构以利用神经网络架构优势 [76] 多模态应用 - 视觉领域潜在空间技术最成熟,已广泛投入生产 [83] - 音频领域常复用自监督学习表征,视频领域面临时间维度挑战 [83] - 语言模态因冗余度低难以压缩,但有损表征学习仍在探索中 [84] 未来发展方向 - 两阶段方法在效率优势下仍将主导,端到端学习尚未成熟 [86] - 硬件进步可能推动单阶段模型回归,但需突破计算效率瓶颈 [87] - 分辨率级联方法因错误积累问题逐渐失宠 [89]
陶哲轩:感谢ChatGPT,4小时独立完成了一个开源项目
机器之心· 2025-05-06 12:11
陶哲轩的开源项目 - 菲尔兹奖得主陶哲轩在五一假期发布了一个开源项目,该项目用于验证涉及任意正参数的给定估计是否成立,工具名为「estimates」[1] - 该项目是一个用于自动或半自动证明分析中估计值的框架,主要处理X≲Y或X≪Y形式的不等式[1] 项目背景与动机 - 当前符号数学软件包在代数、微积分等领域已非常发达,但缺乏复杂工具来验证渐近估计,尤其是涉及未知函数或序列的情况[2] - 陶哲轩与Bjoern Bringmann讨论后,决定开发一个工具来解决这一空白,重点处理有限数量正实数的简单渐近估计[2] - 陶哲轩曾希望有一个工具能自动判断估计是否成立并提供证明或反例,现在通过该项目实现了这一目标[3] 技术实现与AI辅助 - 陶哲轩使用ChatGPT作为主要AI工具,经过约4小时编程完成概念验证工具的开发[7] - 项目开发过程中,陶哲轩与ChatGPT进行了多轮对话,涉及Python类操作、符号表达式实现等基础功能[9][13][14] - 陶哲轩举例说明工具的应用场景,如验证弱算术平均-几何平均不等式,并指出此类任务适合自动化处理[5][6] AI在数学研究中的潜力 - 陶哲轩是较早发现AI大模型数学价值的数学家之一,曾预测到2026年AI将成为数学研究等领域值得信赖的合著者[17] - 陶哲轩此前已多次借助AI工具,如用GPT-4解决数学证明题(8种方法中1种成功)并发现论文中的隐藏bug[17] - 陶哲轩建议数学家与专业程序员协作开发此类软件,以实现优势互补[18] 项目意义与启示 - 陶哲轩强调工具的重点在于自动化而非优雅性,证明过程可能不完美但实现了目标[19] - 该项目展示了大模型在数学研究中的潜在功能,更多应用场景有待探索[19]
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 12:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
刚刚,OpenAI放弃营利性转型!奥特曼:非营利组织继续掌控,AGI造福全人类使命不变
机器之心· 2025-05-06 08:12
公司结构变更 - OpenAI宣布放弃完全转为营利性机构的计划,继续由非营利组织监督和控制 [1][2] - 自2019年起,OpenAI营利性有限责任公司(LLC)将转型为公益公司(PBC),必须兼顾股东利益和使命 [2] - 非营利组织将控制PBC并成为其大股东,为非营利组织提供更充足资源支持公益事业 [2][5] 公司使命与价值观 - OpenAI的使命保持不变,即确保通用人工智能(AGI)造福全人类 [3][5][6] - 公司致力于走民主人工智能之路,希望将强大工具交到每个人手中并尽可能开源优秀模型 [7] - 公司认为AGI应该使全人类互惠互利,尽管存在不同观点 [7] 技术应用与用户需求 - ChatGPT已被广泛应用于医疗咨询、学习和生产力提升等领域 [8] - 当前人工智能系统远不能满足世界需求,公司不得不限制使用量和运行速度 [8] - 随着系统功能增强,用户需求将进一步增长 [8] 未来发展规划 - 公司需要数千亿至数万亿美元资源来广泛惠及全人类 [9] - 目标是使非营利组织成为历史上规模最大、效率最高的AI造福人类组织 [10] - 将推进《安全与对齐》框架,加强安全承诺并促进民主AI发展 [10] 结构调整原因 - 原先设有利润上限的结构已不适用,因AGI领域已涌现多家优秀企业 [11] - 新结构让所有人都持有股份,是对公司结构的简化调整 [11] - 非营利组织持股比例将由独立财务顾问评估,确保资源充足 [11]
成熟的编程智能体,已经学会升级自己的系统了
机器之心· 2025-05-05 11:40
编程智能体发展 - 编程智能体成为2025年最热门话题之一,学术与工业界正探索高效落地路径,手工设计解决方案可能被自主学习方案取代 [2] - 研究提出完全自我参照式元智能体编程方案,突破传统元智能体与目标智能体分离的限制 [2][6] SICA技术框架 - SICA运行循环类似ADAS,但动态选择表现最佳的智能体作为元智能体,并保留历史档案优化迭代 [4] - 效用函数量化智能体性能,权重分配为基准分数50%、成本25%、时间25%,超时惩罚系数0.5 [5] - 上下文结构包含系统提示、核心问题陈述及运行日志,支持KV缓存以减少延迟和成本 [8][10] 实验性能改进 - 在SWE Bench验证集中,SICA实现17%-53%的性能提升,尤其在文件编辑和符号导航任务中显著优化效率 [6][12] - LiveCodeBench任务改进较微弱,推理任务中因模型与系统交互问题导致提升有限 [13][14] - 文件编辑基准中,智能体从低效覆盖文件发展到差异编辑工具,符号导航任务通过AST定位器提升效果 [13] 技术实现特点 - SICA采用标准Python实现,无领域特定语言,提供可扩展的参考框架支持LLM后训练 [6] - 实验使用Sonnet 3 5和o3-mini模型,推理任务中模型与系统协同效果影响最终表现 [12][13]
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]