机器之心

搜索文档
ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
机器之心· 2025-05-02 12:39
机器之心报道 编辑:张倩、+0 第 42 届国际机器学习大会(ICML)将于 2025 年 7 月 13 日至 19 日在加拿大温哥华举行。刚刚,ICML 官方向投稿者发送了今年论文接收结果的通 知。 数据显示,今年大会共收到 12107 篇投稿,较去年增加了 28%。共有 3260 篇论文被接收,接收率为 26.9%。其中,只有 313 篇论文被选为 「spotlight poster」。 在收到邮件的第一时间,不少研究者都晒出了自己被接收的论文。当然,也有研究者感到沮丧或对评审结果有所质疑。在这篇文章中,我们汇总了一些被接 收的优秀论文以及有争议的论文,方便大家探讨。 被接收的高分论文 首先,我们检索了一些 spotlight 论文,因为这是 ICML 官方推荐度最高的一批论文,能搜到的论文包括但不限于: …… Neural Discovery in Mathematics: Do Machines Dream of Colored Planes?(数学中的神经发现:机器会梦见彩色的平面吗?) Monte Carlo Tree Diffusion (MCTD) for System 2 Planning( ...
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
机器之心· 2025-05-02 12:39
当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」 (Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。 我们认为,要真正提升 GUI 智能体的能力,关键在于从「反应式」迈向「深思熟虑的推理者」(Deliberative Reasoners)。为此,浙江大学联合香港理 工大学等机构的研究者们提出了 InfiGUI-R1 ,一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体,旨在让 AI 像人一样在行动前思考,行动后 反思。 论文标题:InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners 从「反应行动」到「深思熟虑」:GUI 智能体面临的挑战 想象一下,你让 AI Agent 帮你完成一个多步骤的手机操作,比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点 击它认为相关的按钮,但一旦遇到预 ...
LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
机器之心· 2025-05-02 12:39
核心观点 - LoRI技术通过大幅减少LoRA的可训练参数(仅5%),在数学推理、代码生成、安全对齐及自然语言理解任务上匹配或超越全量微调、标准LoRA和DoRA的性能 [1] - LoRI冻结低秩矩阵A并采用任务特定稀疏掩码训练矩阵B,通过校准过程保留关键元素,实现90%稀疏度下仍保持性能 [4] - 在Llama-3-8B和Mistral-7B模型上,LoRI-S(0.05%参数)比LoRA减少95%可训练参数,HumanEval任务性能提升17.3% [9][17] 技术原理 - LoRI将权重更新分解为低秩矩阵,固定随机投影矩阵A,仅稀疏训练矩阵B,显著降低参数干扰 [4][13] - 通过幅度选择校准提取稀疏掩码,保留B中最高幅度元素,实现跨任务参数隔离 [4] - 与IA3的区别:IA3学习缩放向量调整激活函数,而LoRI基于低秩矩阵分解并应用固定稀疏掩码 [15][16] 性能表现 - 单任务测试:LoRI-D(0.54%参数)在8项NLU任务平均得分87.3,超越LoRA(87.1)和DoRA(87.1) [19] - 代码生成:Llama-3-8B上LoRI-D在HumanEval的Pass@10达63.2%,显著高于LoRA(50.8%) [19] - 安全对齐:LoRI-S在HEx-PHI任务得分95.9%,优于LoRA(91.6%)和DoRA(93.6%) [19] 多任务应用 - 适配器合并:LoRI串联融合方案在异构任务(NLU/数学/代码/安全)中性能接近单任务基线,干扰最小化 [20] - 持续学习:LoRI-S通过90%稀疏掩码实现安全对齐遗忘率最低,安全→NLU任务中参数隔离效果显著 [22] - 两阶段训练:先安全对齐后任务适配的策略使LoRI在保持安全性的同时提升下游任务表现 [22] 实验设置 - 基准模型:Llama-3-8B(8.03G参数)和Mistral-7B(7.24G参数) [17][19] - 硬件配置:8块NVIDIA A5000 GPU完成所有实验 [17] - 对比方法:全量微调(FFT)、标准LoRA(1%参数)、DoRA(1.05%参数) [19]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源
机器之心· 2025-05-01 10:11
代码地址: https://github.com/Leiyi-Hu/mona 合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕,清华大学计算机系「 水木学者」博后,中科院博士,曾以一作身份在 Nature Communications、IEEE CVPR、IEEE ICCV、ACM MM、IEEE TITS 等国际期刊/会议发表论文,并任 NeurIPS、CVPR、ICCV、ICLR、IEEE TIP、 IEEE TMM 等会议期刊审稿人。曾获「 中国科学院院长奖」,并与微软亚洲研究院 MSRA 和阿里巴巴集团进行科研合作。研究方向包括计算机视觉、参数 高效微调、视频生成、多模态以及遥感图像解译等。 Mona (Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在 打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈 论文标题: 5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks 论文地址: http ...
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
机器之心· 2025-05-01 10:11
核心观点 - 2015年发表的论文《End-To-End Memory Networks》虽被Transformer的光芒掩盖,但已包含当前大型语言模型(LLM)的核心要素,如多层注意力机制、位置嵌入等 [2][8][22] - 该论文被引量仅3000+,远低于Transformer论文的17万+,但其创新性被行业低估 [3][9] 技术突破 - **注意力机制创新**:首次完全用注意力替代RNN,引入带键值投影的点积软注意力,并堆叠多层注意力结构 [8] - **位置嵌入**:为解决注意力顺序不变性问题引入时间嵌入(现称位置嵌入),现已成为LLM标准技术 [18][22] - **推理能力验证**:首次证明多层软注意力可产生复杂推理能力,奠定现代AI架构基础 [13] 研究背景 - 研究始于2014年FAIR实习项目,受导师Rob Fergus推动探索记忆机制,基于Jason Weston团队《Memory Networks》改进 [16] - 使用bAbI任务基准测试,发现RNN在无序多事实查询任务中的缺陷,促使转向注意力机制 [16][18] 关键实验 - 2014-2015年冬季实验显示:采用点积软注意力的记忆网络性能显著优于基线,尤其在语言建模任务中击败LSTM [18][19] - 创新技术包括键值分离投影、时间嵌入添加随机噪声等 [18][19] 行业影响 - 论文预见性:10年前已实现无RNN的纯注意力语言模型,其多层注意力结构和位置嵌入现被GPT等主流模型采用 [22] - 后续发展:Meta团队2024年发布《Multi-Token Attention》论文,进一步优化长上下文处理能力,解决"大海捞针"类任务 [26] 对比研究 - Transformer的改进:引入前馈层、多头注意力等,但核心思想源于早期注意力机制研究 [25] - Bahdanau等人2015年论文《Neural Machine Translation by Jointly Learning to Align and Translate》被行业认为是最早提出注意力机制的论文,但关注度仅为Transformer的1% [12]
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
机器之心· 2025-05-01 10:11
DeepSeek-Prover-V2发布 - 公司发布DeepSeek-Prover-V2模型,包含7B和671B两个参数版本,专注于形式化定理证明,专为数学AI编程语言Lean 4打造 [3] - DeepSeek-Prover-V2-671B基于DeepSeek-V3-Base训练,7B版本基于DeepSeek-Prover-V1.5-Base构建,支持32K tokens上下文长度 [3] - 模型在MiniF2F测试中达到88.9%通过率,解决PutnamBench数据集中658道题中的49道,性能达到业内最佳 [15] 技术实现 - 采用递归定理证明流程,使用DeepSeek-V3分解复杂问题为子目标并生成形式化推理步骤,融合非形式化与形式化数学推理 [9][4] - 通过7B模型完成子目标证明以降低计算开销,整合子目标证明与DeepSeek-V3生成的思维链构建冷启动数据 [11] - 采用两阶段训练:非思维链(non-CoT)模式优化快速生成Lean代码,思维链(CoT)模式强调透明推理步骤 [17] 性能与基准测试 - DeepSeek-Prover-V2-671B在ProofNet-test上通过率37.1%(1024样本),PutnamBench解决49/658题,显著优于Goedel-Prover-SFT和STP等竞品 [23] - 7B版本在ProofNet-test通过率29.6%(1024样本),PutnamBench解决11/658题,展示小模型的高效性能 [23] - 发布ProverBench基准数据集,包含325道题目,涵盖AIME竞赛题及本科数学内容,支持高中至本科难度评估 [25][26] 行业影响 - 模型开源并公开技术细节,HuggingFace平台提供7B和671B版本下载链接,推动数学AI领域发展 [6][16] - 用户实测显示模型效果优于o4-mini和Grok-3,尤其在数学奥林匹克问题解决中表现突出 [31] - 子目标分解与推理融合的设计被类比为初级工程师问题解决技巧,潜在适用于代码生成等场景 [32]
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
机器之心· 2025-05-01 10:11
大型语言模型后训练技术综述 核心观点 - 微调和强化学习等后训练技术是提升LLM能力的关键手段,可解决幻觉、逻辑一致性不足等问题[1][5] - 强化学习通过动态反馈优化序列决策,结合LoRA、RAG等技术可提升计算效率和事实准确性[9][14] - 后训练需平衡专业化与泛化能力,面临过拟合、计算成本高、道德对齐等挑战[7][10][15] 技术方法分类 微调技术 - 监督式微调基于精选数据集更新参数,增强情绪分析、医疗诊断等特定任务能力[10] - LoRA和适配器等参数高效技术可减少90%以上计算开销,缓解过拟合问题[10][20] - 领域专业化与多功能性存在权衡,需动态调整模型深度和宽度[14][20] 强化学习优化 - 采用PPO、DPO、GRPO等算法,通过奖励模型对齐人类偏好[24][25] - 语言模型强化学习需处理高维token输出、延迟反馈和多目标平衡[11][13] - RLAIF实现部分监督自动化,但面临奖励hacking和偏差校准问题[52] 规模扩展策略 - 思维链(CoT)和思维树(ToT)框架将复杂问题分解为多步骤推理[14][44] - 检索增强生成(RAG)动态整合外部知识,提升事实准确性达30%[20] - 分布式训练框架支持千亿参数模型部署,如DeepSeek-V2(236B参数)[19][32] 主流模型对比 | 技术特征 | 代表模型 | 参数规模 | 核心创新 | |----------------|-----------------------------------|----------------|------------------------------| | MoE架构 | GPT-4/4.5、DeepSeek-V2 | 236B-1.2T | GRPO算法、动态专家网络[19] | | 单模型 | Claude 3、Gemini | 70B-340B | RLAIF对齐框架[19][25] | | 高效微调 | Llama3、Qwen2 | 8B-405B | DPO直接偏好优化[19][31] | 评估基准体系 - **推理能力**:GSM8K(8.5K数学题)、MATH(7.5K分步解)[49] - **对齐评估**:HelpSteer(37K+多属性评分)、UltraFeedback(64K指令遵循)[49] - **多语言**:CulturaX(6.3T去重数据)、PangeaIns(6M指令)[49] 未来发展方向 - 交互式强化学习需求年增长200%,需解决奖励稀疏性问题[52] - 测试时扩展技术使推理时间增加50%,需优化计算分配策略[53] - 隐私保护联邦学习成为企业数据微调新标准[53]
真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
机器之心· 2025-04-30 14:00
核心观点 - ACI_dev 开源了 Unified MCP Server 实现自然语言驱动的智能体工具自动编排调用 支持600+工具集成 实现从意图到动作的一步闭环 [1][3][7][10] - 该平台通过两个通用meta函数(ACI_SEARCH_FUNCTIONS和ACI_EXECUTE_FUNCTION)简化工具调用流程 无需硬编码或预定义接口 [11][12][15] - 具备动态工具发现 多租户认证 语义相似度排序等核心功能 显著提升智能体执行效率 [3][13][14] - 采用Apache 2_0开源协议 旨在推动MCP标准普及 构建开放智能体生态基础设施 [19][20][22] 技术架构 - 提供意图感知型访问权限(intent-aware access) 支持自然语言权限控制 [3][15] - 内置600+工具集成 涵盖Hacker News Tavily Gmail等常用平台 [5][8] - 通过语义相似度智能排序返回最相关工具 优化执行路径 [13] - 支持Python SDK调用 简化开发流程 [11] 应用场景 - 演示案例:智能体自动完成Hacker News热榜抓取 信息检索 邮件发送全流程 [5] - 典型任务:论文搜索 GitHub项目链接获取 Zoom会议安排等复合操作 [16] - 适用于需要跨多工具协作的自动化场景 消除OAuth和接口集成负担 [17] 生态战略 - 定位为MCP协议参考实现 填补多租户 精细权限等协议缺口 [22] - 开源模式允许自由定制部署 支持安全审计和私有化部署 [20][22] - 社区协作计划包括工具建议 Issue反馈 Discord交流等互动方式 [22] - 目标从600个工具扩展到6000个 构建开放智能体生态基础设施 [22]
上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
机器之心· 2025-04-30 12:23
智能智能体协议综述 核心观点 - 上海交通大学团队与ANP社区合作发布首个系统性的AI智能体协议综述《A Survey of AI Agent Protocols》,提出解决智能体间通信碎片化问题的框架 [2] - 当前智能体生态系统面临协议不统一的困境,类似早期互联网的通信标准分散问题,制约了互操作性和协作能力 [6] - 论文创新性提出二维分类体系,并评估了主流协议的7大关键维度,为开发者提供选择指引 [9][14] 协议分类框架 - **对象导向维度**: - 上下文导向协议:如Anthropic的MCP协议,专注智能体与外部工具/数据源的通信 [10] - 智能体间协议:如ANP、A2A协议,关注多智能体协作 [10] - **应用场景维度**: - 通用目的协议:适用于广泛场景 [13] - 领域特定协议:如LOKA用于人机交互,CrowdES用于机器人智能体交互 [13] - 覆盖主流协议包括Anthropic MCP、Google A2A、ANP、AITP、LMOS等十余种,提供提出者、应用场景、关键技术等详细梳理 [12] 协议评估维度 - **效率**:评估延迟、吞吐量、资源利用率及LLM特有的token消耗成本 [14] - **可扩展性**:提出"能力协商得分"(CNS)指标,衡量节点/链接扩展性 [14] - **安全性**:分析认证模式多样性、角色访问控制粒度及上下文脱敏机制 [14] - **可靠性**:引入"自动重试计数"(ARC)等指标,检验包重传和持久连接机制 [14] - **互操作性**:评估跨系统、跨平台适应性,强调理想协议需平衡低延迟与多智能体复杂性 [14] 应用案例对比 - **MCP**:集中式架构,单一智能体依次调用工具服务器,所有通信经中央智能体 [18] - **A2A**:分布式架构,专业智能体直接通信,非中心协调器收集结果 [18] - **ANP**:跨域架构,标准化交互促进独立智能体协作,明确组织边界 [18] - **Agora**:用户中心架构,自然语言直接生成协议,三阶段处理提升专业智能体专注度 [18] 未来展望 - **短期**:开发可进化协议,将协议作为智能体的动态可学习组件 [21] - **中期**:内置协议知识至LLM参数,实现无提示兼容;探索隐私保护协议和智能体网格协议 [20][21] - **长期**:构建分层协议架构,分离低级传输与高级语义交互;发展智能体数据网络支持结构化信息交换 [22][24] - 研究集体智能涌现规律,探索协议标准化如何推动超越单个组件能力的系统级行为 [23][24]