机器之心

搜索文档
ICML 2025杰出论文出炉:8篇获奖,南大研究者榜上有名
机器之心· 2025-07-15 13:37
ICML 2025最佳论文奖项 - ICML 2025公布了8篇获奖论文,包括6篇杰出论文奖和2篇杰出立场论文奖,南京大学研究者位列其中[3][4] - ICML是全球人工智能领域三大顶级学术会议之一,与NeurIPS、ICLR并列,本届为第42届,于7月13-19日在加拿大温哥华举行[4] - 本届大会共收到12107篇有效投稿,接收3260篇,接收率26.9%,相比2024年9653篇投稿数量持续大幅增长[5] 杰出论文奖 论文1:Train for the Worst, Plan for the Best - 研究掩码扩散模型(MDMs)与自回归模型(ARMs)的竞争效应,MDMs通过牺牲训练复杂性换取推理灵活性[10] - 自适应Token解码顺序策略使MDMs性能显著提升,在数独解题中准确率从7%提高到90%,超越7倍参数量的ARMs[12][13] - 作者来自哈佛大学、得克萨斯大学奥斯汀分校[14] 论文2:未命名 - 研究机器学习在政府福利分配中的应用,评估预测技术对弱势群体识别的有效性[17][18] - 通过德国长期失业案例提供政策制定框架和数据驱动工具[19] - 作者来自慕尼黑大学、哈佛大学[20] 论文3:CollabLLM - 提出CollabLLM训练框架增强人机多轮协作,通过多轮感知奖励估算长期贡献[23][25] - 在文档创作等任务中表现提升18.5%,互动性提高46.3%,用户满意度提升17.6%,减少10.4%用户时间[26][27] - 作者来自斯坦福大学、微软、佐治亚理工学院[24] 论文4:Roll the dice & look before you leap - 设计最小化算法任务量化语言模型创造性极限,论证下一Token学习的局限性[29][32] - 提出种子条件化方法,噪声注入输入层效果优于输出层温度采样[33] - 作者来自Google Research、卡内基梅隆大学[31] 论文5:Conformal Prediction as Bayesian Quadrature - 从贝叶斯视角重新审视共形预测,提出基于贝叶斯求积的实用替代方案[38][39] - 作者来自普林斯顿大学[37] 论文6:Score Matching with Missing Data - 调整分数匹配方法处理缺失数据,提出重要性加权和变分两种方法[42][44] - 变分方法在高维设置下表现最佳,验证于图模型估计任务[45] - 作者来自布里斯托大学、南京大学[43] 杰出立场论文奖 论文1:The AI Conference Peer Review Crisis - 针对AI会议投稿激增(超10,000篇)导致的评审质量问题,提出双向反馈机制改革[50][51] - 建议双阶段双向评审系统和系统性审稿人奖励机制[53] 论文2:AI Safety should prioritize the Future of Work - 批评当前AI安全领域忽视劳动市场影响,建议建立以人为本的全球治理框架[54][58] - 主张国际版权体系和集体许可制度保障数据训练公平补偿[58] - 作者来自韩国蔚山科学技术院、犹他大学等机构[56][57]
什么都不做就能得分?智能体基准测试出现大问题
机器之心· 2025-07-15 13:37
AI智能体基准测试现状 - 基准测试是评估AI系统优势与局限性的基础工具,对科研与产业发展具有关键引导作用[2] - 随着AI智能体从研究原型转向实际应用,行业开始构建专门评估其能力的基准测试,但任务设计和评估方式比传统AI测试复杂得多[3][4] - 现有10个主流基准测试中,8个存在严重问题,部分导致对AI能力100%误判[6] 现存问题案例分析 - WebArena基准测试将错误答案"45+8分钟"判定为正确(正确答案应为63分钟)[8] - τ-bench中"无操作"智能体在航班任务中获得38%正确率,尽管其完全不理解机票政策[8] - SWE-bench Verified中24%智能体排名因单元测试扩充而变动,显示原有评估不全面[25] - OSWorld因使用过时网站导致28%性能低估,评估器仍依赖已移除的CSS类名[32][33] 核心失效原因 - 模拟环境脆弱:智能体可能利用系统漏洞绕过任务要求[13] - 缺乏标准答案:代码/API调用等输出难以统一评估,主观性强[13] - 结果有效性不足:7/10基准不能真实反映任务完成情况[23] - 透明度缺失:8/10基准未公开已知问题[23] 解决方案与检查清单 - 提出AI智能体基准测试检查清单(ABC),包含43项条目,源自17个主流基准测试[17] - ABC包含三部分:结果有效性检查、任务有效性检查、基准报告指南[18] - 有效性判据:1)任务需特定能力才可解 2)评估结果真实反映完成情况[12][15] 行业影响数据 - SWE-bench Lite中41%智能体排名因测试扩充而变动[25] - WebArena因评估方法缺陷导致1.6%-5.2%性能误判[31] - 7/10基准存在可被智能体利用的捷径或无法完成的任务[23]
南大等8家单位,38页、400+参考文献,物理模拟器与世界模型驱动的机器人具身智能综述
机器之心· 2025-07-15 13:37
具身智能技术综述 - 具身智能是机器人与人工智能领域的前沿课题,关注智能体在物理世界中感知、推理并行动的能力,被视为实现通用人工智能(AGI)的关键路径[1][5] - 物理模拟器与世界模型的深度融合是当前最具潜力的技术方向:物理模拟器提供安全高效的虚拟训练环境,世界模型则赋予智能体内部预测与规划能力[1][5] - 该领域研究由多所顶尖高校与机构(南京大学、香港大学、清华大学等)联合推进,论文整合25张图表、6张表格及超400篇参考文献[1][4] 核心技术框架 - **物理模拟器**:主流平台包括Webots、Gazebo、MuJoCo、Isaac系列,差异体现在物理引擎精度(ODE/DART/PhysX)、渲染质量(OpenGL/Vulkan/RTX)及对柔性体/流体等特殊场景的支持[12][18][19] - **世界模型**:架构涵盖预测网络、生成式模型和多任务复合模型,应用于自动驾驶轨迹预测、关节机器人仿真-现实闭环校准等场景[13][20] - 技术协同效应:物理模拟器提供外部训练环境,世界模型构建内部认知框架,二者结合推动从虚拟训练到真实部署的跨越[5][9] 机器人能力分级体系 - 提出IR-L0至IR-L4五级标准:从基础执行(L0)到完全自主(L4),涵盖环境感知、多模态交互、目标生成与伦理决策等维度[10][15] - 关键技术里程碑包括:L2级实现多模态感知与避障,L3级突破动态场景人机协作,L4级需具备自我目标生成与长期学习能力[15] 行业应用进展 - **运动控制**:深度强化学习推动腿式机器人从模型预测控制(MPC)向端到端策略演进,双足行走与摔倒恢复技术显著提升[16] - **操作交互**:视觉-语言-动作一体化模型(VLM/LLM驱动)实现单臂抓取到全身协同控制,认知协作与社会嵌入成为研究热点[16] - **自动驾驶**:世界模型在nuScenes、Waymo等数据集上实现轨迹预测、BEV语义建模等突破,扩散模型与Transformer架构主导前沿研究[20] 开源生态 - 论文团队维护持续更新的文献与开源项目仓库(GitHub),涵盖物理模拟器配置、世界模型实现及跨平台部署方案[4][5]
上海交大/上海AI Lab翟广涛:当评测不再重要,AGI就实现了
机器之心· 2025-07-15 11:20
核心观点 - 完美的AI评测体系等同于通用人工智能(AGI),当评测不再重要时AGI才真正实现[3][20][21] - 当前AI评测体系存在数据污染、原子化能力评测局限性和主体危机三大核心问题[5][7][10] - 行业需要建立"以人为中心"的动态评测框架,通过EDGE技术路径实现训评一体[12][13][16] 评测体系现状与问题 数据污染 - 大公司普遍将评测数据集纳入训练集以提高分数,导致评测失去诊断价值[5][6] - Chatbot Arena存在系统性漏洞,厂商可通过秘密内测和用户偏好数据过度拟合[6] 原子化能力局限性 - 当前评测将智能拆解为数学推理等独立能力,但无法区分模型真实能力边界与提示优化效果[8] - 具身智能领域存在仿真环境与真实场景巨大差距(仿真成功率100% vs 真实世界5%)[9] 主体危机 - 企业自评存在利益冲突,学术界缺乏长期维护资源,需要新型中立机构主导[10] - 评测领域呈现碎片化态势,大量维度指标因论文创新需求被提出但无人维护[9] 解决方案与创新框架 以人为中心评测 - 采用统计学方法聚合用户主观体验(QoE),针对不同受众群体定制评测[13] - 建立超10万题高质量内部题库,采用季度性逐步开源策略防止污染[15] EDGE技术路径 - 四大特征:Evolving(演进)、Dynamic(动态)、Granular(粒度)、Ecosystem(生态)[13] - 三大评测支柱:信息质量、问题解决能力、交互体验[14] 训评一体机制 - 开发与人类偏好对齐的"AI裁判"作为奖励模型指导训练优化[17] - 提出AI-45°平衡律,要求能力与安全性同步提升[17] 行业影响与愿景 - 司南团队目标成为智能时代度量衡,引导行业从刷分竞赛转向价值创造[22] - 构建终极评测体系是通往AGI的核心路径,评测的消亡将标志AGI实现[21][24]
内部爆料:Alexandr Wang上任第一把火,Meta大模型闭源
机器之心· 2025-07-15 11:20
Meta AI战略调整 - 公司内部关于AI发展路径存在分歧 部分高层建议停止开源最优秀AI模型 另一些高管则认为开源策略仍有优势 [3] - 讨论焦点集中在最强开源模型Behemoth(Llama 4最大版本)上 该模型已完成数据训练但因性能问题延迟发布 [4][5] - 超级智能实验室高层讨论放弃Behemoth模型 转向开发闭源模型的可能性 [5] 组织架构与资源投入 - 公司完成对Scale AI的143亿美元投资 获得49%股份 并聘请其CEO Alexandr Wang担任首席AI官 [8] - AI部门重组为"Meta超级智能实验室" 由Alexandr Wang领导 团队包含新聘研究员、Scale AI副手及前GitHub CEO [9] - 公司计划2026年启用1GW超级集群"普罗米修斯" 成为首批拥有该规模AI数据中心的科技企业 [10] 行业影响与争议 - 若转向闭源策略 将标志着公司从哲学到技术层面的重大转变 [7] - OpenAI已宣布无限期推迟开源模型 加剧行业对开源生态萎缩的担忧 [15] - 创业公司和学术界可能面临挑战 后者可能被迫依赖中国开源模型 [16][20] 官方立场与未来方向 - 公司发言人声明保持开源立场 但承认会同时开发开源和闭源模型组合 [13] - 首席AI官Alexandr Wang向员工表示将致力于创造超级智能 但未明确开源或闭源模式 [14] - 最终决策需CEO批准 当前讨论仍处初步阶段 [13]
ICML 2025 | M+框架来了,增加LLM隐空间记忆,不再受上下文窗口限制
机器之心· 2025-07-15 11:20
论文背景与核心观点 - 论文提出M+框架,旨在扩展MemoryLLM的长期隐空间记忆能力,将8B级模型的有效记忆跨度从不到20k tokens提升到160k tokens以上,同时保持显存占用不变[2][4] - 核心观点是探索隐空间(Latent-Space)的Memory,相比传统文本级记忆更紧凑且可端到端训练,更接近人类神经激活存储信息的方式[6] 现有记忆模型的缺陷 - 上下文窗口不等同于记忆,GPT-4.1等模型即使支持100万token也会导致显存与延迟线性升高[5] - 主流Token-Level Memory方法存在三大问题:(1)原始文本冗余度高 (2)文本级冲突消解复杂 (3)多模态处理能力弱[5] M+的技术创新 - 在MemoryLLM基础上为8B Llama3模型引入1.67B Memory,每层加入12800个Memory Tokens作为Prefix通过Cross-Attention注入信息[8] - 采用协同提取器(Co-trained Retriever)从CPU侧长期记忆池检索信息,联合训练后记忆跨度从50k提升至160k[16][18] - 更新机制中保留被丢弃的Memory Token至长期记忆池,新生成Token替换旧Token完成更新[11][14] 性能表现 - GPU显存占用仅21,177.76MB,低于对比模型Llama-3.1-8B-SnapKV(32,574.49MB)和Llama-3.2-3B-128k(30,422.70MB)[19] - 在SQuAD数据集上展现超强信息留存能力,160k tokens后仍不完全遗忘历史信息[20] 未来方向 - 研究重点包括更高效存储机制、更智能检索策略及多模态融合的隐空间记忆架构[22] - 技术路线不仅扩展MemoryLLM,更致力于实现接近人类记忆能力的语言模型[22]
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
机器之心· 2025-07-15 08:59
大型语言模型训练新方法POET 核心观点 - 提出基于第一性原理的重参数化训练方法POET 通过正交等价变换实现高效稳定的大模型训练 严格保持权重矩阵奇异值分布并维持低超球能量 [3][6] - 该方法在LLaMA架构不同规模模型(60M至1.3B参数)上验证有效 显著降低验证困惑度(perplexity)并提升训练效率 [20][23] - 创新性引入两级近似方案解决计算扩展难题 参数效率最高可比AdamW提升mn/b(b-1)倍 [18][26][27] 技术原理 - 核心机制为将权重矩阵分解为随机固定矩阵与两个可学习正交矩阵的乘积 通过正交变换保持谱结构不变性 [11][17] - 采用归一化高斯初始化策略确保有界奇异值 实证显示其困惑度25.37优于标准初始化(26.22)和Xavier(25.79) [34][35] - 训练动态显示三阶段特征 包括锥壳搜索(余弦相似度0.6-0.65)、稳定学习及最终微调 [40][41] 性能优势 - 谱保持特性使350M参数模型训练中奇异值变化幅度比AdamW降低98% 谱多样性熵值持续高位 [13][15][17] - 在1.3B模型预训练中 POET-FS仅需AdamW 1/3训练步数(token量)即实现更低验证困惑度 [24] - 内存占用优化显著 块随机SPO变体参数复杂度仅为m+n 远低于AdamW的mn [26][27] 实现方法 - 开发Cayley-Neumann参数化近似 通过Neumann级数保持正交性 结合合并再初始化策略抑制误差 [19][29] - 提供完全随机SPO与块随机SPO两种变体 支持通过采样预算b灵活平衡效率与速度 [26][29][30] - 训练流程包含权重初始化、正交矩阵CNP参数化、内循环更新及合并再初始化五个标准化步骤 [28][32]
突发|动荡72小时后,华人团队Cognition收购Windsurf剩余团队
机器之心· 2025-07-15 08:59
收购事件概述 - 编程助手公司Cognition宣布收购Windsurf剩余员工和资产,并获得其银行账户中超过1亿美元资金[3] - 收购发生在Windsurf经历动荡72小时后,此前谷歌以24亿美元非独占授权费聘用其CEO及部分团队[4] - 交易条款未公布,但Cognition将获得Windsurf核心产品、品牌和剩余团队[6] 交易细节与时间线 - 收购谈判在谷歌交易公布几小时后启动,首次电话会议在周五下午5点后进行,协议于周一早上签署[8] - Windsurf临时CEO表示Cognition是其最尊重的AI团队,适合带领公司进入下一阶段[12] - Cognition CEO强调收购包括知识产权、产品、商标及世界级团队[15] 业务整合计划 - 短期内Windsurf保持独立运营,继续开发AI驱动的IDE,Cognition提供资金支持[7] - Cognition计划未来数月将Windsurf能力整合至自身产品线,包括旗舰自主智能体Devin[16] - 合并后将结合Devin的普及优势与Windsurf的IDE产品及市场推广体系[22] Windsurf业务数据 - 被收购方拥有8200万美元年度经常性收入(ARR),企业ARR季度增长翻倍[22] - 覆盖350多家企业客户及数十万日活跃用户[22] - 知识产权包括商标、品牌及完全访问Claude模型的IDE产品[22] 员工安置方案 - 100%员工获得财务收益、既往工作归属期限豁免及股权加速兑现[23] - Cognition承诺新员工与现有团队待遇平等,强调尊重其能力与价值[22]
AI下半场的「Game Changer」,直让老外惊呼「Amazing」
机器之心· 2025-07-14 19:33
核心观点 - 中国电信旗下TeleAI团队开发的AI Flow技术引发海外AI领域广泛关注,被评价为"重新定义棋局"的突破性创新[1][3][5] - AI Flow通过端-边-云协同架构实现智能的分布式流动,解决AI普及的"最后一公里"问题[28][30][68] - 该技术包含三大创新:分层网络架构、家族式同源模型和连接驱动的智能涌现[30][50][62] - 实验数据显示TOFC特征压缩技术可减少60%数据传输量,协同解码速度提升25%[41][49] 技术架构 端-边-云协同 - 采用设备层(端)、边缘层(边)、云层(云)三层网络架构,实现分布式推理[33][34] - 边缘服务器充当中介,可减少30-50%延迟并动态编排任务[37][38] - 创新TOFC方法通过特征压缩减少60%数据传输量[40][41] - 推测解码技术实现端边并行协作,生成速度提升25%[46][49] 家族式同源模型 - 7B参数模型"Ruyi"支持3B-7B参数动态调整,已开源供测试[57][58] - 采用权重分解(HPCD)和早退出(EESB)两大核心技术[54][56] - 支持计算接力机制,避免重复运算提升效率[56] 智能涌现机制 - 通过模型连接实现跨模态协同,产生1+1>2效应[63][64] - 设计LLM/VLM"圆桌会议"模式处理复杂跨领域问题[65][66] - 验证显示协同效果超越传统服务器范式[67] 行业影响 - Omdia将AI Flow列为"On the Radar"技术,认为其架起IT与CT桥梁[13][14] - 解决671B参数大模型在终端部署的算力瓶颈问题[21][25] - 突破自动驾驶、手术机器人等场景的毫秒级延迟限制[24][28] - 标志AI发展从"数据驱动"转向"连接驱动"新阶段[62][69] 研发背景 - 由中国电信CTO李学龙教授团队主导开发[8][9] - 李学龙是同时入选OSA/SPIE/AAAI/IEEE等学会Fellow的跨学科专家[10] - 技术灵感源自香农信息论与图灵计算理论的融合[17][18] - 基于运营商网络基础设施优势实现云网深度融合[71]
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
机器之心· 2025-07-14 19:33
多模态大模型视觉头研究 - 研究发现多模态大模型中仅有不到5%的注意力头专门负责视觉理解任务,这些"视觉头"能有效聚焦并提取图片关键信息,而大多数注意力头主要关注文本信息或其他辅助特征[2] - 视觉头稀疏性现象表明模型的视觉理解能力高度依赖于极少数专门化的注意力头,这一发现为模型结构优化和资源分配提供了理论依据[2][8] - 提出基于OCR任务的无训练方法量化每个注意力头对视觉内容的关注程度,通过字符与视觉区域映射关系计算视觉得分[14][16] SparseMM方法设计 - 提出三部分KV-Cache分配机制:固定窗口大小的局部缓存、均匀分配的保底缓存、按视觉得分优先分配的关键视觉头缓存[18][20] - 差异化缓存策略在DocVQA等OCR-rich数据集上表现优异,在10%缓存预算下仍保持全缓存配置性能,显著优于AdaKV等方法[22][23] - 方法在通用视觉任务中展现强泛化能力,GQA和VQAv2等复杂视觉推理任务性能下降幅度控制在1%以内[25] 性能与效率提升 - 在32K输入长度下实现最高1.87倍解码加速,峰值显存占用减少约15GB,Qwen2-VL-7B模型显存减少2GB[27] - 可视化分析显示视觉头能准确定位图中物体或文字,而非视觉头往往关注错误区域,验证了差异化分配的科学性[28] - 方法为高分辨率图像和长上下文任务提供高效解决方案,显著提升多模态大模型部署效率[27][31] 技术实现路径 - 通过OCR任务标注建立字符与视觉区域映射关系,精确计算每个注意力头的视觉得分[14][16] - 采用注意力头级别缓存分配机制,对视觉头分配更多缓存预算以保留视觉信息,非视觉头仅分配必要缓存[9][17] - 方法开源提供完整论文、代码和项目地址,便于行业应用和研究参考[4]