Workflow
量子位
icon
搜索文档
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
量子位· 2025-06-11 10:27
核心观点 - LLM驱动的Multi-Agent系统存在脆弱性,单个Agent失误或信息传递错误可导致整体任务失败,目前依赖人工调试效率低下[5][7] - 研究首次提出"自动化失败归因"课题,需定位责任Agent(failure-responsible agent)和错误步骤(decisive error step)[8] - 构建首个专用数据集Who&When,覆盖127个LLM Multi-Agent系统的失败日志,含人工标注的细粒度责任划分[8][9] - 开发三种自动化归因方法:全局审视法(All-at-Once)、逐步侦查法(Step-by-Step)、二分定位法(Binary Search),性能各有利弊[9][10] - 当前最佳方法在识别责任Agent上准确率仅53.5%,定位错误步骤准确率低至14.2%,任务难度超越现有SOTA模型能力[11][15] 研究方法与数据集 - **数据集Who&When**:包含算法生成和人工构建的127个系统失败日志,确保场景多样性和真实性[8] - **标注维度**:明确"谁"(责任Agent)、"何时"(错误步骤)、"为何"(自然语言解释)三要素[13] - **实验设定**:分"已知真实答案"(With Ground Truth)和"未知"(Without Ground Truth)两种场景测试[11] 自动化归因方法对比 - **All-at-Once**:单次分析完整日志,责任Agent识别准确率最高(54.33%),但错误步骤定位仅12.5%,成本最低(17,106 tokens)[9][14] - **Step-by-Step**:逐步检查日志,错误步骤定位表现最优(25.51%),但责任识别准确率仅35.2%,成本最高(87,720 tokens)[9][14] - **Binary Search**:二分递归定位,综合性能居中,责任识别准确率44.13%-51.72%,成本34,659 tokens[10][14] - **混合方法**:组合策略可提升性能(责任识别57.02%,错误步骤12.28%),但成本激增至149,177 tokens[14] 实验结果与挑战 - **模型表现**:GPT-4o在All-at-Once模式下责任识别达54.31%,但其他模型(如DeepSeek R1)表现更差(10.34%)[15][16] - **关键瓶颈**:上下文长度增加会导致性能下降,错误步骤定位对长度敏感[17] - **行业意义**:为Multi-Agent系统提供从"评估"到"改进"的闭环优化路径,提升可靠性[18] 学术贡献与资源 - 论文获ICML 2025 Spotlight,代码与数据集已开源[4][19] - 参与机构包括宾夕法尼亚州立大学、Google DeepMind、Meta等顶尖机构[19]
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
语言模型与视频模型的对比 - 语言模型通过预测下一个词学习,取得了显著成功,其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习,但效果远不如语言模型,尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理,而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识,模仿已有推理结果,形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"(人类认知投影),却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程",而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴,真实世界比作洞穴外阳光,AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介(文本数据),长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法,需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法,AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员,学术引用18万次[2][3] - 研究提出AI需突破"影子依赖",将语言模型作为通用AI的起点[34][35]
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
量子位· 2025-06-10 15:35
模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模,仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型,5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中,MiniCPM4-8B性能比肩Qwen-3-8B,超越Gemma-3-12B;0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2,保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数,短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理,实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术,降低75%计算开销,实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法,排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略,消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法,构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架,覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时,大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速,长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B,0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率,稀疏度仅5% [119]
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
量子位· 2025-06-10 15:35
核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成,显著缓解LLM多任务训练中的"偏科"现象,提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响,优化训练集配比,而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升,且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**:引入变量β显式建模训练集优化问题,目标是最小化验证集损失函数,公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**:采用K-FAC理论近似简化Hessian矩阵逆运算,筛选模型"重要层"参数降低计算量,通过超参数m控制调整比例 [8] - **配比优化**:数据分布配比比数据量更关键,不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**:在4领域4 benchmark和5领域8 benchmark测试中,IDEAL均优于人工经验配比,验证其普适性 [11] - **参数选择**:超参数m推荐值为0.15,过小影响优化效果,过大偏离原始分布 [15] - **对比基线**:相比DoReMi和DOGE等re-weighting方法,IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题,替代人工经验调整,具有工程实用价值 [14] - 为LLM多任务训练提供理论框架,指导数据集的科学构建与优化 [4][5]
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 13:16
大模型算力集群技术 - 构建万卡级算力集群是全球顶尖技术挑战,性能稳定依赖强大算力支撑[1] - AI算力需24小时不间断运作,支撑导航路况分析、医疗CT诊断等实时智能应用[2][3] - AI推理可用度需达99.95%,高训练可用度、高线性度、快速故障消除是关键保障[4][5] 华为高可用技术体系 三大基础能力 - **全栈可观测能力**:训练可用度98%(全年358天可用)、线性度超95%(1000卡比100卡快9.5倍)、秒级恢复与分钟级诊断[9] - **故障诊断组合拳**:包含全栈故障模式库、跨域诊断、计算节点诊断、网络诊断四大技术,缩短故障定位时间[12][19] - **自愈系统**:超节点光链路软件容错技术可容忍99%光模块闪断,HBM多比特ECC故障修复时间从数小时缩短至1分钟[15][16] 三大业务支撑能力 - **集群线性度**:Pangu Ultra 135B稠密模型4K卡训练线性度96%,718B稀疏模型8K卡线性度95.05%[24] - **训练快恢**:分层分级恢复系统实现万卡集群10分钟恢复,进程级在线恢复仅需30秒[27][29] - **推理快恢**:实例内重启恢复<5分钟,TOKEN级重试技术使HBM故障恢复时间从10分钟降至10秒[35][36] 关键技术突破 - **通信优化**:TACO拓扑任务分配、NSF网存算融合、NB分层通信、AICT无侵入诊断提升数据传输效率[31] - **推理架构容错**:三步保险计划(实例间切换、实例内重启、无损恢复)降低大EP架构故障影响[34][37] - **效率提升**:光链路压力测试使光模块闪断概率降至电链路水平,算力损失减少5%[16]
英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍
量子位· 2025-06-10 13:16
GSPN团队 投稿 量子位 | 公众号 QbitAI 二维线性传播:从行列并行到密集连接 视觉注意力机制 ,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。然而,面对高分辨率图像时,传统自 注意力有两个大难题: 虽然线性注意力和Mamba等方法能把复杂度降到O(N),但它们还是把图像当作一维序列处理,无法真正利用二维空间信息。 为此,香港大学与英伟达联合推出了 广义空间传播网络(GSPN) 。 GSPN采用二维线性传播,结合"稳定性–上下文条件",将计算量从 O(N²) 或 O(N) 再降到√N级别,并完整保留图像的空间连贯性。这样,不 仅大幅提升了效率,还在多个视觉任务上刷新了性能纪录。 兼具空间连贯性和计算效率 GSPN的核心技术是 二维线性传播 与 稳定性-上下文条件 ,基于此,现有注意力机制与GSPN的对比如下: 作为GSPN的核心组件,二维线性传播包括两个关键点: 线扫描机制 对于二维图像,二维线性传播通过逐行或逐列的顺序处理进行其遵循线性循环过程,隐藏层通过前一行的隐藏状态和当前输入计算得出: 计算量巨大: ...
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
量子位· 2025-06-10 13:16
大模型数据分析能力评估 核心观点 - 顶尖大模型如Claude-3.7和Gemini-2.5 Pro在多轮交互式数据分析任务中表现不佳 最高任务成功率仅40% [1][2][12] - 新基准IDA-Bench模拟真实数据分析场景 突出动态迭代和主观决策过程 现有评估方法无法反映真实协作可靠性 [3][6][7] - 模型存在"过度自信"或"过度谨慎"等行为缺陷 在指令遵循与自主推理间难以平衡 [16][17][18] IDA-Bench测试框架 - **四大组件**: - 指令材料:源自真实Kaggle项目 含专家主观洞察 [9] - 模拟用户:由大模型扮演 动态生成模糊或变化指令 [9] - Agent测试环境:要求严格遵循指令编写执行代码 [9] - 沙盒环境:安全隔离的代码执行空间 保持Jupyter式上下文 [9] - **自动化构建**:持续从最新Kaggle项目提取任务 防止数据污染 [11] 模型表现数据 - **基准达成率**: - 第一梯队(Gemini-2.5-Pro/OpenAI o4-mini/Claude-3.7)仅40% [12][14] - DeepSeek-V3(24%)显著优于其思考型版本DeepSeek-R1(12%) [12] - **效率指标**: - Gemini-2.5-Pro平均耗时711秒 交互18轮 [14] - Claude-3.7-Sonnet交互轮次最少(5.32轮)但成功率未提升 [14] 典型失败模式 - **幻觉行为**:虚构未执行的优化操作或捏造代码结果 [19] - **流程缺陷**: - Claude-3.7跳过关键步骤直接否定用户建议 [17] - Gemini-2.5-Pro因过度确认导致30轮简单操作超限 [17] - **技术错误**:列名大小写错误 二分类标签格式错误等 [19]
SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%
量子位· 2025-06-10 13:16
FlowDirector团队 投稿 量子位 | 公众号 QbitAI 传统的视频编辑工作流,正在被AI彻底重塑。 开销低:FlowDirector无反演过程,不需要存储任何额外的控制信息(如Attention Map),单卡4090就可实现高质量视频编辑。 支持广泛:除可进行传统的对象替换外,FlowDirector可以任意的添加、删除视频中的内容,以及进行一系列的纹理替换。 背景100%保持:通过对非编辑区域的"动力"进行冻结,使得编辑后的视频在无关区域与原视频完全保持一致。 方法:针对视频编辑中的「反演痛点」 现在的通用视频编辑方法大多基于反演-去噪(inversion-denosiong)范式: AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一 原因—— 反演-编辑范式 。 因此, 西湖大学AGILab 提出了一种全新的无需反演和训练的视频编辑新方法: FlowDirector 。 相较于其他视频编辑方法,FlowDirector有以下方面值得关注: 编辑结果展示: 这种范式带来了许多问题:反演过程中的错误会不断的累计,使得得 ...
全球人工智能创新创业大赛即将启幕!杭州拱墅全力打造AI创新高地
量子位· 2025-06-10 13:16
允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月,由杭州市拱墅区人民政府、中国人工智能学会、中欧人才交流与创新合作中心 联合主办的 "智汇运河·智算未来"全球人工智能创新创业大赛即将重磅启幕 。 大赛聚焦人工智能前沿领域,面向全球征集优质项目,旨在通过"以赛引才、以赛促创"模 式,推动海内外顶尖技术与产业资源汇聚杭州拱墅,助力打造具有国际影响力的人工智能创 新应用示范区,为国家高水平科技自立自强提供"拱墅样本"。 全球联动,共绘AI产业新图景 当前,人工智能技术正重塑全球产业格局。 作为中国数字经济高地,杭州近年来在人工智能领域持续领跑。拱墅区作为DeepSeek的发 源地,依托大运河数智未来城、智慧网谷小镇等产业平台,已集聚超500家人工智能相关企 业,已建立了"科学家+企业家+投资家"的协同创新、成果转化和产业孵化机制,加速推动人 工智能与实体经济深度融合。 在此背景下,为进一步激发创新活力,以"智汇运河・智算未来"为主题的全球人工智能创新 创业大赛应运而生。 大赛立足拱墅、辐射全球, 聚焦智能制造与智慧城市、生命健康、智慧物流、全球化协同创 新四大"AI+"主题赛道 ,打造立体化竞技 ...
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 12:05
RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程,推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码,模型对正确答案的置信度逐步上升,证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释,每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色,动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略",形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导",对较小模型收益显著(Pass@8提升31%,mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型,可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果,与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度,帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征,通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼,在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角,揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义,已开源代码和论文供进一步研究[32]