量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

智能体自己出现问题自己找！首次提出“自动化失败归因”课题 | ICML2025 Spotlight

量子位· 2025-06-11 10:27

核心观点 - LLM驱动的Multi-Agent系统存在脆弱性，单个Agent失误或信息传递错误可导致整体任务失败，目前依赖人工调试效率低下[5][7] - 研究首次提出"自动化失败归因"课题，需定位责任Agent(failure-responsible agent)和错误步骤(decisive error step)[8] - 构建首个专用数据集Who&When，覆盖127个LLM Multi-Agent系统的失败日志，含人工标注的细粒度责任划分[8][9] - 开发三种自动化归因方法：全局审视法(All-at-Once)、逐步侦查法(Step-by-Step)、二分定位法(Binary Search)，性能各有利弊[9][10] - 当前最佳方法在识别责任Agent上准确率仅53.5%，定位错误步骤准确率低至14.2%，任务难度超越现有SOTA模型能力[11][15] 研究方法与数据集 - **数据集Who&When**：包含算法生成和人工构建的127个系统失败日志，确保场景多样性和真实性[8] - **标注维度**：明确"谁"(责任Agent)、"何时"(错误步骤)、"为何"(自然语言解释)三要素[13] - **实验设定**：分"已知真实答案"(With Ground Truth)和"未知"(Without Ground Truth)两种场景测试[11] 自动化归因方法对比 - **All-at-Once**：单次分析完整日志，责任Agent识别准确率最高(54.33%)，但错误步骤定位仅12.5%，成本最低(17,106 tokens)[9][14] - **Step-by-Step**：逐步检查日志，错误步骤定位表现最优(25.51%)，但责任识别准确率仅35.2%，成本最高(87,720 tokens)[9][14] - **Binary Search**：二分递归定位，综合性能居中，责任识别准确率44.13%-51.72%，成本34,659 tokens[10][14] - **混合方法**：组合策略可提升性能(责任识别57.02%，错误步骤12.28%)，但成本激增至149,177 tokens[14] 实验结果与挑战 - **模型表现**：GPT-4o在All-at-Once模式下责任识别达54.31%，但其他模型(如DeepSeek R1)表现更差(10.34%)[15][16] - **关键瓶颈**：上下文长度增加会导致性能下降，错误步骤定位对长度敏感[17] - **行业意义**：为Multi-Agent系统提供从"评估"到"改进"的闭环优化路径，提升可靠性[18] 学术贡献与资源 - 论文获ICML 2025 Spotlight，代码与数据集已开源[4][19] - 参与机构包括宾夕法尼亚州立大学、Google DeepMind、Meta等顶尖机构[19]

自动化失败归因

Artificial Intelligence

LLM Multi - Agent系统

自动化失败归因

Artificial Intelligence

LLM Multi - Agent系统

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

量子位· 2025-06-10 15:35

语言模型与视频模型的对比 - 语言模型通过预测下一个词学习，取得了显著成功，其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习，但效果远不如语言模型，尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理，而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识，模仿已有推理结果，形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"（人类认知投影），却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程"，而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴，真实世界比作洞穴外阳光，AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介（文本数据），长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法，需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法，AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员，学术引用18万次[2][3] - 研究提出AI需突破"影子依赖"，将语言模型作为通用AI的起点[34][35]

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

量子位· 2025-06-10 15:35

模型性能与效率 - MiniCPM4提供8B和0.5B两种参数规模，仅使用同级别开源模型22%的训练开销就达到同级别最优性能 [1] - MiniCPM4-8B是首个开源原生稀疏模型，5%极高稀疏度支持长文本和深思考在端侧运行 [2] - 在MMLU等基准测试中，MiniCPM4-8B性能比肩Qwen-3-8B，超越Gemma-3-12B；0.5B版本超越同级Qwen-3-0.6B等模型 [3] - 在端侧芯片上实现长文本处理5倍常规加速与极限场景百倍加速 [4] 技术创新架构 - 采用高效稀疏注意力架构InfLLM v2，保持性能同时实现高效长上下文处理 [8] - InfLLM v2不引入额外参数，短序列推理速度不受影响 [10] - 相比NSA减少60%上下文选择计算成本 [11] - 上下文分块分区域处理，实现注意力层智能化选择机制 [14] 推理加速技术 - 构建轻量化CUDA推理框架CPM.cu与跨平台部署框架ArkInfer [20] - 提出FR-Spec词表剪枝技术，降低75%计算开销，实现2倍生成加速 [26][28][29] - 开发前缀感知GPTQ方法，排除初始词元干扰提升量化质量 [31][32] - 采用位置感知校准策略，消除初始词元统计偏差 [33] 数据与训练优化 - 仅使用8T词元达到Qwen3用36T词元的效果 [56] - 提出UltraClean高能力密度数据筛选方法，构建1T+高质量中英文语料 [61][71] - 开发UltraChat-v2合成数据框架，覆盖知识应用等五大技能领域 [77] - ModelTunnel v2预训练策略搜索仅需32GPU机时，大幅降低超参数搜索开销 [88] 应用场景表现 - 在Jetson AGX Orin上实现7倍解码加速，长序列处理优势明显 [108][109] - MiniCPM4-8B超越Gemma3-12B和Phi4-14B，0.5B版本超越Llama3.2-1B [114] - 训练数据量仅为Qwen3的22%但性能相当 [116] - 在128K上下文窗口达到100%准确率，稀疏度仅5% [119]

端侧模型

大语言模型

稀疏注意力机制

Artificial Intelligence

Artificial Intelligence

MiniCPM4

一招缓解LLM偏科！调整训练集组成，“秘方”在此 | 上交大&上海AI Lab等

量子位· 2025-06-10 15:35

核心观点 - 上海交大与上海AI Lab联合团队提出的IDEAL方法通过科学调整SFT训练集组成，显著缓解LLM多任务训练中的"偏科"现象，提升模型综合性能 [3][4] - 该方法基于数学建模量化不同领域数据对最终性能的影响，优化训练集配比，而非简单增加弱势领域数据量 [4][5] - 实验显示IDEAL使Llama 3.1-8B原本较弱的代码能力获得明显提升，且在多个领域benchmark上均实现平均性能优化 [2][10][11] 方法原理 - **问题建模**：引入变量β显式建模训练集优化问题，目标是最小化验证集损失函数，公式包含参数二阶矩阵逆运算 [5][7] - **高效计算**：采用K-FAC理论近似简化Hessian矩阵逆运算，筛选模型"重要层"参数降低计算量，通过超参数m控制调整比例 [8] - **配比优化**：数据分布配比比数据量更关键，不当配比下增加数据量或训练epoch会放大负面冲突 [6][15] 实验结果 - **领域覆盖**：在4领域4 benchmark和5领域8 benchmark测试中，IDEAL均优于人工经验配比，验证其普适性 [11] - **参数选择**：超参数m推荐值为0.15，过小影响优化效果，过大偏离原始分布 [15] - **对比基线**：相比DoReMi和DOGE等re-weighting方法，IDEAL在同等数据量下性能提升更显著 [15] 应用价值 - 自动化解决高质量多领域数据配比问题，替代人工经验调整，具有工程实用价值 [14] - 为LLM多任务训练提供理论框架，指导数据集的科学构建与优化 [4][5]

Artificial Intelligence

Large Language Model

Artificial Intelligence

IDEAL

Llama3.1 8B

Artificial Intelligence

Large Language Model

Artificial Intelligence

IDEAL

Llama3.1 8B

华为创造AI算力新纪录：万卡集群训练98%可用度，秒级恢复、分钟诊断

量子位· 2025-06-10 13:16

大模型算力集群技术 - 构建万卡级算力集群是全球顶尖技术挑战，性能稳定依赖强大算力支撑[1] - AI算力需24小时不间断运作，支撑导航路况分析、医疗CT诊断等实时智能应用[2][3] - AI推理可用度需达99.95%，高训练可用度、高线性度、快速故障消除是关键保障[4][5] 华为高可用技术体系三大基础能力 - **全栈可观测能力**：训练可用度98%（全年358天可用）、线性度超95%（1000卡比100卡快9.5倍）、秒级恢复与分钟级诊断[9] - **故障诊断组合拳**：包含全栈故障模式库、跨域诊断、计算节点诊断、网络诊断四大技术，缩短故障定位时间[12][19] - **自愈系统**：超节点光链路软件容错技术可容忍99%光模块闪断，HBM多比特ECC故障修复时间从数小时缩短至1分钟[15][16] 三大业务支撑能力 - **集群线性度**：Pangu Ultra 135B稠密模型4K卡训练线性度96%，718B稀疏模型8K卡线性度95.05%[24] - **训练快恢**：分层分级恢复系统实现万卡集群10分钟恢复，进程级在线恢复仅需30秒[27][29] - **推理快恢**：实例内重启恢复<5分钟，TOKEN级重试技术使HBM故障恢复时间从10分钟降至10秒[35][36] 关键技术突破 - **通信优化**：TACO拓扑任务分配、NSF网存算融合、NB分层通信、AICT无侵入诊断提升数据传输效率[31] - **推理架构容错**：三步保险计划（实例间切换、实例内重启、无损恢复）降低大EP架构故障影响[34][37] - **效率提升**：光链路压力测试使光模块闪断概率降至电链路水平，算力损失减少5%[16]

AI算力集群

Telecommunications Equipment

昇腾万卡算力集群

Pangu大模型

AI算力集群

Telecommunications Equipment

昇腾万卡算力集群

Pangu大模型

英伟达港大联手革新视觉注意力机制！GSPN高分辨率生成加速超84倍

量子位· 2025-06-10 13:16

GSPN团队投稿量子位 | 公众号 QbitAI 二维线性传播：从行列并行到密集连接视觉注意力机制，又有新突破，来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖，构建深度上下文。然而，面对高分辨率图像时，传统自注意力有两个大难题：虽然线性注意力和Mamba等方法能把复杂度降到O(N)，但它们还是把图像当作一维序列处理，无法真正利用二维空间信息。为此，香港大学与英伟达联合推出了广义空间传播网络（GSPN）。 GSPN采用二维线性传播，结合"稳定性–上下文条件"，将计算量从 O(N²) 或 O(N) 再降到√N级别，并完整保留图像的空间连贯性。这样，不仅大幅提升了效率，还在多个视觉任务上刷新了性能纪录。兼具空间连贯性和计算效率 GSPN的核心技术是二维线性传播与稳定性-上下文条件，基于此，现有注意力机制与GSPN的对比如下：作为GSPN的核心组件，二维线性传播包括两个关键点：线扫描机制对于二维图像，二维线性传播通过逐行或逐列的顺序处理进行其遵循线性循环过程，隐藏层通过前一行的隐藏状态和当前输入计算得出：计算量巨大： ...

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

量子位· 2025-06-10 13:16

大模型数据分析能力评估核心观点 - 顶尖大模型如Claude-3.7和Gemini-2.5 Pro在多轮交互式数据分析任务中表现不佳最高任务成功率仅40% [1][2][12] - 新基准IDA-Bench模拟真实数据分析场景突出动态迭代和主观决策过程现有评估方法无法反映真实协作可靠性 [3][6][7] - 模型存在"过度自信"或"过度谨慎"等行为缺陷在指令遵循与自主推理间难以平衡 [16][17][18] IDA-Bench测试框架 - **四大组件**： - 指令材料：源自真实Kaggle项目含专家主观洞察 [9] - 模拟用户：由大模型扮演动态生成模糊或变化指令 [9] - Agent测试环境：要求严格遵循指令编写执行代码 [9] - 沙盒环境：安全隔离的代码执行空间保持Jupyter式上下文 [9] - **自动化构建**：持续从最新Kaggle项目提取任务防止数据污染 [11] 模型表现数据 - **基准达成率**： - 第一梯队(Gemini-2.5-Pro/OpenAI o4-mini/Claude-3.7)仅40% [12][14] - DeepSeek-V3(24%)显著优于其思考型版本DeepSeek-R1(12%) [12] - **效率指标**： - Gemini-2.5-Pro平均耗时711秒交互18轮 [14] - Claude-3.7-Sonnet交互轮次最少(5.32轮)但成功率未提升 [14] 典型失败模式 - **幻觉行为**：虚构未执行的优化操作或捏造代码结果 [19] - **流程缺陷**： - Claude-3.7跳过关键步骤直接否定用户建议 [17] - Gemini-2.5-Pro因过度确认导致30轮简单操作超限 [17] - **技术错误**：列名大小写错误二分类标签格式错误等 [19]

Artificial Intelligence

LLM Agent

Artificial Intelligence

OpenAI o4 - mini

DeepSeek - V3

DeepSeek - R1

Artificial Intelligence

LLM Agent

Artificial Intelligence

OpenAI o4 - mini

DeepSeek - V3

DeepSeek - R1

SOTA级视频编辑新方法：无需训练一句话编辑视频，背景保持100%

量子位· 2025-06-10 13:16

FlowDirector团队投稿量子位 | 公众号 QbitAI 传统的视频编辑工作流，正在被AI彻底重塑。开销低：FlowDirector无反演过程，不需要存储任何额外的控制信息(如Attention Map)，单卡4090就可实现高质量视频编辑。支持广泛：除可进行传统的对象替换外，FlowDirector可以任意的添加、删除视频中的内容，以及进行一系列的纹理替换。背景100%保持：通过对非编辑区域的"动力"进行冻结，使得编辑后的视频在无关区域与原视频完全保持一致。方法：针对视频编辑中的「反演痛点」现在的通用视频编辑方法大多基于反演-去噪（inversion-denosiong）范式: AI的视频编辑方法总是存在一些问题：例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析，这些问题的产生最终大都指向同一原因—— 反演-编辑范式。因此，西湖大学AGILab 提出了一种全新的无需反演和训练的视频编辑新方法： FlowDirector 。相较于其他视频编辑方法，FlowDirector有以下方面值得关注：编辑结果展示：这种范式带来了许多问题：反演过程中的错误会不断的累计，使得得 ...

全球人工智能创新创业大赛即将启幕！杭州拱墅全力打造AI创新高地

量子位· 2025-06-10 13:16

允中发自凹非寺量子位 | 公众号 QbitAI 2025年6月，由杭州市拱墅区人民政府、中国人工智能学会、中欧人才交流与创新合作中心联合主办的 "智汇运河·智算未来"全球人工智能创新创业大赛即将重磅启幕。大赛聚焦人工智能前沿领域，面向全球征集优质项目，旨在通过"以赛引才、以赛促创"模式，推动海内外顶尖技术与产业资源汇聚杭州拱墅，助力打造具有国际影响力的人工智能创新应用示范区，为国家高水平科技自立自强提供"拱墅样本"。全球联动，共绘AI产业新图景当前，人工智能技术正重塑全球产业格局。作为中国数字经济高地，杭州近年来在人工智能领域持续领跑。拱墅区作为DeepSeek的发源地，依托大运河数智未来城、智慧网谷小镇等产业平台，已集聚超500家人工智能相关企业，已建立了"科学家+企业家+投资家"的协同创新、成果转化和产业孵化机制，加速推动人工智能与实体经济深度融合。在此背景下，为进一步激发创新活力，以"智汇运河・智算未来"为主题的全球人工智能创新创业大赛应运而生。大赛立足拱墅、辐射全球，聚焦智能制造与智慧城市、生命健康、智慧物流、全球化协同创新四大"AI+"主题赛道，打造立体化竞技 ...

Artificial Intelligence

揭秘LLM“思考”之谜：推理即“梯度下降”，元学习框架解构训练过程，还给优化提供新思路

量子位· 2025-06-10 12:05

RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程，推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码，模型对正确答案的置信度逐步上升，证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释，每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色，动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略"，形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导"，对较小模型收益显著(Pass@8提升31%，mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型，可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果，与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度，帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征，通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼，在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角，揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义，已开源代码和论文供进一步研究[32]