量子位

搜索文档
一招缓解LLM偏科!调整训练集组成,“秘方”在此 | 上交大&上海AI Lab等
量子位· 2025-06-10 15:35
IDEAL团队 投稿 量子位 | 公众号 QbitAI 大幅缓解LLM偏科,只需调整SFT训练集的组成。 本来不擅长coding的Llama 3.1-8B,代码能力明显提升。 上海交大&上海AI Lab联合团队提出创新方法 IDEAL ,可显著提升LLM在多种不同领域上的综合性能。 此外,研究还有一些重要发现,比如: 具体来看—— IDEAL方法 问题建模: 首先按照不同 的领域准备高质量的训练数据集: , 并给出对应的用于验证的验证集: 。通过在训练集上面训练模型θ,获得训练集上的最优参数:θ 论文 希望在验证 集上的损失达到最小。为了能够方便的调整训练集,论文引入了对应的变量β ,并将这个优化问题 显示地建模了出来: SFT后LLM部分能力甚至退化 大型语言模型 (LLM) 凭借其强大的理解和逻辑推理能力,在多个领域展现了惊人的能力。除了模型参数量的增大, 高质量的数据是公认的LLM性能提升最关键的影响因素。 当对模型进行监督微调(SFT)时,研究人员发现 LLM在多任务场景下常出现"偏科"现象 ——部分能力突出而部分 能力并未涨进,甚至退化。这种不平衡的现象导致大模型在不同的领域上能力不同,进而影响用户 ...
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 13:16
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认 的顶尖技术挑战。 但是,在 华为 ,昇腾万卡算力集群,已经可以做到近乎 "永不罢工" 了: 或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗? 关于这一切背后的秘密,华为在今天首次把技术给公开了出来。 高可用的核心:三套"智能保险系统" 答案是肯定的,需要,且有必要。 因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成 百上千的CT照片。 这些看似简单的智能应用,其实都离不开如 "超级大脑" 般的AI算力集群,需要它们全天候不停歇地运转着。 而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。 更严格来说,AI推理的可用度甚至还需要 达到99.95%的程度。 那么华为又是如何做到这点的? AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。 要解 ...
英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍
量子位· 2025-06-10 13:16
GSPN团队 投稿 量子位 | 公众号 QbitAI 二维线性传播:从行列并行到密集连接 视觉注意力机制 ,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。然而,面对高分辨率图像时,传统自 注意力有两个大难题: 虽然线性注意力和Mamba等方法能把复杂度降到O(N),但它们还是把图像当作一维序列处理,无法真正利用二维空间信息。 为此,香港大学与英伟达联合推出了 广义空间传播网络(GSPN) 。 GSPN采用二维线性传播,结合"稳定性–上下文条件",将计算量从 O(N²) 或 O(N) 再降到√N级别,并完整保留图像的空间连贯性。这样,不 仅大幅提升了效率,还在多个视觉任务上刷新了性能纪录。 兼具空间连贯性和计算效率 GSPN的核心技术是 二维线性传播 与 稳定性-上下文条件 ,基于此,现有注意力机制与GSPN的对比如下: 作为GSPN的核心组件,二维线性传播包括两个关键点: 线扫描机制 对于二维图像,二维线性传播通过逐行或逐列的顺序处理进行其遵循线性循环过程,隐藏层通过前一行的隐藏状态和当前输入计算得出: 计算量巨大: ...
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
量子位· 2025-06-10 13:16
北大邓小铁课题组 投稿 量子位 | 公众号 QbitAI 给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始"不听话"了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。 这项名为 IDA-Bench 的新基准,就是为了模拟真实世界中这种"边想边改"的分析场景而生。 它不再是给模型一道题,让它一口气算完;而是模拟一位真实的数据分析师,在对话中不断给出新指令,考察Agent在 多轮交互 中的真实 能力。 可以说,专治各种"自作主张"和"一意孤行"的AI。 值得一提的是,这项工作由一支星光熠熠的团队打造,汇集了 北京大学 与 加州大学伯克利分校 的 顶尖学者,其中不乏机器学习泰斗 Michael I. Jordan 教授,仿真科学领域专家 郑泽宇 (Zeyu Zheng) 副教授,以及ACM/IEEE Fellow 邓小铁 (Xiaotie Deng) 教授的身 影。 "不听话"的AI,问题出在哪? 目前,我们看到的很多大模型数据分析工具,比如OpenAI、Gemini和Claude的 ...
SOTA级视频编辑新方法:无需训练一句话编辑视频,背景保持100%
量子位· 2025-06-10 13:16
FlowDirector团队 投稿 量子位 | 公众号 QbitAI 传统的视频编辑工作流,正在被AI彻底重塑。 开销低:FlowDirector无反演过程,不需要存储任何额外的控制信息(如Attention Map),单卡4090就可实现高质量视频编辑。 支持广泛:除可进行传统的对象替换外,FlowDirector可以任意的添加、删除视频中的内容,以及进行一系列的纹理替换。 背景100%保持:通过对非编辑区域的"动力"进行冻结,使得编辑后的视频在无关区域与原视频完全保持一致。 方法:针对视频编辑中的「反演痛点」 现在的通用视频编辑方法大多基于反演-去噪(inversion-denosiong)范式: AI的视频编辑方法总是存在一些问题:例如视频运动不连贯、编辑后的视频产生意外变化等……经过分析,这些问题的产生最终大都指向同一 原因—— 反演-编辑范式 。 因此, 西湖大学AGILab 提出了一种全新的无需反演和训练的视频编辑新方法: FlowDirector 。 相较于其他视频编辑方法,FlowDirector有以下方面值得关注: 编辑结果展示: 这种范式带来了许多问题:反演过程中的错误会不断的累计,使得得 ...
全球人工智能创新创业大赛即将启幕!杭州拱墅全力打造AI创新高地
量子位· 2025-06-10 13:16
允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月,由杭州市拱墅区人民政府、中国人工智能学会、中欧人才交流与创新合作中心 联合主办的 "智汇运河·智算未来"全球人工智能创新创业大赛即将重磅启幕 。 大赛聚焦人工智能前沿领域,面向全球征集优质项目,旨在通过"以赛引才、以赛促创"模 式,推动海内外顶尖技术与产业资源汇聚杭州拱墅,助力打造具有国际影响力的人工智能创 新应用示范区,为国家高水平科技自立自强提供"拱墅样本"。 全球联动,共绘AI产业新图景 当前,人工智能技术正重塑全球产业格局。 作为中国数字经济高地,杭州近年来在人工智能领域持续领跑。拱墅区作为DeepSeek的发 源地,依托大运河数智未来城、智慧网谷小镇等产业平台,已集聚超500家人工智能相关企 业,已建立了"科学家+企业家+投资家"的协同创新、成果转化和产业孵化机制,加速推动人 工智能与实体经济深度融合。 在此背景下,为进一步激发创新活力,以"智汇运河・智算未来"为主题的全球人工智能创新 创业大赛应运而生。 大赛立足拱墅、辐射全球, 聚焦智能制造与智慧城市、生命健康、智慧物流、全球化协同创 新四大"AI+"主题赛道 ,打造立体化竞技 ...
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 12:05
RaML团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLM)以其卓越的文本生成和逻辑推理能力,深刻改变了我们与技术的互动方式。然而,这些令人瞩目的表现背后, LLM的内部机制却像一个神秘的"黑箱",让人难以捉摸其决策过程。 上海AI Lab的研究团队的近期提出Reasoning as Meta-Learning(RaML),尝试从 梯度下降 和 元学习 (Meta-Learning)的角度,揭示 了LLM如何"思考",并为优化其性能提供了新思路。 RaML的核心洞察:推理即"梯度下降" RaML框架的核心在于一个直观的类比:LLM在解决问题时生成的"推理轨迹"(即一步步推导的过程),就像模型参数在优化过程中的"伪梯度 下降"更新。 这意味着,当LLM进行多步推理时,其内部状态(即模型参数)会像典型的参数优化过程一样,逐步地"调整"和"适应",每一步都朝着更优的 解决方案逼近,直到得出最终的答案 。 研究团队通过理论推导发现,在Transformer模型中,每个推理轨迹的令牌都可以看作对参数的一次 "隐式更新" 。考虑典型的transformer块 的计算过程,当输入中增加一个推理轨迹令牌 ...
1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet,不用GPU也能运行
量子位· 2025-06-10 12:05
并且aider是一个接近现实软件工程任务的榜单,不是靠做题就能取胜。 △ 图中R1为一月份的0120满血版 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 1.93bit量化 之后的 DeepSeek-R1(0528),编程能力依然能超过Claude 4 Sonnet? 最新优化版R1 在编程榜单aider上取得了60%的成绩 ,不仅超过了Claude 4 Sonnet的56.4分,也超过了1月版的满血R1。 体积方面,相比8bit原始版,这个1.93bit版本, 文件大小降低了70%以上 。 看到如此轻量级的版本能有这样的表现,连作者本人都感到震惊。 而R1-0528的满血版在aider上则是取得了71.4分,超过了不开启思考的Claude 4 Opus。 量化版R1,不用GPU也能跑 这个量化版本来自Unsloth工作室,从1.66到5.5bit,Unsloth一共制作了9个量化版本。 | MoE Bits | Type + Link | Disk Size | Details | | --- | --- | --- | --- | | 1.66bit | TQ1_0 7 | 162GB | 1. ...
20年物理疑云消散!「μ子异常」最新实验未发现显著偏差,标准粒子模型屹立不倒
量子位· 2025-06-10 12:05
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 一度轰动物理学界的「 μ子异常 」,凉了。 美国费米实验室公布的最新实验结果显示: 尽管在2021年,研究人员发现μ子的磁性超出理论预测0.1%,令粒子物理标准模型笼上一朵阴云。 μ子的磁矩反映了它在磁场中的行为,可以用一个无量纲参数 g 来描述:g=2+a μ 。 但他们的「最终」测试结果指出, 并未发现新的显著偏差 。 也就是说, 一切仍与标准模型相符,此前被认为可能颠覆粒子物理学的「异常」并不成立 。 所谓 标准模型 ,是解释夸克、电子等微观粒子的物理模型。在希格斯玻色子被发现之后,标准模型预言的所有粒子都已被发现。 理论成功归成功,物理学家们却从未停止对「权威」的挑战——毕竟,在标准模型下,一些普遍存在的开放性问题不能得到很好的解释,比如 暗物质。 在这种背景之下,打从2001年就漂浮起的「μ子异常」疑云,对于物理学界而言无疑充满了诱惑。 但现在,围绕于此的好奇和质疑,可能都要烟消云散了。 μ子g-2异常 我们还是先回到事情的起点:什么是μ子异常? μ子是一种带电轻子,与电子性质相似,但质量约为电子的207倍。 其中,a μ 是μ子磁矩的反常值。 ...
6分钟狂掉750亿市值!苹果发布会发啥了…
量子位· 2025-06-10 10:23
一水 发自 凹非寺 量子位 | 公众号 QbitAI 开场仅6分钟市值就突然缩水750亿美元 (约合人民币5385.8亿元) ! 是什么让一众投资者对苹果发布会集体大失所望? 咳咳,原来"罪魁祸首"又是它: Siri 。 早在今年WWDC大会召开之前,用户和投资者其实对Siri的更新寄予了厚望,然而开场没多久,苹果软件主管Craig Federighi就尴尬宣布相 关更新可能要推迟到 明年 。 几乎就在这一时刻,苹果股价突然下跌逾2.5%,从约206美元跌至201美元以下,相当于市值缩水750亿美元。 事实上,本次苹果发布会最大看点主要有以下三方面: 仅从AI方面来看,苹果的相关动作还是被网友狠狠吐槽"太慢了"~ 而且沃顿商学院Ethan Mollick教授观察到,苹果的行为刚好和其他大型科技公司"背道而驰": 苹果加倍重视传统用户界面,而忽略了AI。 采用全新液态玻璃设计语言,号称"迄今规模最大设计更新"; AI方面,除了开放自家端侧模型,更多的还是引入第三方模型,并推出了一系列面向开发者的工具; 对包括iOS、macOS在内的全系操作系统进行功能更新,开始回归用户体验。 那么,本次WWDC大会究竟对AI有 ...