量子位

搜索文档
Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了
量子位· 2025-05-31 11:45
西风 发自 凹非寺 量子位 | 公众号 QbitAI Claude团队来搞 开源 了—— 推出" 电路追踪 " (circuit tracing) 工具,可以帮大伙儿 读懂大模型的"脑回路" ,追踪其思维过程。 该工具的核心在于生成 归因 图 (attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系, 呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的"决策逻辑"。 官方表示,此次发布的开源库支持在主流开源权重模型上快速生成归因图,而Neuronpedia托管的前端界面则进一步允许用户交互式探索。 总之,研究人员能够: 通过生成自有归因图,在支持的模型上进行电路追踪; 在交互式前端中 可视化、 注释和分享图 表 ; 通过 修改特征值并观察模型输出变化来验证假设 。 Anthropic CEO Dario Amodei表示: 目前,我们对AI内部运作的理解远远落后于其能力的发展。通过开源这些工具,我们希望让更广泛的社区更容易研究语言模型的内部机 制。我们期待看到这些工具在理解模型行为方面的应用, ...
AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力
量子位· 2025-05-31 11:45
AI记忆机制团队 投稿 量子位 | 公众号 QbitAI 当AI不再只是" 即兴发挥"的对话者,而开始拥有" 记忆力"—— 我们该如何重新定义智能? 来自香港中文大学、爱丁堡大学、 香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于 AI记忆 机制的系统性综述,旨在在大模型时代背景下, 重新审视并系统化理解智能体的记忆构建与演化路径。 大语言模型(LLMs)正快速从纯文本生成工具演化为具有长期交互能力的智能体。 这一转变对模型的" 记忆能力"提出了更高的要求——不仅要能即时理解上下文,还需具备跨轮对话、多模态输 入、个性化偏好等 长期记忆机制 。 然而,目前关于AI记忆系统的研究尚未形成统一清晰的框架,特别是缺乏对记忆机制底层原子操作的系统化理 解。 本综述首次从操作与表示两个维度出发,系统构建AI记忆的研究框架。 作者将AI中的记忆表示划分为 参数化记忆 与 上下文记忆 两大类, 并提出 六种基本记忆操作:巩固 (Consolidation)、 更新(Updating)、索引(Indexing)、遗忘( Forgetting)、检索(Retrieval)与 压缩( Compression) 。 这 ...
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
量子位· 2025-05-31 11:34
在推理+搜索方向,通义实验室搜索团队已提出ZeroSearch、OmniSearch等工作,通过在特定的下游任务进行强化学习训练,让大模型在与 环境交互的过程中学习使用搜索引擎。 该团队认为, 仅在特定任务上训练会导致模型的泛化能力受限 ,难以适应更多场景下的检索推理任务。 受BERT模型在预训练过程中使用的掩码 (Mask) 预测任务启发,MaskSearch引入了 检索增强型掩码预测任务 。 也就是让模型使用搜索工具,预测文本中被遮蔽的部分,在预训练过程中有效学习通用的任务分解、推理等智能体策略,同时熟练掌握搜索引 擎的使用方法,为其后续适配多领域任务奠定基础。 通义实验室 投稿 量子位 | 公众号 QbitAI 为提升大模型" 推理+ 搜 索 "能力,阿里通义实验室出手了。 最新研究开源 全新 通用 预训练框架 —— MaskSearch ,在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。 小模型甚至能媲美大模型表现。 不仅如此,MaskSearch可以兼容 监 督微 调 ( S FT) 和强化学习 (RL) 两种训练方法。 通过加入预训练的二阶段训练,MaskSearch相比只在下游任务进行 ...
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR
量子位· 2025-05-31 11:34
MaskMark团队 投稿 量子位 | 公众号 QbitAI 给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。 问题是,传统水印方法通常把图像当成一个整体处理,全局嵌入、水印提取一锅端,存在不少"短板": 比如,图像局部区域被篡改,就可能导致全局提取失败,也无法定位水印所在具体区域。 MaskMark-D(解码掩码) MaskMark-ED(编码+解码掩码) 其中核心技术流程,是 训练和推理的双重优化 。 多水印嵌入 可精准定位篡改区域 灵活提取局部水印 自适应支持32/64/128比特 水印全图嵌入,但能定位水印位置,支持局部提取。 即使部分图像被篡改,也能成功提取水印。 适合用于整体图像保护、版权声明和内容验证。 又比如,无法只保护某个区域,如人脸、LOGO等。 针对这个问题,现在,来自南洋理工大学和新加坡A* STAR前沿人工智能研究中心等机构的研究人员,提出了一种全新的局部鲁棒图像水印 方法—— MaskMark 。 该方法不仅在多个任务中全面超越Meta出品的SOTA模型WAM,而且训练成本只有它的1/15。 具体而言,MaskMark支持: 核心思路:让模型"看得见"水印在哪里 研 ...
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
量子位· 2025-05-31 11:34
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 陶哲轩转发,AI搞数学证明的标准习题集来了! DeepMind最新开源 形式化数学猜想库 —— 猜想库收录了经典的形式化表述的数学猜想集合,例如,解析数论中的四个朗道问题。 不仅如此,资源库中还提供了各种代码函数,以方便用户对自然语言的数学猜想进行形式化的表述。 DeepMind的形式化数学猜想库一经建成,团队就表示所有人都可以将数学猜想添加到资源库中,呼吁大家积极参与。 感兴趣的数学家们可以行动起来了。 陶哲轩曾用Lean形式化证明了PFR猜想(多项式Freiman-Ruzsa猜想),这项成就的第一步就是将猜想的核心概念转化为计算机可验证的形 式化版本。 目前,这位"数学界的计算机推广大神"已转发此项目,并表示: "如果希望利用自动化工具帮助开放性问题,那么对这些问题进行形式化表述是重要的第一步。" 形式化数学猜想库有什么用 虽然带证明的形式化定理语料库不断扩充,但仅陈述开放式猜想的形式化资源却十分稀缺。 这类资源有望成为自动定理证明或形式化工具的测试基准,来帮助AI模型提升数学推理及证明能力。 DeepMind此次开源的猜想库在一定程度上缓解了这个问题 ...
斯坦福意外用AI生成超强CUDA内核,性能比人类专家优化得还要好!翻倍碾压原生PyTorch,华人主创
量子位· 2025-05-31 11:34
明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,AI意外生成的内核(kernel),性能比人类专家专门优化过的还要好! 斯坦福最近披露了一组新发现,结果真的太亮眼了。 由AI优化的内核,在常见深度学习操作上,翻倍超越原生PyTorch,性能至多可以提升近400%—— (在NVIDIA L40S GPU上进行基准测试,性能百分比定义为参考时间除以生成的kernel_size时间) 更惊人的是,这一切都是 意外实现 的。 研究团队本来的目标是生成合成数据以训练内核生成模型。 结果发现,仅在测试阶段生成的合成数据本身,竟然可以生成性能非常优秀的内核。 围观网友:没想到AI也要取代内核工程师了。 矩阵乘法(Matmul,FP32) :性能达到PyTorch torch.matmul 的101.3%。 二维卷积(Conv2D) :性能达到 torch.nn.Conv2D 的179.9%。 Softmax :性能达到 torch.softmax 的111.8%。 层归一化(LayerNorm) :性能达到 torch.nn.LayerNorm 的484.4%。 Conv2D+ReLU+MaxPool ...
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
量子位· 2025-05-30 15:10
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 来和机器狗一起运动不?你的羽毛球搭子来了! 无需人工协助,仅靠强化学习 ,机器狗子就学会了羽毛球哐哐对打,就像这样—— 在室外: 在室内: 都不在话下。 基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部 (18个自由度) 移动,和手臂挥拍动作。 最终呈现出来的表现不赖,狗子最高挥拍速度达到12米/秒。 在与人类选手的协作比赛中, 某一回合连续击球10次 ,甚至涌现出如击球后回位中心的类人行为。 该研究在各种环境中进行了大量实验,验证了四足机器人预测羽毛球轨迹、有效导航服务区域,以及对人类球员进行最精准打击的能力。 证明了足式移动机器人在复杂和动态的体育场景中应用的可行性 。 研究背后团队来自 苏黎世联邦理工学院 。 相关论文刚刚发表在Science旗下子刊Science Robotics上。 然后生成关键指令,来控制四足底座。 羽毛球"大战"中涌现出类人行为 学会打羽毛球的机器狗是什么配置? 公开数据如下: 主体由 一个四足ANYmal-D底座 和 一个动态手臂DynaArm 组成。 它 配备了一个带有全局快门的ZED X立体相机用于 ...
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 15:10
MME-VideoOCR团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至 动态视频 时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 主要贡献如下: 构建精细的任务体系: 高质量、大规模数据集: 包含了 1,464 个精选视频片段,覆盖不同的分辨率、时长与场景。 构建了 2,000 条高质量、经人工标注的问答对,确保评测的精确性。 揭示当前 MLLM 的能力边界与局限: 研究背景 视频作为一种信息密度更高、场景更复杂的模态,其 OCR 任务的难度远超静态图像: 1 运动模糊、光影变化、视角切换以及复杂的时序关联 等视频的动态因素,都对 MLLM 的视频文字识别构成了显著的障碍。 2 视频中的 文字信息形式复杂多样 ,既可能出现在画面主体、背景场景,也可能以屏幕注释、水印或弹幕的方式存在。这要求模型能够建立 稳定的时空视觉-文本关联,以实现对分布在不同位置与时间段文字信息的准确识别、整合与 ...
实测!可灵AI季度收入1.5亿,最新版本正式发布:物理真实感大幅提升
量子位· 2025-05-30 15:10
克雷西 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 提质不加价 ,可灵新版视频生成模型正式登场! 新版本依然是一石激起千层浪,不到24小时就有超过72万次阅读。 我们也带来了新鲜实测! 没有辅助提示词的情况下,2.1版的图生视频相比于前一代1.6普通版,明显内容更加合理了。 △ 上半部分为2.1新版生成,下半部分为1.6 这一波快手上线了可灵2.1的两个版本,距离上次大更新过了一个多月: 这也是快手战略调整,成立可灵AI事业部之后,可灵大模型的第一次大更新。 有网友试用之后表示,这就是可灵对Veo3的回应。 2.1普通版:1080/720P,运动更好、细节更到位、更自然、画面更流畅,且主打性价比; 2.1大师版:1080P,质量更高,大幅度运动表现更好(价格也更高)。 模型一片叫好声之余,可灵创造的业绩数据也随着快手最新一季财报新鲜出炉—— 今年前三个月,快手靠可灵收入了1.5个亿 ,超过了去年7月到今年2月可灵的收入总和。 实测可灵2.1 那我们就先来看看超高性价比的2.1普通版,具体又包括了标准的720P和高品质的1080P两种模式。 目前普通版只支持图生视频,文生视频将在之后上线(大师版已支持 ...
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
量子位· 2025-05-30 13:01
AI生图技术突破 - FLUX1 Kontext采用流匹配架构(Flow Matching)实现文本和图像输入的同步处理,突破传统文本编码器与扩散模型分离的技术路线[2] - 该模型由Black Forest Labs开发,具备真正的上下文生成和编辑能力,在奥特曼照片编辑和猩猩打羽毛球生成案例中展现细节丰富度[3][4][5] - 提供专业版(pro)和最高配版(max)两种型号,后者在提示遵循、文字排版和一致性方面有提升[7] 核心功能特性 - 角色一致性:支持跨场景保留人物特征,需通过详细描述保持面部、服饰等元素[11][28][29] - 局部编辑:可精准修改特定区域而不影响其他部分,复杂编辑需分步骤描述[11][15][18] - 风格迁移:需具体到艺术流派或艺术家特征,模糊描述会导致效果偏差[19][20] - 文本编辑:支持增删改文本,但需注意字体易读性和文本长度匹配[22][24][25] 技术性能比较 - 第三方测试显示FLUX1 Kontext在图像质量上优于OpenAI的GPT-4o,且成本更低、无偏色问题[12] - 当前文生图领域排名前三为GPT-4o、Seedream 30和Recraft V3,FLUX1前代产品已落后[34][35] 使用优化建议 - 编辑场景时需明确摄像机角度等构图要素,动词选择需具体化(如"换衣服"优于"改造")[32][37] - 复杂修改应分解为小步骤,通过"保持原始构图"等短语保护关键元素[37] - 颜色和视觉元素需精准命名,避免模糊表述,文本编辑需使用引号标注[37]