量子位

搜索文档
MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画
量子位· 2025-06-16 14:59
核心观点 - MIT理工男Alex Kachkine开发了一种结合AI算法的名画修复方法,将传统耗时数月/年的修复工作压缩至几小时,并实现了物理层面的修复效果 [1][2][7] - 该方法通过双层遮罩技术(彩色+白色薄膜)在不损害原画的前提下完成修复,且修复记录可数字化保存 [6][13][15][19] - 修复一幅15世纪油画(5612个修复区域,57314种颜色填充)仅耗时3.5小时,效率比传统方法提升66倍 [7][20] 技术流程 - 清洁原画:去除历史修复痕迹 [9] - 扫描分析:创建画作数字版本 [9] - AI修复:软件自动识别需修复区域及颜色 [9] - 制作双层遮罩:彩色层还原色彩,白色层保证色彩准确性 [13][15] - 打印对齐:高保真喷墨打印透明薄膜并精准贴合原画 [16] - 固定处理:喷涂传统清漆加固修复部分 [17] - 可逆性:特殊溶液可溶解薄膜恢复画作原貌 [18] 效率突破 - 修复600年历史油画的耗时从传统9个月缩短至3.5小时 [20] - 修复效果随缺损程度增加而提升 [21] - 完整保存数字化修复记录供未来参考 [19] 开发者背景 - 工程世家出身,拥有机械工程与经济学双学位 [27][31] - 曾研发病毒检测设备并共同创立GeneTiger公司 [32] - 在MIT实验室解决质谱仪离子源开发难题,论文被IEEE顶会收录 [34][35] - 童年艺术启蒙经历促使其探索工程与艺术的跨界融合 [38][39][41] 应用前景 - 目标为让更多仓库中受损艺术品重回公众视野 [44] - 方法持续优化中,具备规模化应用潜力 [43]
工业异常检测新突破,复旦等多模态融合监测入选CVPR 2025
量子位· 2025-06-16 14:59
多模态融合:Real-IAD D³ 的创新之处 Real-IAD D³团队 投稿 量子位 | 公众号 QbitAI 多模态融合检测,工业异常检测领域新突破! 复旦大学、荣旗工业科技、腾讯优图实验室 上海交通大学、上海海洋大学等机构联合发布高精度多模态数据集Real-IAD D³,并基于此数据 集提出了一种创新的多模态融合检测方法。 相关成果已被计算机视觉顶会CVPR 2025收录。 在工业生产中,异常检测是确保产品质量和安全的关键环节。然而,现有的异常检测方法在面对复杂工业环境时,常常因为数据集的局限性而 难以达到理想的检测效果。 为了突破这一瓶颈,研究人员们精心打造了 Real-IAD D³ 数据集,它不仅涵盖了高分辨率的 RGB 图像,还加入了伪 3D 光度立体图像和微 米级精度的 3D 点云数据,为异常检测提供了更丰富的信息。 Real-IAD D³数据集的灵感来源于实际的工业质检场景。在真实的工业生产中,质检人员需要快速、准确地识别出产品表面的各种缺陷,如划 痕、凹陷、裂缝等。这些缺陷不仅种类繁多,而且在不同的光照和材质背景下,其表现形式也各不相同。传统的2D图像检测方法在面对这些 复杂的缺陷时,往往 ...
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解:AI「吃」下6亿秒视频后,智能涌现
量子位· 2025-06-16 12:49
核心观点 - 小鹏汽车在CVPR 2025上首次验证了Scaling Law在自动驾驶VLA模型上的有效性,展示了其"自动驾驶基座模型"的技术突破[1][43][46] - 公司通过云端大模型+车端小模型蒸馏的技术路线,实现了AI司机的"智能涌现",在复杂场景下表现出超越传统方案的决策能力[4][7][9][11][13][14] - 新技术路线突破了传统端到端方案的局限性,构建了具备完整认知能力的"大脑+小脑"架构,为自动驾驶和具身智能的大一统奠定基础[26][27][57][60] 技术方案 - 云端部署720亿参数VLA大模型,以语言模型为骨干网络,融合视觉、语言和动作模块,实现环境理解到行为输出的闭环决策[30][33][36] - 车端部署蒸馏后的小模型,通过持续在线学习(Online Learning)实现能力迭代,G7车型搭载3颗自研图灵AI芯片,算力达2200TOPS[42][53][55] - 强化学习训练聚焦安全、效率、合规三大原则,并开发世界模型(World Model)生成高价值训练数据[37][38][39][40] 性能表现 - 在无规则代码托底情况下,基座模型直接控车完成加减速、变道绕行、转弯掉头等复杂驾驶任务,决策丝滑度显著优于传统方案[4][5][14][15] - 成功通过福州特殊路口等极端场景,展现出链式思考能力(CoT)和全局理解能力[17][18] - 模型累计训练2000多万条30秒视频片段,参数规模与数据量扩大过程中持续显现Scaling Law效应[43][46] 行业影响 - 首次从技术层面回应了"端到端只能模仿不能超越"的行业质疑,为L2与L4的技术路线融合提供新思路[27][60] - 云端算力达10 EFLOPS,集群效率超90%,全链路迭代周期5天,水平媲美顶尖AI公司[50][51] - 技术体系已实现车、机器人和飞行汽车通用,推动"AI定义汽车"向具身智能延伸[62][63][64] 产品落地 - 最新SUV G7预售价23.58万,成为量产L3级AI算力第一车,采用无激光雷达方案[2][15] - VLM作为车辆"大脑"统一舱驾交互,VLA-OL模型增强"小脑"运动规划能力[55][56] - 公司从2024年开始全面转向新技术路线,与行业主流方案形成明显差异[23][50]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:49
大模型推理优化技术R-KV - 核心观点:R-KV是一种通过实时压缩KV缓存解决大模型推理冗余问题的高效方法,显著降低显存占用并提升吞吐量,同时保持100%准确率 [1][2][3] 技术原理 - 采用三步流程:冗余识别+重要性评估+动态淘汰,通过链式思考(CoT)优化推理路径 [5] - 实时对token进行排序,保留信息丰富且多样化的token,阻断显存膨胀 [7][9] - 结合多头注意力评估贡献度(重要性打分)和余弦相似度检测重复内容(冗余打分),按优先级动态调度KV配额 [9] 性能优势 - 显存降低90%,吞吐量提升6.6倍,准确率保持100% [1] - 在DeepSeek-R1-Llama-8B模型中,解决AIME数学题时KV缓存从4.1GB大幅压缩 [6] - 相比SnapKV等现有方法,R-KV覆盖范围更广(保留题目关键词、中间值及最终答案),避免误删关键信息 [13][14][15] 基准测试结果 - 数学任务表现:R1-Llama-8B在MATH-500准确率34%,R1-Qwen-14B在AIME24准确率25%,均超越基线 [19] - 16K序列长度下,固定1024预算时显存节省93.75%,最大批处理402次,吞吐量达3188.82 tok/s [20] - 比例压缩模式下(10%预算),8K序列吞吐量达3809.15 tok/s,显存节省90% [20] 应用场景 - 边端设备长链推理:消费级GPU甚至手机NPU可运行 [22] - 多轮Agent复杂流程:如反思-重写-自评,突破显存限制 [22] - 强化学习加速:training-free方法即插即用 [22] 技术实现细节 - 可视化对比显示R-KV能跨段保留关键信息,而SnapKV聚焦局部片段导致重复 [12][13][14] - 计算开销被注意力成本降低抵消,序列越长收益越显著 [20][21] - 主要吞吐提升源于支持更大批处理规模,而非直接速度优化 [21]
20瓦就能运行下一代AI?科学家瞄上了神经形态计算
量子位· 2025-06-16 12:49
神经形态计算技术突破 - 美国国家实验室主导研发占地仅两平方米、神经元数量堪比人脑皮层的超级计算机,运行速度比生物大脑快25万到100万倍,功耗仅10千瓦[2] - 当前AI面临能源危机,大语言模型电费到2027年或达25万亿美元,而人类大脑仅需20瓦功率[3][4] - 神经形态计算被视为下一代AI关键方向,旨在用"灯泡级"能耗驱动强大智能[6][7] 神经形态计算技术原理 - 模拟人脑860亿神经元和100万亿突触结构,采用脉冲神经网络(SNN)整合记忆、处理和学习功能[8] - 核心技术特点包括事件驱动型通信、内存计算、自适应学习和高度可扩展性[9][10] - 相比传统AI更智能灵活,能通过反馈循环处理上下文信息,避免干扰[11][14] 行业发展现状与前景 - 现有神经形态计算机已实现10亿神经元和1000亿突触连接,证明大脑级扩展可行性[15] - IBM TrueNorth芯片和Intel Loihi芯片代表行业前沿技术,BrainChip等初创公司推出专用处理器[18] - 预计2025年全球神经形态计算市场规模达18.1亿美元,年复合增长率25.7%[19] 技术革命方向 - 科学家认为下一波AI技术爆发将是物理学与神经科学的结合[14] - 该技术有望超越传统AI界限,接近人类智能推理模式,为AGI带来突破[19] - 行业专家表示一旦实现商业化流程,可快速扩展至百万神经元规模系统[17]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 12:49
经典小游戏成为大模型Benchmark - 核心观点:经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准,o3-pro模型在该基准上表现优异,突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡,远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲,游戏需强行终止,其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比,o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏:推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式:游戏状态持续反馈给模型,模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助,包含感知、记忆、推理模块,并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化:马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini(与推箱子排名部分倒置) [14] - 测试基准动态更新,GitHub仓库半月前仅四关,原版推箱子含50+关卡 [9] - 项目完全开源,可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发,负责人张昊为卡内基梅隆博士、伯克利博士后,曾参与创立LMSYS(大模型竞技场开发方) [28][29][30] - 实验室获谷歌/英伟达资助,2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo(视频生成加速框架)获GitHub 1.5k星 [32]
AI ASMR突然火爆全网!3天狂揽近10万粉丝,一条切水果视频播放量破1650万
量子位· 2025-06-15 12:17
短视频平台AI ASMR现象 - AI ASMR视频近期在短视频平台爆火 一条切割浆果的视频获得1650万浏览量[1] - 某新账号3天内发布11条AI ASMR视频 快速积累97.6k粉丝和360万点赞[3] - 最受欢迎的内容为刀切玻璃质感水果的ASMR 画面与声音存在"诡异上头感"[4][17] AI ASMR内容特征 - 视频主题单一 多为AI生成的切割场景(水果/石头/手办) 画面呈现非现实透明质感[4][5] - 声音设计独特 硬物碰撞声与真实切割声混合 形成听觉冲突[7][8] - 用户反馈两极分化 早期评论聚焦AI标签 近期转向对听觉体验的夸赞[10][11] 技术驱动因素 - Google DeepMind的Veo 3模型是关键推手 实现画面与声音同步原生生成[22][23] - 技术突破点在于单次生成流程 无需后期音画匹配 显著提升制作效率[24][27] - 对比早期AI ASMR(仅音频生成) 当前方案解决画面生成与口型同步难题[29][32] 行业生态发展 - 多平台涌现同类内容 包括洋抖/ins/油管/B站 已形成AI ASMR Top5榜单[19][20][30] - a16z合伙人Olivia Moore推文引发关注 相关讨论获49.6k浏览量[21] - 部分用户抵触AI生成内容 但已有创作者计划开设专属频道[34][36]
破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基础模型
量子位· 2025-06-15 12:17
Griffin团队 投稿 量子位 | 公众号 QbitAI Griffin将RDB视为动态异质图进行建模与推理,通过在超过1.5亿行的表格数据上进行预训练和监督微调,构建了一个具备可迁移性与强泛化 能力的基础模型,相关成果已被国际顶级会议ICML 2025正式接收。 挑战:复杂的表间关系及丰富的表内语义信息 关系数据库通过明确的模式(Schema)定义数据结构,广泛服务于金融、电商、科研、物流、政府信息系统等关键领域,是现代信息社会的 核心数字基础设施。 根据市场预测,到2028年全球数据库管理系统(DBMS)市场将超过1330亿美元。 在企业系统和科学研究中普遍存在、结构复杂的关系型数据库(Relational DataBase, RDB)场景中,基础模型的探索仍处于早期阶段。 这是因为RDB中的多表交互和异质特征,使传统通用大模型在此类结构化环境下难以直接发挥效能。 基于此,北京大学 张牧涵团队 联合亚马逊云科技共同提出了 Griffin :一个具有开创性的、以图为中心的RDB基础模型。 然而,RDB智能建模所面临的挑战极为复杂,集中体现在以下三方面: 拓扑结构高度复杂 数据以多表形式存储,并通过主键外键 ...
全方位实测首个AI原生浏览器!618比价、写高考作文...网友:再见Chrome
量子位· 2025-06-15 12:17
产品功能 - 首个AI原生浏览器Dia启动内测 最大亮点是无需打开ChatGPT即可直接与任意网页对话 [1] - 支持一键比较两个不同网页内容 例如对比iPhone 16 Pro和OPPO Find X8 Pro的发布信息 [5] - 可总结YouTube视频内容 并支持定位视频时间点直接解答疑问 [7][8] - 自动从标签页获取上下文 无需手动复制粘贴或设置 [11] - 内嵌复制编辑器 光标点击文字即可进行对话处理 [32] - 支持多网页信息整合 包括单个标签页总结与多标签页对比推理 [18][19][20] 用户体验 - 界面简洁易上手 无需安装繁琐插件 [15][16] - AI响应速度丝滑 实现"哪里不懂点哪里"的交互体验 [41] - 计划功能强大 可查找民宿并生成7天行程安排 支持中英文混合输入 [21][24][25] - 写作能力可修改英语作文用词 但高级词汇应用仍需优化 [26][27][29] - 学习能力可总结烹饪视频步骤 但时间戳功能存在不稳定问题 [33][36][39] - 当前仅支持MacOS系统 暂未覆盖其他平台 [42] 公司背景 - 开发公司The Browser Company成立于2019年 此前推出过Arc浏览器 [43] - Arc浏览器曾因差异化设计获百万用户 2023年10月加入AI功能 [43][47] - 2024年公司放弃Arc转向开发Dia 因Arc架构难以大众化 [49][50][51] - 累计融资1.28亿美元 估值超5.5亿美元 投资者包括LinkedIn/Medium/Figma高管 [66] - 联创兼CEO Josh Miller曾创立Branch对话产品 2014年被Facebook以1500万美元收购 [55][59] - 技术团队包含Safari首席设计师和Chrome创始成员等顶尖人才 [66] 市场定位 - Dia定位为"基于浏览器的系统" 而非传统浏览器工具 [67] - 产品设计强调"简洁优先" 取代Arc时期的"新奇优先"理念 [51] - 目标解决用户多网页管理混乱痛点 通过AI实现深度信息集成 [44][46] - 当前测试阶段仅限Arc会员体验 采用邀请制推广 [10][12]
比马斯克Neuralink工艺更先进!我国成功开展首例侵入式脑机接口临床试验
量子位· 2025-06-15 12:17
一水 发自 凹非寺 量子位 | 公众号 QbitAI 用意念操控万物的"脑机接口",就这样离我们更近了?! 据央妈最新报道, 我国已成功开展首例侵入式脑机接口临床试验 —— 一位因意外事故导致四肢截肢的男子,现在 仅凭意念 就能玩五子棋游戏、发短信等等。 这项研究由中国科学院脑科学与智能技术卓越创新中心,联合复旦大学附属华山医院以及相关企业合作完成。 其成功标志着,除了马斯克的Neuralink,我国成为 全球第二个 进入侵入式脑机接口技术临床试验阶段的国家。 而且所植入的神经电极目前全球尺寸最小、柔性最强—— 植入体仅硬币大小 (为Neuralink产品1/2) ,超柔性电极约为头发丝的1/100 (超过Neuralink百倍) 。 长期还可能涉及对复杂物理外设进行控制,例如对机器狗、具身智能机器人等智能设备的控制,拓展生活边界。 而以上这些目标的实现,均离不开团队在脑机接口 软硬件方面所取得的突破 —— 用上了半导体加工工艺 作为一种侵入式脑机接口 (需要通过微创手术将电极植入大脑) ,团队在硬件设计上核心追求一个目标: 最大程度降低对脑组织的损伤 。 对于这一新进展,网友们除了纷纷感叹科幻照进现实,更有 ...