量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-06-16 14:59

核心观点 - MIT理工男Alex Kachkine开发了一种结合AI算法的名画修复方法，将传统耗时数月/年的修复工作压缩至几小时，并实现了物理层面的修复效果 [1][2][7] - 该方法通过双层遮罩技术（彩色+白色薄膜）在不损害原画的前提下完成修复，且修复记录可数字化保存 [6][13][15][19] - 修复一幅15世纪油画（5612个修复区域，57314种颜色填充）仅耗时3.5小时，效率比传统方法提升66倍 [7][20] 技术流程 - 清洁原画：去除历史修复痕迹 [9] - 扫描分析：创建画作数字版本 [9] - AI修复：软件自动识别需修复区域及颜色 [9] - 制作双层遮罩：彩色层还原色彩，白色层保证色彩准确性 [13][15] - 打印对齐：高保真喷墨打印透明薄膜并精准贴合原画 [16] - 固定处理：喷涂传统清漆加固修复部分 [17] - 可逆性：特殊溶液可溶解薄膜恢复画作原貌 [18] 效率突破 - 修复600年历史油画的耗时从传统9个月缩短至3.5小时 [20] - 修复效果随缺损程度增加而提升 [21] - 完整保存数字化修复记录供未来参考 [19] 开发者背景 - 工程世家出身，拥有机械工程与经济学双学位 [27][31] - 曾研发病毒检测设备并共同创立GeneTiger公司 [32] - 在MIT实验室解决质谱仪离子源开发难题，论文被IEEE顶会收录 [34][35] - 童年艺术启蒙经历促使其探索工程与艺术的跨界融合 [38][39][41] 应用前景 - 目标为让更多仓库中受损艺术品重回公众视野 [44] - 方法持续优化中，具备规模化应用潜力 [43]

工业异常检测新突破，复旦等多模态融合监测入选CVPR 2025

量子位· 2025-06-16 14:59

多模态融合：Real-IAD D³ 的创新之处 Real-IAD D³团队投稿量子位 | 公众号 QbitAI 多模态融合检测，工业异常检测领域新突破！复旦大学、荣旗工业科技、腾讯优图实验室上海交通大学、上海海洋大学等机构联合发布高精度多模态数据集Real-IAD D³，并基于此数据集提出了一种创新的多模态融合检测方法。相关成果已被计算机视觉顶会CVPR 2025收录。在工业生产中，异常检测是确保产品质量和安全的关键环节。然而，现有的异常检测方法在面对复杂工业环境时，常常因为数据集的局限性而难以达到理想的检测效果。为了突破这一瓶颈，研究人员们精心打造了 Real-IAD D³ 数据集，它不仅涵盖了高分辨率的 RGB 图像，还加入了伪 3D 光度立体图像和微米级精度的 3D 点云数据，为异常检测提供了更丰富的信息。 Real-IAD D³数据集的灵感来源于实际的工业质检场景。在真实的工业生产中，质检人员需要快速、准确地识别出产品表面的各种缺陷，如划痕、凹陷、裂缝等。这些缺陷不仅种类繁多，而且在不同的光照和材质背景下，其表现形式也各不相同。传统的2D图像检测方法在面对这些复杂的缺陷时，往往 ...

Scaling Law首次在自动驾驶赛道被验证！小鹏汽车CVPR演讲详解：AI「吃」下6亿秒视频后，智能涌现

量子位· 2025-06-16 12:49

核心观点 - 小鹏汽车在CVPR 2025上首次验证了Scaling Law在自动驾驶VLA模型上的有效性，展示了其"自动驾驶基座模型"的技术突破[1][43][46] - 公司通过云端大模型+车端小模型蒸馏的技术路线，实现了AI司机的"智能涌现"，在复杂场景下表现出超越传统方案的决策能力[4][7][9][11][13][14] - 新技术路线突破了传统端到端方案的局限性，构建了具备完整认知能力的"大脑+小脑"架构，为自动驾驶和具身智能的大一统奠定基础[26][27][57][60] 技术方案 - 云端部署720亿参数VLA大模型，以语言模型为骨干网络，融合视觉、语言和动作模块，实现环境理解到行为输出的闭环决策[30][33][36] - 车端部署蒸馏后的小模型，通过持续在线学习(Online Learning)实现能力迭代，G7车型搭载3颗自研图灵AI芯片，算力达2200TOPS[42][53][55] - 强化学习训练聚焦安全、效率、合规三大原则，并开发世界模型(World Model)生成高价值训练数据[37][38][39][40] 性能表现 - 在无规则代码托底情况下，基座模型直接控车完成加减速、变道绕行、转弯掉头等复杂驾驶任务，决策丝滑度显著优于传统方案[4][5][14][15] - 成功通过福州特殊路口等极端场景，展现出链式思考能力(CoT)和全局理解能力[17][18] - 模型累计训练2000多万条30秒视频片段，参数规模与数据量扩大过程中持续显现Scaling Law效应[43][46] 行业影响 - 首次从技术层面回应了"端到端只能模仿不能超越"的行业质疑，为L2与L4的技术路线融合提供新思路[27][60] - 云端算力达10 EFLOPS，集群效率超90%，全链路迭代周期5天，水平媲美顶尖AI公司[50][51] - 技术体系已实现车、机器人和飞行汽车通用，推动"AI定义汽车"向具身智能延伸[62][63][64] 产品落地 - 最新SUV G7预售价23.58万，成为量产L3级AI算力第一车，采用无激光雷达方案[2][15] - VLM作为车辆"大脑"统一舱驾交互，VLA-OL模型增强"小脑"运动规划能力[55][56] - 公司从2024年开始全面转向新技术路线，与行业主流方案形成明显差异[23][50]

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

量子位· 2025-06-16 12:49

大模型推理优化技术R-KV - 核心观点：R-KV是一种通过实时压缩KV缓存解决大模型推理冗余问题的高效方法，显著降低显存占用并提升吞吐量，同时保持100%准确率 [1][2][3] 技术原理 - 采用三步流程：冗余识别+重要性评估+动态淘汰，通过链式思考（CoT）优化推理路径 [5] - 实时对token进行排序，保留信息丰富且多样化的token，阻断显存膨胀 [7][9] - 结合多头注意力评估贡献度（重要性打分）和余弦相似度检测重复内容（冗余打分），按优先级动态调度KV配额 [9] 性能优势 - 显存降低90%，吞吐量提升6.6倍，准确率保持100% [1] - 在DeepSeek-R1-Llama-8B模型中，解决AIME数学题时KV缓存从4.1GB大幅压缩 [6] - 相比SnapKV等现有方法，R-KV覆盖范围更广（保留题目关键词、中间值及最终答案），避免误删关键信息 [13][14][15] 基准测试结果 - 数学任务表现：R1-Llama-8B在MATH-500准确率34%，R1-Qwen-14B在AIME24准确率25%，均超越基线 [19] - 16K序列长度下，固定1024预算时显存节省93.75%，最大批处理402次，吞吐量达3188.82 tok/s [20] - 比例压缩模式下（10%预算），8K序列吞吐量达3809.15 tok/s，显存节省90% [20] 应用场景 - 边端设备长链推理：消费级GPU甚至手机NPU可运行 [22] - 多轮Agent复杂流程：如反思-重写-自评，突破显存限制 [22] - 强化学习加速：training-free方法即插即用 [22] 技术实现细节 - 可视化对比显示R-KV能跨段保留关键信息，而SnapKV聚焦局部片段导致重复 [12][13][14] - 计算开销被注意力成本降低抵消，序列越长收益越显著 [20][21] - 主要吞吐提升源于支持更大批处理规模，而非直接速度优化 [21]

20瓦就能运行下一代AI？科学家瞄上了神经形态计算

量子位· 2025-06-16 12:49

神经形态计算技术突破 - 美国国家实验室主导研发占地仅两平方米、神经元数量堪比人脑皮层的超级计算机，运行速度比生物大脑快25万到100万倍，功耗仅10千瓦[2] - 当前AI面临能源危机，大语言模型电费到2027年或达25万亿美元，而人类大脑仅需20瓦功率[3][4] - 神经形态计算被视为下一代AI关键方向，旨在用"灯泡级"能耗驱动强大智能[6][7] 神经形态计算技术原理 - 模拟人脑860亿神经元和100万亿突触结构，采用脉冲神经网络(SNN)整合记忆、处理和学习功能[8] - 核心技术特点包括事件驱动型通信、内存计算、自适应学习和高度可扩展性[9][10] - 相比传统AI更智能灵活，能通过反馈循环处理上下文信息，避免干扰[11][14] 行业发展现状与前景 - 现有神经形态计算机已实现10亿神经元和1000亿突触连接，证明大脑级扩展可行性[15] - IBM TrueNorth芯片和Intel Loihi芯片代表行业前沿技术，BrainChip等初创公司推出专用处理器[18] - 预计2025年全球神经形态计算市场规模达18.1亿美元，年复合增长率25.7%[19] 技术革命方向 - 科学家认为下一波AI技术爆发将是物理学与神经科学的结合[14] - 该技术有望超越传统AI界限，接近人类智能推理模式，为AGI带来突破[19] - 行业专家表示一旦实现商业化流程，可快速扩展至百万神经元规模系统[17]

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

量子位· 2025-06-16 12:49

经典小游戏成为大模型Benchmark - 核心观点：经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准，o3-pro模型在该基准上表现优异，突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡，远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲，游戏需强行终止，其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比，o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏：推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式：游戏状态持续反馈给模型，模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助，包含感知、记忆、推理模块，并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化：马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名：o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名：o3-pro > o3 > R1 > o4-mini（与推箱子排名部分倒置） [14] - 测试基准动态更新，GitHub仓库半月前仅四关，原版推箱子含50+关卡 [9] - 项目完全开源，可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发，负责人张昊为卡内基梅隆博士、伯克利博士后，曾参与创立LMSYS（大模型竞技场开发方） [28][29][30] - 实验室获谷歌/英伟达资助，2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo（视频生成加速框架）获GitHub 1.5k星 [32]

AI ASMR突然火爆全网！3天狂揽近10万粉丝，一条切水果视频播放量破1650万

量子位· 2025-06-15 12:17

短视频平台AI ASMR现象 - AI ASMR视频近期在短视频平台爆火一条切割浆果的视频获得1650万浏览量[1] - 某新账号3天内发布11条AI ASMR视频快速积累97.6k粉丝和360万点赞[3] - 最受欢迎的内容为刀切玻璃质感水果的ASMR 画面与声音存在"诡异上头感"[4][17] AI ASMR内容特征 - 视频主题单一多为AI生成的切割场景(水果/石头/手办) 画面呈现非现实透明质感[4][5] - 声音设计独特硬物碰撞声与真实切割声混合形成听觉冲突[7][8] - 用户反馈两极分化早期评论聚焦AI标签近期转向对听觉体验的夸赞[10][11] 技术驱动因素 - Google DeepMind的Veo 3模型是关键推手实现画面与声音同步原生生成[22][23] - 技术突破点在于单次生成流程无需后期音画匹配显著提升制作效率[24][27] - 对比早期AI ASMR(仅音频生成) 当前方案解决画面生成与口型同步难题[29][32] 行业生态发展 - 多平台涌现同类内容包括洋抖/ins/油管/B站已形成AI ASMR Top5榜单[19][20][30] - a16z合伙人Olivia Moore推文引发关注相关讨论获49.6k浏览量[21] - 部分用户抵触AI生成内容但已有创作者计划开设专属频道[34][36]

AI ASMR

Artificial Intelligence

Veo 3

AI ASMR

Artificial Intelligence

Veo 3

破解三大数据库AI难题！北大＆亚马逊推出全球首个图中心RDB基础模型

量子位· 2025-06-15 12:17

Griffin团队投稿量子位 | 公众号 QbitAI Griffin将RDB视为动态异质图进行建模与推理，通过在超过1.5亿行的表格数据上进行预训练和监督微调，构建了一个具备可迁移性与强泛化能力的基础模型，相关成果已被国际顶级会议ICML 2025正式接收。挑战：复杂的表间关系及丰富的表内语义信息关系数据库通过明确的模式（Schema）定义数据结构，广泛服务于金融、电商、科研、物流、政府信息系统等关键领域，是现代信息社会的核心数字基础设施。根据市场预测，到2028年全球数据库管理系统（DBMS）市场将超过1330亿美元。在企业系统和科学研究中普遍存在、结构复杂的关系型数据库（Relational DataBase, RDB）场景中，基础模型的探索仍处于早期阶段。这是因为RDB中的多表交互和异质特征，使传统通用大模型在此类结构化环境下难以直接发挥效能。基于此，北京大学张牧涵团队联合亚马逊云科技共同提出了 Griffin ：一个具有开创性的、以图为中心的RDB基础模型。然而，RDB智能建模所面临的挑战极为复杂，集中体现在以下三方面：拓扑结构高度复杂数据以多表形式存储，并通过主键外键 ...

Artificial Intelligence

Relational Database

Cloud Computing

Griffin

Artificial Intelligence

Relational Database

Cloud Computing

Griffin

全方位实测首个AI原生浏览器！618比价、写高考作文...网友：再见Chrome

量子位· 2025-06-15 12:17

产品功能 - 首个AI原生浏览器Dia启动内测最大亮点是无需打开ChatGPT即可直接与任意网页对话 [1] - 支持一键比较两个不同网页内容例如对比iPhone 16 Pro和OPPO Find X8 Pro的发布信息 [5] - 可总结YouTube视频内容并支持定位视频时间点直接解答疑问 [7][8] - 自动从标签页获取上下文无需手动复制粘贴或设置 [11] - 内嵌复制编辑器光标点击文字即可进行对话处理 [32] - 支持多网页信息整合包括单个标签页总结与多标签页对比推理 [18][19][20] 用户体验 - 界面简洁易上手无需安装繁琐插件 [15][16] - AI响应速度丝滑实现"哪里不懂点哪里"的交互体验 [41] - 计划功能强大可查找民宿并生成7天行程安排支持中英文混合输入 [21][24][25] - 写作能力可修改英语作文用词但高级词汇应用仍需优化 [26][27][29] - 学习能力可总结烹饪视频步骤但时间戳功能存在不稳定问题 [33][36][39] - 当前仅支持MacOS系统暂未覆盖其他平台 [42] 公司背景 - 开发公司The Browser Company成立于2019年此前推出过Arc浏览器 [43] - Arc浏览器曾因差异化设计获百万用户 2023年10月加入AI功能 [43][47] - 2024年公司放弃Arc转向开发Dia 因Arc架构难以大众化 [49][50][51] - 累计融资1.28亿美元估值超5.5亿美元投资者包括LinkedIn/Medium/Figma高管 [66] - 联创兼CEO Josh Miller曾创立Branch对话产品 2014年被Facebook以1500万美元收购 [55][59] - 技术团队包含Safari首席设计师和Chrome创始成员等顶尖人才 [66] 市场定位 - Dia定位为"基于浏览器的系统" 而非传统浏览器工具 [67] - 产品设计强调"简洁优先" 取代Arc时期的"新奇优先"理念 [51] - 目标解决用户多网页管理混乱痛点通过AI实现深度信息集成 [44][46] - 当前测试阶段仅限Arc会员体验采用邀请制推广 [10][12]

比马斯克Neuralink工艺更先进！我国成功开展首例侵入式脑机接口临床试验

量子位· 2025-06-15 12:17

一水发自凹非寺量子位 | 公众号 QbitAI 用意念操控万物的"脑机接口"，就这样离我们更近了？！据央妈最新报道，我国已成功开展首例侵入式脑机接口临床试验 —— 一位因意外事故导致四肢截肢的男子，现在仅凭意念就能玩五子棋游戏、发短信等等。这项研究由中国科学院脑科学与智能技术卓越创新中心，联合复旦大学附属华山医院以及相关企业合作完成。其成功标志着，除了马斯克的Neuralink，我国成为全球第二个进入侵入式脑机接口技术临床试验阶段的国家。而且所植入的神经电极目前全球尺寸最小、柔性最强—— 植入体仅硬币大小（为Neuralink产品1/2），超柔性电极约为头发丝的1/100 （超过Neuralink百倍）。长期还可能涉及对复杂物理外设进行控制，例如对机器狗、具身智能机器人等智能设备的控制，拓展生活边界。而以上这些目标的实现，均离不开团队在脑机接口软硬件方面所取得的突破 —— 用上了半导体加工工艺作为一种侵入式脑机接口（需要通过微创手术将电极植入大脑），团队在硬件设计上核心追求一个目标：最大程度降低对脑组织的损伤。对于这一新进展，网友们除了纷纷感叹科幻照进现实，更有 ...