量子位
搜索文档
刚拿诺奖就登Nature封面!谷歌“量子回声”算法计算提速13000倍,可重复验证结果
量子位· 2025-10-22 23:27
研究突破核心 - 谷歌量子AI团队提出名为“量子回声”的新算法,该算法能够对量子计算结果进行重复验证,解决了量子计算结果难以确认的关键问题[1] - 该研究成果已发表在顶级期刊《自然》杂志上,并获得封面推荐[1][4] 性能优势与验证 - 在处理特定计算任务时,量子计算机仅用2.1小时即可完成,而经典超级计算机Frontier需要3.2年,量子计算速度提升达13000倍[2] - 量子回声算法在探测原子和粒子的相互作用以及分子结构方面得到验证,其结果与传统核磁共振结果相符,并揭示了通常无法从核磁共振中获得的信息[5][6] 技术原理与实验 - 算法核心是“非时序关联函数”,通过模拟时间倒流将已扩散的量子信息重新聚焦,能长时间观测量子系统细节[11][12][13] - 实验使用超导量子处理器,最多用到65个量子比特,二阶OTOC信号在演化20个周期后仍保持清晰,而传统方法信号在9个周期后几乎无法测量[14] - 实验观测到“大循环干涉”现象,该现象难以被经典计算机模拟,蒙特卡洛等经典模拟方法算出的信号信噪比仅为1.1,远低于量子实验的3.9[16][19] 应用前景 - 该技术被类比为“量子镜”,有望在药物研发领域成为强大工具,助力确定潜在药物如何与其靶点结合[7] - 在材料科学领域,该技术可用于表征聚合物、电池组件乃至量子比特材料等新型材料的分子结构[7] - 算法演示了在实际问题中的应用,如通过“哈密顿量学习”精准反推量子系统的内部作用规律,误差很小[21][23] 硬件基础与未来规划 - 此次突破依赖Willow芯片的硬件优势,其在105个量子比特阵列中实现了顶尖性能:单量子比特门保真度达99.97%,纠缠门保真度达99.88%,读出保真度达99.5%[23] - 谷歌量子团队未来将聚焦研发“长寿命逻辑量子比特”,为构建更大规模、可纠错的实用量子计算机奠定基础[26]
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]
清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,4步出片不穿模
量子位· 2025-10-22 17:12
让视频生成提速50倍,不穿模还不糊字。 rCM团队 投稿 量子位 | 公众号 QbitAI 新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频: 分数正则化连续时间一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。 | Kaiwen Zheng1,2 | Yuji Wang1 | Qianli Ma2 | Huayu Chen1,2 | Jintao Zhang1 | | --- | --- | --- | --- | --- | | Yogesh Balaji2 | Jianfei Chen1 | Ming-Yu Liu2 | | Qinsheng Zhang2 | | 1 Tsinghua University | | 2NVIDIA | T Corresponding Author | | | | | https://research.nvidia.com/labs/dir/rcm | | | 该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈。 通过引入前 ...
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-22 17:12
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒
量子位· 2025-10-22 17:12
产品核心升级 - 腾讯发布并开源混元世界模型1.1 (WorldMirror),这是真正统一的端到端3D重建基座大模型 [1] - 新模型是继今年7月发布的混元世界模型1.0后,腾讯的又一次世界模型大升级 [15] - 混元世界模型1.1突破了1.0版本的局限,使用户能够上传多视图或者视频来生成3D场景 [37] 技术突破与行业地位 - 该模型是业界首个统一(any-to-any)的前馈式(feedforward) 3D重建大模型 [4] - 首次支持用户从多视图或视频中一键生成3D世界,并能在单卡、秒级推理下完成高精度重建 [3] - 实现了业界首次统一的多任务输出(点云、深度、相机、表面法线和新视角合成),并均取得SOTA表现 [21] 性能表现对比 - 在3D点云重建任务中,混元世界模型1.1生成表面更平整,场景更规整,优于Meta的最新开源模型MapAnything [9][11] - 在端到端3D高斯重建任务中,几何精度和细节还原全面超越AnySplat模型,场景重建更稳定真实 [12][14] - 模型采用纯前馈架构,处理典型8-32视图输入耗时仅需1秒钟,远快于需要迭代优化数分钟甚至数小时的传统方法 [22] 核心功能特性 - 支持灵活注入多模态先验(相机位姿、相机内参、深度图),通过动态先验注入机制能适应任意先验组合 [18][20] - 采用端到端多任务协同训练,各任务相互强化,提升整体几何一致性 [21] - 基于完全Transformer骨干,使用DPT头进行密集预测,并通过可微光栅化器进行监督 [30][31] 应用场景与效果 - 支持动画风格虚拟场景、中华风场景、真实航拍场景及科幻漫画等多种风格的高精度重建 [5][6][7] - 通过多模态先验融合、通用几何预测和前馈高效推理的结合,将3D重建从专业工具转变为人人可用的技术 [37] - 项目已完全开源,开发者可克隆GitHub仓库一键部署,普通用户也可通过Hugging Face在线体验 [34]
全球首款!高性能人形机器人跑跳进入万元机时代
量子位· 2025-10-22 17:12
产品定位与定价 - 全球首款面向消费者家用的高性能人形机器人Bumi,定价在万元以内,首次将人形机器人价格降至普通消费者可接受范围[1][3][9] - 产品定位为家庭场景中的编程教育伙伴和娱乐陪伴机器人,具备行走、跳舞、编程教学等功能,并非通过削减功能或材质实现低价[12][13][48] 产品性能与功能 - Bumi身高不足1米,重量为12kg,具备稳定的行走能力和流畅的舞蹈动作表现,动作连贯且能精准控制重心[2][6][17][19][21][22] - 集成图形化编程功能,用户可通过拖拽模块方式设计机器人动作序列,无需编写代码,旨在培养逻辑思维和创造力[23][24][26][27] - 产品强调实用性与交互性,支持语音交互,可作为家庭中的学习与娱乐伴侣[47] 公司技术与背景 - 研发公司松延动力创始团队主要来自清华大学,员工平均年龄25岁,创始人姜哲源为清华电子工程系博士,具备深厚技术背景[28][30] - 公司在Bumi之前已推出多款技术成熟的机器人产品,包括具备仿生肌肉的Hobbs头部机器人及弹跳能力突出的N1、N2系列机器人[33][34][36][38] - 技术实力获国际赛事验证,其人形机器人N2在全球首个人形机器人马拉松中包揽第二、三名,并在世界人形机器人运动会中获得两金一银,总奖牌榜排名第三[41][43] 行业影响与商业化进展 - Bumi的推出标志着具身智能技术从实验室概念向日常家用产品落地,是行业内在可负担价位实现高性能人形机器人的重要突破[49][50] - 松延动力已完成多轮亿元级融资,迅速跻身商业化第一梯队,融资能力支撑其持续技术迭代与产品创新[45]
汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文
量子位· 2025-10-22 13:48
会议概况与参与度 - ICCV 2025在美国夏威夷举行,中国作者在提交论文的作者中占比高达50% [1] 主要奖项与获奖研究 - 最佳论文奖(马尔奖)授予研究“Generating Physically Stable and Buildable Brick Structures from Text”,该研究提出BRICKGPT模型,基于包含超过47,000个积木结构、涵盖28,000多个独特三维物体的大规模数据集StableText2Brick进行训练 [4][24] - 最佳学生论文奖授予研究“FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models”,该方法无需反演和优化,在Stable Diffusion 3和FLUX上取得最先进效果 [6][39][40] - 最佳论文荣誉提名授予研究“Spatially-Varying Autofocus”,该技术利用光学组合实现空间可变自动对焦,能同时使整个场景保持清晰对焦并维持最高空间分辨率 [7][42][44] - 最佳学生论文荣誉提名授予研究“RayZer: A self-supervised large view synthesis model”,该模型仅依赖2D图像监督和自预测相机位姿进行新视角合成 [9][47][48] - 赫尔姆霍兹奖授予两项来自微软研究院的研究:Fast R-CNN和Delving Deep into Rectifiers [10][51] - Fast R-CNN在PASCAL VOC 2012数据集上,对VGG16网络的训练速度较R-CNN提升9倍,测试速度提升213倍,并获得更高mAP指标 [54] - Delving Deep into Rectifiers研究提出的PReLU-nets在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差,相比GoogLeNet的6.66%提升26%,并首次超越人类水平(5.1%) [60] - 埃弗林厄姆奖授予The SMPL Body Model Team和The VQA Team [12][62] - VQA团队提供的数据集包含约25万张图像、76万个问题和约1000万个答案 [70] - 杰出研究员奖授予David Forsyth和Michal Irani [14][73][76] - 阿兹列尔·罗森菲尔德终身成就奖授予Rama Chellappa [16][79] 获奖者背景 - 最佳论文奖团队由朱俊彦带队,其本科毕业于清华大学计算机科学系(专业排名第2/140),博士毕业于UC伯克利,现任CMU助理教授 [28][30][31] - 最佳论文奖团队其他成员包括:本科毕业于北京大学的Kangle Deng(Roblox研究科学家)、本硕博均就读于CMU的Ruixuan Liu、本科毕业于清华博士毕业于UC伯克利的Changliu Liu(CMU副教授) [33][35][37]
Qwen深度研究一夜升级!可生成网页和音频播客,新模型能认医生手写体
量子位· 2025-10-22 13:48
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI Qwen版深度研究加速进化,一觉起来增加了听觉和视觉输出: 可以生成网页和音频了。 AI深度研究整合的内容,变成图文并茂的网页,还可以一键部署,任何人可凭链接查看,方便对外展示。 与此前火爆的NoteBookLM相比,深度研究作为输入还省去了给AI提供内容的环节。 改进产品功能的同时,Qwen团队也在不断更新背后的模型。 最新版视觉语言模型Qwen3 VL 甚至可以识别地狱难度的医生手写体。 实测新版Qwen深度研究 加上OpenAI新出的ChatGPT Atlas,AI浏览器这个品类已经有不少产品出现了。 那么该如何挑选呢?这个活就非常适合让深度研究产品来干。 打开深度研究功能,默认会选择最强的Qwen3-Max模型。 它不会直接闷头就开干,而是先向用户确认具体意图。 长篇文字内容也可以变成音频播客,方便自己在碎片时间消化吸收。 得到确认以后,智能体会开始分布操作,总共耗时6分钟。 完成后会得到一份传统的AI文字回复,以及可下载的PDF文件。 | 特 Perplexity Comet | The Browser Company | OpenAI AI | ...
中国数学家再中数学四大刊,兰州大学首篇:突破斯托克斯方程“光滑性”限制
量子位· 2025-10-22 13:48
鱼羊 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 兰州大学刚出了篇数学四大刊! 作者是 兰州大学耿俊教授 和 西湖大学申仲伟教授 ,论文已经被 Inventiones mathematicae(《数学新进展》) 接收。 《数学年刊》、《数学学报》、《数学新进展》和《美国数学会杂志》并称为数学四大刊,是国际数学界公认的数学顶级期刊,每年中国研究 机构中选论文经常不超过10篇。 这项研究,围绕的是流体力学的重要基础之一:斯托克斯方程。 具体来说,是研究斯托克斯算子在非光滑区域里的无穷范数预解估计。 ——别慌,咱浅浅地做个简化翻译,大概意思就是,两位数学家想搞清楚,在边界不那么规则的空间里,比如自然河道而非光滑的管道中,流 体运动相关的数学方程解的范围和规律。 可以理解为,是为斯托克斯方程在相当广的范围内找到了更通用的数学规律。 这也是兰州大学首篇数学四大。 揭示斯托克斯方程在非光滑域内更普适规律 两位数学家瞄准的是流体力学理论里的一个关键缺口: 描述粘稠流体运动的斯托克斯方程,在非光滑边界空间里,流体的速度和压力还没有找到可靠的最大值约束规律。 $$\left\{\begin{array}{ll}-\D ...