量子位
搜索文档
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]
清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,4步出片不穿模
量子位· 2025-10-22 17:12
技术突破:分数正则化连续时间一致性模型 (rCM) - 清华大学与NVIDIA联合提出全新大规模扩散模型蒸馏范式,即分数正则化连续时间一致性模型 (rCM) [3][5] - 该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈 [3] - 通过引入前向-反向散度联合优化框架,rCM在大幅提升推理速度的同时,兼顾了生成结果的高质量与高多样性 [4] 性能表现:推理速度与生成质量 - rCM将教师模型上百步的采样过程压缩至1-4步,实现了15-50倍的推理加速 [20] - 在T2I任务的GenEval评测和T2V任务的VBench评测中,4步采样的rCM模型在多个指标上追平甚至超越了需要数百步采样的教师模型 [21] - 即便在1-2步的极限采样设置下,rCM依然能产出高质量、细节丰富的图像和视频,对于简单的图像提示词只需1步生成,复杂的图像和视频则需2-4步 [31] 模型对比与实验数据 - 在Wan2.1 T2V 1.3B模型上,4步采样的rCM模型总得分(Total Score)为84.43,质量得分(Quality Score)为85.38,语义得分(Semantic Score)为80.63,与教师模型(50步采样,总得分83.02)相比性能更优 [23] - 在Wan2.1 T2V 14B模型上,2步采样的rCM模型总得分达到85.05,质量得分85.57,语义得分82.95,超越了50步采样的教师模型(总得分83.58) [23] - 在Cosmos-Predict2 TI2V 2B模型上,4步采样的rCM模型T2V得分为84.40,相比教师模型(83.03)有所提升,同时吞吐量从0.32 FPS提升至4.6 FPS [23] 技术原理与优势 - rCM在连续时间一致性模型(sCM)的基础上,引入了基于分数蒸馏的反向散度作为正则项,构建前向-反向联合蒸馏框架 [18] - 前向散度保证生成结果的高多样性,反向散度强制模型聚焦于高质量数据区域以提升生成质量,联合优化实现了质量与多样性的“双赢” [19][22] - 相较于先前的SOTA蒸馏方法DMD2,rCM生成的视频内容展现出明显更高的多样性,有效避免了“模式坍缩”问题 [25] 工程实现与应用前景 - 团队通过自研FlashAttention-2 JVP CUDA算子并兼容序列并行等分布式训练策略,成功将连续时间一致性蒸馏应用到Cosmos和Wan2.1等业界领先的大模型上 [13] - rCM提供了一个无需多阶段训练与复杂超参搜索的高效蒸馏方案,揭示了结合前向与反向散度是提升生成模型性能的统一范式 [33] - 该方法未来将被更广泛地应用在NVIDIA的Cosmos系列世界模型中 [34]
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-22 17:12
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒
量子位· 2025-10-22 17:12
产品核心升级 - 腾讯发布并开源混元世界模型1.1 (WorldMirror),这是真正统一的端到端3D重建基座大模型 [1] - 新模型是继今年7月发布的混元世界模型1.0后,腾讯的又一次世界模型大升级 [15] - 混元世界模型1.1突破了1.0版本的局限,使用户能够上传多视图或者视频来生成3D场景 [37] 技术突破与行业地位 - 该模型是业界首个统一(any-to-any)的前馈式(feedforward) 3D重建大模型 [4] - 首次支持用户从多视图或视频中一键生成3D世界,并能在单卡、秒级推理下完成高精度重建 [3] - 实现了业界首次统一的多任务输出(点云、深度、相机、表面法线和新视角合成),并均取得SOTA表现 [21] 性能表现对比 - 在3D点云重建任务中,混元世界模型1.1生成表面更平整,场景更规整,优于Meta的最新开源模型MapAnything [9][11] - 在端到端3D高斯重建任务中,几何精度和细节还原全面超越AnySplat模型,场景重建更稳定真实 [12][14] - 模型采用纯前馈架构,处理典型8-32视图输入耗时仅需1秒钟,远快于需要迭代优化数分钟甚至数小时的传统方法 [22] 核心功能特性 - 支持灵活注入多模态先验(相机位姿、相机内参、深度图),通过动态先验注入机制能适应任意先验组合 [18][20] - 采用端到端多任务协同训练,各任务相互强化,提升整体几何一致性 [21] - 基于完全Transformer骨干,使用DPT头进行密集预测,并通过可微光栅化器进行监督 [30][31] 应用场景与效果 - 支持动画风格虚拟场景、中华风场景、真实航拍场景及科幻漫画等多种风格的高精度重建 [5][6][7] - 通过多模态先验融合、通用几何预测和前馈高效推理的结合,将3D重建从专业工具转变为人人可用的技术 [37] - 项目已完全开源,开发者可克隆GitHub仓库一键部署,普通用户也可通过Hugging Face在线体验 [34]
全球首款!高性能人形机器人跑跳进入万元机时代
量子位· 2025-10-22 17:12
产品定位与定价 - 全球首款面向消费者家用的高性能人形机器人Bumi,定价在万元以内,首次将人形机器人价格降至普通消费者可接受范围[1][3][9] - 产品定位为家庭场景中的编程教育伙伴和娱乐陪伴机器人,具备行走、跳舞、编程教学等功能,并非通过削减功能或材质实现低价[12][13][48] 产品性能与功能 - Bumi身高不足1米,重量为12kg,具备稳定的行走能力和流畅的舞蹈动作表现,动作连贯且能精准控制重心[2][6][17][19][21][22] - 集成图形化编程功能,用户可通过拖拽模块方式设计机器人动作序列,无需编写代码,旨在培养逻辑思维和创造力[23][24][26][27] - 产品强调实用性与交互性,支持语音交互,可作为家庭中的学习与娱乐伴侣[47] 公司技术与背景 - 研发公司松延动力创始团队主要来自清华大学,员工平均年龄25岁,创始人姜哲源为清华电子工程系博士,具备深厚技术背景[28][30] - 公司在Bumi之前已推出多款技术成熟的机器人产品,包括具备仿生肌肉的Hobbs头部机器人及弹跳能力突出的N1、N2系列机器人[33][34][36][38] - 技术实力获国际赛事验证,其人形机器人N2在全球首个人形机器人马拉松中包揽第二、三名,并在世界人形机器人运动会中获得两金一银,总奖牌榜排名第三[41][43] 行业影响与商业化进展 - Bumi的推出标志着具身智能技术从实验室概念向日常家用产品落地,是行业内在可负担价位实现高性能人形机器人的重要突破[49][50] - 松延动力已完成多轮亿元级融资,迅速跻身商业化第一梯队,融资能力支撑其持续技术迭代与产品创新[45]
汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文
量子位· 2025-10-22 13:48
会议概况与参与度 - ICCV 2025在美国夏威夷举行,中国作者在提交论文的作者中占比高达50% [1] 主要奖项与获奖研究 - 最佳论文奖(马尔奖)授予研究“Generating Physically Stable and Buildable Brick Structures from Text”,该研究提出BRICKGPT模型,基于包含超过47,000个积木结构、涵盖28,000多个独特三维物体的大规模数据集StableText2Brick进行训练 [4][24] - 最佳学生论文奖授予研究“FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models”,该方法无需反演和优化,在Stable Diffusion 3和FLUX上取得最先进效果 [6][39][40] - 最佳论文荣誉提名授予研究“Spatially-Varying Autofocus”,该技术利用光学组合实现空间可变自动对焦,能同时使整个场景保持清晰对焦并维持最高空间分辨率 [7][42][44] - 最佳学生论文荣誉提名授予研究“RayZer: A self-supervised large view synthesis model”,该模型仅依赖2D图像监督和自预测相机位姿进行新视角合成 [9][47][48] - 赫尔姆霍兹奖授予两项来自微软研究院的研究:Fast R-CNN和Delving Deep into Rectifiers [10][51] - Fast R-CNN在PASCAL VOC 2012数据集上,对VGG16网络的训练速度较R-CNN提升9倍,测试速度提升213倍,并获得更高mAP指标 [54] - Delving Deep into Rectifiers研究提出的PReLU-nets在ImageNet 2012分类数据集上实现4.94%的Top-5测试误差,相比GoogLeNet的6.66%提升26%,并首次超越人类水平(5.1%) [60] - 埃弗林厄姆奖授予The SMPL Body Model Team和The VQA Team [12][62] - VQA团队提供的数据集包含约25万张图像、76万个问题和约1000万个答案 [70] - 杰出研究员奖授予David Forsyth和Michal Irani [14][73][76] - 阿兹列尔·罗森菲尔德终身成就奖授予Rama Chellappa [16][79] 获奖者背景 - 最佳论文奖团队由朱俊彦带队,其本科毕业于清华大学计算机科学系(专业排名第2/140),博士毕业于UC伯克利,现任CMU助理教授 [28][30][31] - 最佳论文奖团队其他成员包括:本科毕业于北京大学的Kangle Deng(Roblox研究科学家)、本硕博均就读于CMU的Ruixuan Liu、本科毕业于清华博士毕业于UC伯克利的Changliu Liu(CMU副教授) [33][35][37]
Qwen深度研究一夜升级!可生成网页和音频播客,新模型能认医生手写体
量子位· 2025-10-22 13:48
Qwen深度研究产品功能重大升级 - 核心功能加速进化,新增听觉和视觉输出能力,可生成网页和音频[1] - 深度研究整合的内容可转化为图文并茂的网页,并支持一键部署,方便对外展示[2] - 长篇文字内容可转化为音频播客,便于用户在碎片时间消化吸收[3] - 与此前产品相比,深度研究作为输入省去了用户提供内容的环节[4] Qwen深度研究功能实测与操作流程 - 深度研究功能默认选择最强的Qwen3-Max模型[9] - 智能体在开始任务前会先向用户确认具体意图,而非直接执行[10] - 智能体执行任务采用分步操作,总耗时约6分钟[12] - 任务完成后,用户会得到传统的AI文字回复以及可下载的PDF文件[15] - 新功能入口较深,需点击“在线查看文件”才能找到[16] 新增网页与音频生成功能详解 - 网页生成功能耗时约1分钟[18] - 生成的页面简洁美观,带有动态效果,并支持白天/黑夜模式切换[19] - 以网页形式展示深度研究结果,比大段文字更直观[20] - 生成后可进行公开或私密部署,支持链接分享[22] - 音频生成(播客)功能允许用户分别选择主持人和嘉宾的音色[24] - 音频生成过程耗时3-5分钟,完成后支持在线收听或下载[26] Qwen3-VL系列模型更新与性能表现 - Qwen3-VL系列视觉语言模型更新,新增最大参数32B和最小参数2B版本[28] - 据团队负责人介绍,此次是Qwen3-VL系列最后一次更新,目前四个版本均为密集模型[29] - 评测结果显示,32B版本性能已超越上代Qwen2.5-VL的72B版本,以及OpenAI和Anthropic的闭源方案[30] - 最新版视觉语言模型Qwen3 VL具备识别高难度医生手写体的能力[7] - 具体评测数据:在MMMUVAL基准测试中,Qwen3-VL 32B得分为76.0,高于Qwen2.5-VL 72B的70.2*、GPT5-Mini的67.9和Claude4-Sonnet的75.1[31] - 在MathVistamini测试中,Qwen3-VL 32B得分为83.8,显著高于Qwen2.5-VL 72B的74.8*、GPT5-Mini的59.6和Claude4-Sonnet的72.4[31] - 在RealWorldQA测试中,Qwen3-VL 32B得分为79.0,高于Qwen2.5-VL 72B的75.7*、GPT5-Mini的73.3和Claude4-Sonnet的68.1[31] 行业竞争格局与产品定位 - 深度研究产品适合用于执行挑选、比较等任务[8] - 文章通过表格对比了Perplexity Comet、The Browser Company、OpenAI AI、Brave Leo / Sigma AI等竞品在定位、技术架构、AI工作模式、代理能力、上下文理解等方面的差异[16]
中国数学家再中数学四大刊,兰州大学首篇:突破斯托克斯方程“光滑性”限制
量子位· 2025-10-22 13:48
研究核心成果 - 兰州大学耿俊教授与西湖大学申仲伟教授合作的研究论文被数学顶级期刊《数学新进展》接收,这是兰州大学首篇发表于数学四大刊的论文[1][2][6] - 研究围绕流体力学基础斯托克斯方程,旨在揭示其在非光滑边界区域内的更普适数学规律[3][4][5][7] - 核心突破在于首次明确了斯托克斯算子在三维及以上空间的C¹边界、二维空间的Lipschitz边界下的无穷范数预解估计适用性[11][13] - 研究采用大尺度平均的创新思路破解了压力失控难题,通过新的最大函数工具将压力的平均波动与速度的平均大小绑定[12] 理论价值与应用前景 - 理论层面填补了斯托克斯方程在非光滑区域无穷范数空间预解估计的研究空白,建立了相应的解析半群理论,完善了流体力学的数学分析体系[13] - 应用层面为工程领域提供了更贴近现实的计算工具,现实流体场景多为非光滑边界,论文公式可直接用于预估非光滑边界下的速度上限和压力变化范围,提高数值准确性[14] 研究者背景 - 论文作者耿俊教授现任兰州大学数学与统计学院教授、博士生导师,主要研究方向为调和分析、偏微分方程及非光滑区域上的边值问题等[16][17] - 合作者申仲伟教授为耿俊的博士导师,于2024年7月全职回国加盟西湖大学理学院,担任数学讲席教授[19][22][23] - 两位研究者此前已合作发表多篇有影响力的学术论文,显示出长期稳定的合作关系[20][21]
阿里云秘密武器亮相顶会:狂砍82%英伟达含量,213块GPU干了1192块的活
量子位· 2025-10-22 07:50
文章核心观点 - 阿里云与北京大学合作研发出名为Aegaeon的新型GPU池化系统,该系统通过token级别的自动扩缩容等创新技术,显著提升了GPU资源利用率并大幅降低了需求 [1][2][3][5] - 该技术已在实际生产环境中得到验证,能够将GPU使用量削减82%,并将GPU利用率从最高33.9%提升至48.1%,同时实现吞吐量最高9倍的提升 [3][18][20] 技术背景与痛点 - 在阿里云Model Studio(百炼平台)上,17.7%的GPU被分配用于服务仅处理总请求量1.35%的冷门模型,资源利用率极低 [4] - 统计的779个模型中,94.1%属于长尾模型,平均每秒请求量不到0.2个,而热门模型也存在突发流量导致资源时而过载时而闲置的问题 [6][7] - 传统为每个模型分配专用GPU的做法在面对大量偶发性请求时资源浪费严重,存在超过10倍的优化空间 [7][9] Aegaeon系统核心技术 - 核心创新在于采用token级别的自动扩缩容技术,在生成每个token时动态决定是否切换模型,而非在请求级别进行调度 [10][11] - 通过一系列底层优化将自动扩缩容的开销降低了97%,包括组件复用减少80%初始化开销、显式内存管理避免碎片、细粒度KV缓存同步使模型切换时间缩短至1秒以内 [14][15] 性能表现与实际部署 - 与ServerlessLLM和MuxServe等现有系统相比,Aegaeon能支撑2-2.5倍的请求到达率,有效吞吐量提升1.5到9倍 [18] - 在16块H800 GPU的测试集群中,成功服务了从6B到72B参数规模的多个模型 [18] - 系统已在阿里云百炼平台进行超过3个月的生产环境测试,服务了47个不同规模的模型,期间无任何SLO违规或服务中断 [19][20] - 实际部署使GPU利用率从之前的13.3%-33.9%提升到了48.1% [20]