量子位
搜索文档
量子位编辑作者招聘
量子位· 2026-05-05 11:54
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: 任职要求: AI财经商业方向 岗位职 ...
豆包要收费了:三档订阅最贵500元/月,保留免费基础版
量子位· 2026-05-05 11:54
豆包APP开启付费订阅测试 - 豆包APP在苹果App Store中悄然上线订阅服务声明,计划推出三档付费订阅计划,标志着其可能从免费模式转向商业化探索 [1] - 三档订阅计划分别为:标准版(连续包月68元,包年688元)、加强版(连续包月200元,包年2048元)和专业版(连续包月500元,包年5088元) [1] - 官方回应称目前仅为测试,正式上线信息将通过官方渠道发布,并强调基础免费服务将持续保留,核心功能如基础聊天和日常问答将保持免费 [3][4] 豆包APP的用户规模与市场地位 - 根据量子位智库2026年4月数据,豆包APP日活跃用户数环比增长21%,突破1.4亿,在国内AI助手APP中断层领先 [13][17] - 同期,其竞争对手的日活量级显著落后:千问APP约4700万,元宝约3500万,DeepSeek约1500万,其余产品均低于1000万 [14][15][17] - 在用户新增方面,豆包APP 4月下载量约为5000万,2026年年初至今累计下载量近2.6亿,均稳居市场第一 [18][21] 行业背景与竞争格局 - 2026年4月,国产开源大模型在国际舞台表现活跃,包括GLM 5.1、Kimi 2.6和DeepSeek V4等相继发布或更新 [7][8][9] - DeepSeek V4以极具竞争力的定价策略引发关注,例如其Pro模型的API调用价格低至每百万tokens输入0.025元(缓存命中)[10] - 在技术圈层,GLM、Kimi、MiniMax和DeepSeek等开源模型讨论度最高,但在大众市场APP日活维度,豆包占据绝对领先地位 [11][12] 商业化动因与行业影响 - 豆包大模型调用量巨大且增长迅猛:截至2026年3月,日均调用量突破120万亿tokens,较年初上涨60%,是2025年5月的1000倍 [28][29] - 推出付费订阅旨在缓解巨大的算力成本与资源调度压力,并平衡不同用户群体的体验,为专业用户提供差异化服务 [30][31][33][35] - 此次尝试被视为国内大模型市场商业化进程的重要一步,若成功可能为行业探索出可行的用户直接付费模式,标志着市场成熟度进入新阶段 [36] 公司战略与产品定位 - 豆包通过登台春晚及Seedance 2.0在春节档的爆火,强化了其“国民级”、“老少咸宜”的AI助手定位,拥有极高的国民度 [26] - 公司此前已在API调用、AIGC应用(如意梦)等面向专业人群的场景实现创收,但对面向大众的豆包APP入口商业化持谨慎态度 [29] - 当前选择测试付费,是公司在用户规模、算力成本、商业化节奏和入口竞争之间做出的新阶段性选择 [30]
量子位编辑作者招聘
量子位· 2026-05-04 12:26
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累,在AI及前沿科技行业具有顶流影响力和广泛产业资源[1] - 公司是AI及前沿科技行业TOP1新媒体,截至2025年,其微信公众号订阅用户超240万,全网用户超700万,日均阅读量200万+[10] 招聘岗位总览 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村,岗位覆盖社招(编辑、主笔、主编)和校招(应届毕业生)[3][4] - 加入公司可获得站在AI浪潮之巅、玩转AI新工具、打造个人影响力、拓展行业人脉、获得专业指导、加入活力团队及获得丰厚回报等机会[4][8] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层(芯片、AI Infra、云计算)新进展与核心玩家动态,解读前沿论文及技术报告,并参与核心采访撰写案例[8] - 任职要求需对芯片、GPU、服务器、模型训练架构等有基本理解,熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,技术背景者优先[8] AI财经商业方向岗位详情 - 岗位职责聚焦AI领域创投、财报及产业链资本动向,产出融资分析、财报解析及战略分析稿件,并访谈投资人、创业者等[8] - 任职要求需对数据、财报、股权结构敏感,具备强逻辑和商业叙事能力,并热爱对话采访[8] AI产品方向岗位详情 - 岗位职责关注AI在软件应用和硬件终端的落地,撰写产品深度评测,跟踪多终端新品发布,并对话产品专家与技术专家[11] - 任职要求需对智能硬件与AI终端趋势敏锐,是重度AI产品体验人士,熟悉终端厂商生态,并具备强逻辑和结构化表达能力[11] 应聘方式与要求 - 应聘需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名,并随简历附上科技行业代表作品或能展现写作水平的作品[10]
“DeepSeek版Claude Code”,Github 2.3k星
量子位· 2026-05-04 12:26
项目概览 - 一个名为DeepSeek-TUI的终端编程工具,专门为DeepSeek模型优化适配,可视为“DeepSeek版Claude Code”[1][4][8] - 项目由美国独立开发者Hunter Bown于今年1月发起,用Rust编写并采用MIT协议开源,在五一假期因DeepSeek-V4发布及作者的中文宣传而爆火[3][6][8] - 项目在GitHub上星标数骤增至2.3k并登上热榜,建仓不到4个月已迭代至v0.8.8,发布了37个版本[3][23] 核心功能与设计 - 支持读写文件、执行Shell、搜索网页、管理Git、调度子Agent、连接MCP服务器等,功能与Claude Code类似,但后端运行的是DeepSeek V4模型[9] - 设计紧密围绕DeepSeek特性:包括流式输出思维链推理过程、充分利用V4模型100万token的上下文窗口并支持自动压缩[11][12][13][14] - 引入RLM(Reinforcement Learning from Multiple Models)模式,利用DeepSeek模型成本优势,由一个主模型指挥最多16个V4 Flash子任务并行处理,以降低整体花费[16] - 提供三种操作模式:Plan Q(只读探索并出方案)、Agent(默认交互模式,需逐步批准)、YOLO(全自动放行)[19][25] 技术实现与优化 - 上下文压缩策略专门考虑了DeepSeek的前缀缓存机制,以尽量保持缓存命中率[15] - 支持通过DeepSeek官方API、NVIDIA NIM、Fireworks、自托管的SGLang等多种路径切换模型[18] - 项目为国内用户进行了专门优化,包括中文版README文档、支持TUNA Cargo镜像,以及将release包托管至阿里云OSS或腾讯云COS[22] - 近期版本(v0.8.x)重点提升稳定性和用户体验,例如修复文件句柄泄漏、增加交互功能如输入历史搜索和消息队列可视化等[29][30][32] 开发者背景与生态 - 开发者Hunter Bown是DeepSeek的狂热粉丝,拥有音乐教育背景和MBA、专利法学位,其编码技能为“半路出家”[31][35][36][39][41] - Hunter从音乐声学概念“缺失基音”中获得启发,并将其与信息论联系,形成理解AI系统的独特视角[43][44][45] - 他创立了Shannon Labs工作室,定位为“AGI时代的下一个贝尔实验室”,旗下拥有65个公开GitHub仓库,项目跨度从AI代理到硬件方案[46][48][49] - 其曾祖父是贝尔实验室前研究副总裁,Hunter认为自己的研究路径融合了音乐感知与技术研究,与家族传统交汇[51][53] 开发模式与社区 - 项目开发采用了AI辅助编程,大部分代码由Hunter提交,另有超过150次提交由Claude完成,其他AI模型和真人贡献者也参与了少量提交[57][58] - 项目支持Linux、macOS、Windows系统,可通过`npm install -g deepseek-tui`命令安装,提供了预编译二进制文件[22]
OpenAI参与,重卷ImageNet:终于把FID做成训练
量子位· 2026-05-03 14:36
文章核心观点 - 全华阵容研究团队提出名为FD-loss的新方法,成功将长期仅作为评估指标的FID转化为可直接用于模型训练优化的损失函数,实现了AI图像生成领域的重要突破 [4][6] - 该方法通过解耦统计样本池与梯度计算批次,利用大容量缓存队列或指数移动平均机制稳定估算分布,仅对小批量数据回传梯度,使FID首次能够参与模型的直接优化 [5][20][21] - 应用FD-loss进行后训练,能在不增加推理成本、不改变模型架构的情况下,显著提升单步生成器的图像质量,甚至可将多步扩散模型直接改造为高性能单步生成器,大幅提升推理速度 [7][34][40][46] - 研究发现,基于传统Inception架构优化的模型虽然能获得最低的FID分数,但其视觉观感可能弱于使用DINOv2、MAE等现代视觉表征训练的模型,这揭示了FID作为行业金标准可能存在的误导性 [7][48][50] - 团队提出了一个更鲁棒的综合评估指标FDr,该指标显示当前顶尖生成模型与真实图像分布仍有较大差距,表明ImageNet图像生成任务远未成熟 [11][12][13][53] 方法原理与实现 - **核心创新:解耦统计与梯度计算**:传统FID计算需5万张图片的统计数据,远超单次训练批次容量(约1024张),强行计算会导致显存爆炸。新方法将大规模样本的分布估算与当前小批量的梯度回传彻底解耦 [18][19][20] - **队列法实现**:维护一个超大特征队列(如5万条),每次用整个队列的统计量计算FD,但反向传播时仅对当前批次的特征计算梯度,历史特征不参与,以此保证统计稳健性且不增加训练开销 [23] - **EMA法实现**:通过指数移动平均实时更新生成样本特征的矩估计,每一步使用当前批次平滑更新全局均值与协方差估计,无需存储大量特征数据,显存占用低且统计更平滑稳定,是多表征空间联合优化的默认方案 [24][25] - **消融实验验证**:在pMF-B/16模型上的实验表明,不使用队列(N=0)会导致FID从3.31劣化至3.84;队列长度增至5万时,FID骤降至0.89;但队列过长(50万)会因特征过时而导致FDr崩至17.67。EMA衰减率β=0.999时效果最佳,FID达0.81 [27][28][29][30] 实验发现与应用效果 - **单步生成器画质飞跃**:对已训练好的单步生成器pMF-H进行FD-loss微调100轮后,在ImageNet 256×256任务上,FID从2.29大幅降至0.77,同时保持单步生成,推理成本零增加。在隐空间模型iMF-XL上,FID也从1.82压至0.76 [37][38][40][41] - **定性提升显著**:后训练生成的图像在细节上表现更优,例如鹦鹉羽毛更分明,雪豹斑点更清晰,证明提升非单纯刷分 [42] - **多步模型改造为单步生成器**:将原本需50步推理的多步扩散模型JiT-L强制改为单步模式后,FID最初崩至291.59,画面模糊。仅用FD-loss进行50轮后训练,无需教师蒸馏或对抗训练,FID骤降至0.77,生成质量与原多步模型相当甚至更优,推理速度提升数十倍 [44][45][46] - **FID指标的局限性**:实验发现,基于Inception特征优化的模型能获得最低FID(如0.72),但其视觉质量(物体结构完整性、细节还原度)却不如基于DINOv2、MAE、SigLIP等现代视觉表征训练的模型,后者FID数值更高但人眼观感更优 [7][49][50][51] 新评估标准与行业意义 - **提出新综合指标FDr**:通过对Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6种表征空间的归一化弗雷歇特距离比值取平均,得到更鲁棒的评估指标FDr [11][52] - **揭示技术成熟度差距**:按FDr标准,真实验证集的基准值为1.0,而当前最强生成模型的FDr仍高达1.89,表明ImageNet图像生成领域距离技术成熟尚有很远距离 [12][53] - **人类偏好实验佐证**:在人类盲选偏好实验中,即便最优的生成模型pMF-H,得票率也仅为37.4%,真实图片以62.6%的胜率占优 [54] - **方法的低门槛与高泛化**:FD-loss可作为轻量化后训练插件直接嵌入现有训练流程,无需修改主干网络、从头训练或依赖复杂策略。它兼容像素与隐空间模型,适配单步与多步模型,支持条件生成与文生图等多种任务,具备优秀的复现性与落地可行性 [55][56][57] - **对工业界的价值**:该方法以低成本、高回报的特性,大幅降低了实现高质量极速生成模型的工程门槛,使各类生成架构都能快速获得显著质量提升 [58]
量子位编辑作者招聘
量子位· 2026-05-03 11:19
公司概况 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累,在AI及前沿科技行业是TOP1新媒体[1] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[10] 招聘岗位方向 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[3] - AI产业方向:关注芯片、AI Infra、云计算等基建层创新和核心玩家动态[4][8] - AI财经商业方向:关注AI领域创投、财报、产业链资本动向,产出创投融资、财报解析、公司战略分析等内容[4][8] - AI产品方向:关注AI在软件应用和硬件终端的落地,包括手机、PC、XR、车机等多终端新品[4][11] 岗位职责与要求 - AI产业方向岗位需跟进芯片、AI Infra、云计算进展,解读前沿论文及技术大会报告,并参与产业专家访谈[8] - AI产业方向要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解,熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达[8] - AI财经商业方向岗位需产出创投融资、招股书财报解析、公司战略分析等稿件,并访谈投资人、创业者[8] - AI财经商业方向要求对数据、财报、股权结构敏感,逻辑和商业叙事能力强,并热爱对话采访[8] - AI产品方向岗位需撰写AI应用产品深度评测,跟踪多终端新品发布,并对话AI应用创业者、产品专家[11] - AI产品方向要求对智能硬件和AI终端趋势敏锐,是重度AI产品体验人士,并熟悉各大终端厂商业态[11] 岗位层级与面向人群 - 社招岗位覆盖编辑、主笔、主编各个层级,按能力匹配[4] - 校招面向应届毕业生,接受实习且可转正[4] - 主编需具备选题和带队能力及经验[8] - 主笔需具备原创深度稿件能力[8] - 编辑需热爱表达,擅长挖掘信息并用大白话解读AI进展[8] 员工发展与福利 - 员工可第一时间接触AI领域最新技术和产品,构建完整AI认知体系[4] - 员工可将各种AI新工具应用于工作,提升效率和创造力[4] - 员工可通过撰写原创内容建立个人知名度,成为AI领域意见领袖[8] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[8] - 应届新人会由主编级编辑担任mentor,提供一对一指导[8] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位原则[8] - 提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[8]
突破视觉仿真算力瓶颈!新一代具身智能仿真框架开源:高吞吐并行高保真渲染助力规模化训练
量子位· 2026-05-03 11:19
行业趋势与核心挑战 - 具身人工智能领域正经历向以视觉为中心的感知范式的全面深刻转型 [1] - 视觉是信息密度最高、与自然人机交互最契合的模态,被视为解锁通用机器人智能及实现仿真到真实无缝迁移的核心 [2] - 当前研究在“看得真”与“训得快”之间存在艰难取舍,面临高保真渲染带来的巨大计算与内存开销、人工建模低效以及平台兼容性缺陷等核心瓶颈 [3] 解决方案:GS-Playground框架概述 - 清华大学AIR研究院DISCOVER Lab联合多家公司提出了GS-Playground通用多模态仿真框架,旨在攻克上述难题 [3] - 该框架首次实现了高吞吐量并行物理仿真与高保真视觉渲染的深度融合,为大规模视觉驱动策略训练与仿真到现实迁移提供支撑 [4] - 该成果已被机器人领域国际顶级学术会议RSS 2026录用 [5] 技术特性一:通用性与兼容性 - 平台定位为通用型全场景具身智能仿真平台,搭载自研跨平台并行物理引擎,原生支持CPU/GPU双后端与Windows/Linux/macOS全系统运行 [7] - 可无缝适配全品类机器人形态,包括四足机器人、全尺寸人形机器人、多自由度工业机械臂,实现开箱即用的原生适配 [7] - 平台API全面兼容行业通用的MuJoCo MJCF格式,可实现现有仿真项目的零摩擦快速迁移 [8] 技术特性二:自研高性能并行物理引擎 - 自研物理引擎采用广义坐标下的速度-冲量动力学公式,将接触与摩擦统一建模为混合互补问题,并通过投影高斯-赛德尔求解器实现稳定求解 [9] - 引入约束岛并行化与接触流形热启动机制,将稳定堆叠场景中的PGS迭代次数从50次以上降低到10次以内,提升复杂接触场景收敛效率 [10] - 在Franka Panda动态抓取测试中,在0.002s与0.01s时间步下均实现90/90的完整保持成功率,显著优于主流方案 [11] - 在27自由度人形机器人基准测试中,单环境扩展至50个机器人时,CPU后端仍能保持1015 FPS稳定吞吐,相比MuJoCo实现32倍加速,相比MjWarp实现约600倍提升 [11] 技术特性三:自研内存高效Batch 3DGS渲染技术 - 针对刚体仿真环境设计了高效剪枝策略,可将高斯点数量减少90%以上,同时峰值信噪比下降幅度不足0.05,视觉差异几乎无法被感知 [13][14] - 研发了面向批处理深度优化的批量3DGS渲染器,在单张NVIDIA RTX 4090 GPU、640×480分辨率下可实现最高10000 FPS的突破性吞吐量,最多可同时渲染2048个场景 [16] - 提出了刚性连杆高斯运动学机制,将3D高斯簇与物理引擎中的对应刚体精准绑定,实现零额外开销的状态同步与无伪影动态画面输出 [18] 技术特性四:自动化Real2Sim工作流 - 设计了一套全自动化的“图像到物理”Real2Sim工作流,仅需输入单张RGB图像,即可在数分钟内完成仿真就绪数字资产的创建 [19] - 基于该工作流构建了Bridge-GS数据集,补充了场景与物体级的3DGS表征、网格模型、6D位姿数据与校准后的相机参数 [24] - 在InteriorGS数据集上完成了泛化性验证,证明了该管线对不同室内场景的强适配能力 [25] 性能验证与真机迁移成果 - 平台可稳定支持数千个并行环境同时运行,为全品类机器人提供大规模视觉强化学习训练支撑 [26] - 仅在仿真环境中完成训练的视觉驱动策略,无需任何额外微调即可直接部署到真实机器人稳定运行 [27] - 具体成果包括:四足和人形机器人的运动策略可zero-shot部署;视觉导航任务实现零样本真机直接部署;机械臂抓取任务在零微调前提下,真实场景成功率达到90% [27] 行业影响与未来计划 - 该框架是行业内首个实现高吞吐量并行物理仿真与高保真批量3DGS渲染深度融合的全栈仿真框架,突破了制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈 [31] - 其自动化工作流大幅降低了高保真仿真环境的构建成本,并在主流任务中同时弥合了物理与感知层面的仿真到现实鸿沟 [32] - 团队将正式开源GS-Playground的全栈框架,以推动大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地 [33]
Meta收购华农校友机器人AI公司,团队并入超级智能实验室
量子位· 2026-05-02 12:00
收购事件概述 - Meta正式完成对机器人AI初创公司Assured Robot Intelligence的收购,团队将整体并入Meta超级智能实验室[2][4] - 此次收购旨在补齐Meta在机器人AI上的短板,提前卡位人形机器人这一未来智能新赛道[7] 被收购公司ARI的核心技术 - ARI专注于机器人智能底层技术,核心竞争力在于机器人AI基础模型研发[3][8] - 团队主攻复杂动态环境下的机器人感知能力,使机器人能理解场景、预测行为并主动适应人类互动[8] - 加入Meta后,ARI的核心任务将聚焦于机器人场景专用AI模型优化,将其算法能力与Meta的算力、工程资源结合[11] Meta的战略布局与资源投入 - Meta的Robotics Studio团队聚焦于人形机器人底层控制与硬件技术,与ARI的技术高度互补[9] - 此次收购旨在补上Meta在机器人底层智能、运动控制、自主学习模型上的技术缺口,加快其人形机器人板块的研发进度[12] - 在收购官宣前两天,Meta大幅上调了2026年资本支出预算至1250亿至1450亿美元,资金主要投向AI数据中心和高端硬件组件[12] - 此举表明Meta已悄悄调转战略重心,从过去主打元宇宙,全面转向AI+机器人实体智能赛道[13] 创始团队背景 - ARI由王晓龙和Lerrel Pinto联合创办[14] - 联合创始人王晓龙本科毕业于华南农业大学,在中山大学取得硕士学位,在卡内基梅隆大学获得机器人学博士学位,现任加州大学圣地亚哥分校副教授[14] - 王晓龙的研究方向聚焦于基于视频与物理交互数据的表征学习,旨在让机器人通过观看视频和试错来理解世界并学习技能[15][16] - 在创办ARI之前,王晓龙曾担任英伟达研究员,参与构建机器人领域基础大模型[17] - 另一位联合创始人Lerrel Pinto同样拥有卡内基梅隆大学博士学位,是大规模机器人学习领域的顶尖学者,研究覆盖数据与模型、感知表征学习等多个方向[19][20]
腾讯混元最新开源:440M翻译模型手机离线就能用,翻译质量超谷歌
量子位· 2026-05-02 10:44
公司技术发布 - 腾讯混元团队开源了极致量化压缩版本的翻译大模型 Hy-MT1.5-1.8B-1.25bit,将支持33种语言的翻译大模型压缩至440MB,使其能在手机本地运行[4] - 该离线翻译模型无需联网,官方测试显示其翻译质量优于谷歌翻译[5] - 团队还制作了实际可用的腾讯混元翻译Demo版,特别适配“后台取词模式”,支持在本地查看邮件或浏览网页时随叫随到,完全本地处理且不涉及个人信息采集和上传[23] 模型核心能力 - Hy-MT1.5是专业翻译大模型,原生支持33种语言、5种方言/民汉及1056个翻译方向,能处理从常见的中英互译到藏语、蒙古语等少数民族语言[8] - 1.8B版本的Hy-MT1.5实现了比肩商业翻译API和235B级大模型的翻译效果,在评测基准中其翻译质量超越了谷歌翻译、百度翻译等主流系统[9] 量化压缩技术 - 原始的1.8B模型在FP16精度下占用3.3GB内存,对于手机应用而言过大过慢,因此需要进行量化压缩[11] - 量化压缩通过将模型参数从16位表示改用更低位数字储存来减小模型体积,类似于压缩高清照片[12][13] - 公司推出了两种极致的量化压缩方案:2-bit模型和1.25-bit模型[14] - 2-bit模型采用拉伸弹性量化(SEQ)技术,将模型体积压缩至574MB,实现了几乎无损的翻译质量,效果超越上百GB的大模型,并在支持Arm SME2技术的设备上能实现更快速高效的推理[16] - 1.25-bit模型采用基于Sherry(稀疏高效三值量化)技术的压缩方案,该方案已被NLP顶级学术会议ACL 2026录用[17] - Sherry方案采用“细粒度稀疏”策略,每4个模型参数中3个最重要的用1-bit储存,1个用0储存,平均每个参数仅需1.25-bit[18] - 配合公司专门为手机CPU设计的STQ内核,最终将3.3GB的原始模型压缩至440MB,使其能轻松常驻手机后台[20] 性能与适用性 - 2-bit模型适用于中高端机型,在性能与质量间取得平衡[16] - 1.25-bit模型(Sherry极致压缩)适用于全系机型,实现了极致的轻量化[16] - 在演示中,1.25-bit模型相比FP16精度模型展示了速度优势(八倍速)[21] - 模型已在高通骁龙865(8GB内存)和高通骁龙888(8GB内存)设备上成功演示[7][23] 开源与获取 - 所有模型权重、代码及技术报告均已全面开源[25] - 目前Demo版仅支持安卓体验,后续正式版将添加对iOS等平台的支持[25] - 模型及Demo可通过Hugging Face(海外用户)和魔搭社区(国内用户)获取[26][27] - 相关的技术报告和论文地址也已公开[28]
智谱公布“降智”的秘密:Scaling不可避免的痛
量子位· 2026-05-01 15:00
文章核心观点 - 智谱AI在将其GLM-5系列模型投入大规模、高并发的Coding Agent服务时,遭遇了由底层推理系统在高负载下产生的“扩展之痛”,主要表现为模型输出乱码、复读和生僻字等异常 [1][4] - 公司通过系统性的工程排查,定位并修复了导致这些异常的核心系统瓶颈,包括KV Cache竞态和HiCache加载时序问题,将异常发生率从约万分之十几降至万分之三以下 [4][21] - 公司认为,AI进入高并发、长上下文场景后,维护推理基础设施的输出质量与稳定性至关重要,未来大规模AI不仅需要模型能力的扩展,还需要等量级的系统工程能力作为支撑 [33] 问题发现与初步排查 - 公司在GLM-5发布后,通过观察用户大规模Coding Agent推理过程,发现三类异常现象:乱码输出、重复生成和生僻字生成 [3][6] - 初步在标准推理环境中复现失败,表明问题根源不在模型本身,而在服务环境。通过模拟在线环境、调整PD分离比例并提高系统负载后,异常得以复现,发生率约为每10000个请求出现3-5个 [7][8] - 这表明问题很可能源于高负载下的推理状态管理,指向底层推理链路 [9] 异常检测与监控策略优化 - 公司发现投机采样(Speculative Decoding)指标可作为有效的异常检测参考。在GLM-5的异常中,乱码和生僻字输出的spec_accept_length非常低,而复读则拥有过高的spec_accept_length [11][13][14] - 基于此,公司制定了一套在线异常监控策略:当spec_accept_length持续低于1.4且生成长度超过128个token,或spec_accept_rate超过0.96时,系统会主动中止生成并重新分配请求 [15] 根本原因分析与修复(KV Cache竞态) - 深入分析将问题归因于PD分离架构下,请求生命周期与KV Cache回收、复用时序不一致所引发的KV Cache复用冲突 [16][18] - 修复方案是在推理引擎中引入更严格的时序约束,在请求终止和KV Cache写入完成之间建立显式同步机制,确保KV Cache写入不会跨越内存复用边界,从而避免跨请求的KV Cache损坏 [19][20] - 该修复使异常输出的发生率从约万分之十几下降至万分之三以下 [21] 根本原因分析与修复(HiCache加载时序) - 另一个问题是当KV Cache换入与计算重叠时,系统未能保证数据在使用前已完成加载,导致可能出现访问未就绪KV Cache的情况 [22] - 解决方案是重构HiCache读取流程,引入数据加载与计算之间的显式同步约束,确保在计算前相应缓存已完全加载,消除了read-before-ready问题 [24] 针对系统瓶颈的优化(Prefill阶段) - 上述问题都指向长上下文Coding Agent服务中的一个常见系统瓶颈:Prefill阶段已成为影响系统性能的主要因素 [25] - 为缓解Prefill阶段在高并发下的内存和带宽压力,公司设计了KV Cache分层存储方案“LayerSplit”。该方案让每个GPU只存储部分层的KV Cache,显著降低了单GPU内存占用,并在Attention计算前进行广播 [26][30] - 通过将KV Cache广播与indexer计算重叠,将通信延迟隐藏在计算过程中,额外通信开销仅为KV Cache的八分之一,整体通信成本可忽略不计 [30] - 将LayerSplit与GLM-5.1结合,在Cache命中率达90%、请求长度在40k到120k区间内时,系统吞吐量提高了10%到132%,且收益随上下文长度增加而增长 [32]