Workflow
量子位
icon
搜索文档
英伟达最强B200算力浪费60%!普林斯顿团队出手,利用率升至71%
量子位· 2026-03-18 08:21
文章核心观点 - 普林斯顿大学等机构的联合研究指出,英伟达Blackwell B200 GPU因软硬件适配问题,导致高达**60%**的计算资源被浪费[1] - 由Tri Dao领衔、Meta、Together AI及英伟达共同研发的**FlashAttention-4**算法,通过针对性优化,将GPU利用率从行业普遍的**20%-30%**提升至**71%**,有效解决了资源浪费问题[3][4][5][6] Blackwell B200 GPU的硬件瓶颈 - **算力大幅提升**:Blackwell B200的张量核心算力达到**2.25 PFLOPS**,是上一代Hopper H100的**2倍**[7][8] - **配套单元停滞**:负责指数运算的MUFU单元吞吐量与共享内存带宽均未升级,与算力翻倍的张量核心形成脱节[11][12] - **性能瓶颈反转**:在注意力计算中,共享内存读写和指数运算的耗时,反而比矩阵乘法多出**25%-60%**,导致张量核心长期处于等待状态,**超过六成**的计算资源被闲置[13][14][15] FlashAttention-4的三大优化策略 - **优化指数运算与内存读写**: - 通过**软件模拟指数函数**(使用多项式近似),让高速的FMA计算单元参与指数运算,提升吞吐量[18] - 采用**条件性softmax rescaling**策略,减少不必要的计算步骤[18] - 利用**2-CTA MMA**模式,将共享内存的读写量直接**砍半**,并减少后续原子操作[20][21] - **重构计算流水线**:深度适配Blackwell的**全异步MMA操作**和**张量内存TMEM**,让softmax计算与矩阵乘法实现完全的计算重叠,避免硬件算力空闲[23][24][26] - **前瞻性硬件适配**:考虑到下一代B300/GB300 GPU的指数运算单元吞吐量已翻倍至**32 ops/clock/SM**,算法方案将根据实际性能重新权衡,确保持续适配硬件迭代[27][28] FlashAttention-4的性能与开发优势 - **性能表现**:在B200 GPU上,前向传播算力最高达到**1613 TFLOPS/s**,实现了**71%**的理论峰值利用率[32] - **速度对比**:比英伟达官方的**cuDNN 9.13**快**1.1-1.3倍**,比常用的**Triton框架**快**2.1-2.7倍**,在长序列、因果掩码等场景优势更突出[34][37] - **开发效率跃升**:全部代码基于**Python的CuTe-DSL框架**编写,实现零C++代码开发[29] - **编译速度大幅提升**:前向传播内核编译时间从FlashAttention-3的**55秒**缩短至**2.5秒**,提速**22倍**;反向传播编译时间从**45秒**降至**1.4秒**,提速**32倍**,整体编译速度最高提升**30倍**[30][31][32] 行业影响与后续发展 - 英伟达官方的**cuDNN从9.13版本开始**,已经反向吸收了FlashAttention-4的核心技术[38]
百度龙虾全家桶火速上桌!出手就是全球最大搜索skill
量子位· 2026-03-17 19:59
文章核心观点 当行业多数参与者仍聚焦于AI智能体(文中隐喻为“龙虾”)的部署与基础搭建时,百度凭借其全栈AI布局,已率先构建并推出了覆盖云端、移动端、桌面端及丰富技能生态的完整AI智能体解决方案(即“龙虾全家桶”),将竞争焦点从“能养虾”推进至“能用虾、管虾、扩展虾”的应用与生态构建新阶段 [1][8][15][80] 根据相关目录分别进行总结 百度AI智能体(“龙虾”)产品矩阵与生态 - 公司推出“龙虾全家桶”,包括云端智能体、安全方案、手机端应用及一整套Skills能力 [1] - 产品矩阵迎来新成员:全新自研桌面AI智能体DuMate,以及小度全球首款家用AI智能体 [4][33] - 依托百度智能云、红手指Operator(后更名为RedClaw)及百度App,公司搭建了从云端极简部署、移动端开箱即用,到应用侧零部署的完整生态 [7] - 在1个多月内,公司快速实现了从智能体一键调用、零部署,到手机端应用上线等一系列动作落地 [6] 应用层突破:降低使用门槛,拓展使用场景 - 行业普遍面临部署后智能体如何实际使用、管理和持续运行的现实门槛 [12][13] - 公司通过百度App上线OpenClaw能力,用户通过搜索框一分钟即可唤起消息助手,实现一键使用 [20][21] - 公司推出面向零基础用户的DuClaw服务,实现“零部署”,内置百度搜索等Skills,做到开箱即用 [26][27] - 公司上线全球首款手机AI智能体应用“红手指Operator”,将体验延伸至移动端,用户可一句话指挥智能体完成打车、外卖等跨App操作 [29][30][31] - 桌面智能体DuMate定位为员工的第二大脑与执行助理,家用智能体则融入家庭场景,支持全家共享与跨设备任务执行 [33] Skills(技能)生态构建与核心能力 - 公司将自身AI能力封装成标准化Skills,推出了包括百度搜索、小度、秒哒、伐谋、客悦营销等在内的10余种能力组件 [38] - 针对智能体信息时效性问题,公司推出具备实时检索全网信息能力的“百度搜索”Skill,可与百度百科、百度学术等生态Skills协同 [40][41][42] - 百度搜索Skill在官方技能商店ClawHub下载量超4.5万次,是全球下载量最大的搜索引擎官方技能插件 [2][44] - 推出全球首个OpenClaw应用开发Skill“秒哒Skill”,用户可通过自然语言对话创建、修改与发布网页、小程序、游戏 [48] - 在企业侧,推出国内首个将OpenClaw智能体能力引入企业营销场景的标准化营销类Skills [49] - 发布新一代“伐谋Skill”,面向科研与算法场景,提供算法自演化、实验管理和可视化能力 [51][52] 开发者支持与全栈技术布局 - 针对智能体任务中的高消耗场景,公司通过千帆平台推出Coding Plan订阅服务,整合Kimi-K2.5、GLM-5等主流代码模型,以更低成本帮助开发者接入代码强模型能力 [54][55] - 公司通过“芯—云—模—体”的全栈AI布局支撑智能体生态快速落地,依托自研昆仑芯和百度智能云服务,提供从云端部署、模型调度到算力成本控制的能力 [65] - 通过轻量应用服务器LS提供全可视化部署界面,支持快速搭建并一键接入飞书、钉钉、企业微信等主流IM工具 [66][67][68] - 公司强调安全机制,通过官方托管的零部署服务、环境隔离、技能管控等措施保障数据安全与生态可持续性 [73][74][76] 行业趋势与公司战略定位 - 2026年初,AI圈热点围绕OpenClaw展开,从云厂商到硬件企业纷纷卷入“养虾”热潮 [9][10] - 行业初期竞争多停留在帮助用户完成基础部署的阶段 [12] - 随着第一波热度过去,行业开始比拼部署后智能体的实际应用能力,即如何将其转化为长期生产力系统 [78][80] - 公司通过打通应用侧、能力侧与扩展侧,使智能体演变为一个可不断生长的任务系统,并借助全链路生态在规模化落地期走在行业前面 [81][82][83][84] - 线下生态活跃,公司举办的开发者活动吸引了近1000名开发者到场,并获得OpenClaw创始人的公开赞赏与合作意向 [60][63]
北京养虾er!明晚19点,为你带来9+场养虾干货Talk,来创业大街见
量子位· 2026-03-17 19:59
行业活动概览 - 活动主题为“OpenClaw「养虾」经验交流沙龙”,旨在分享AI智能体(龙虾/OpenClaw)的实战应用经验,解决用户从安装到实际应用中的问题 [1][2][10] - 活动由量子位公众号组织,将于3月18日周三19:00-21:00在北京海淀中关村创业大街举行 [1][3] - 活动提供“替你装虾”服务,并有“虾农身份认证”贴纸等互动环节,以促进用户交流 [2][9] 核心议题与分享内容 - 议题涵盖AI智能体的技术原理、记忆管理、个性化调教及多场景落地应用 [5][6][7] - 技术议题包括解密“龙虾模型”的养成、OpenClaw记忆管理实战以解决会话中断问题 [5] - 应用实践议题包括将OpenClaw调教成私人助手、非技术背景下的Agent实战、以及探讨OpenClaw的本质与最佳实践 [5][6] - 特定行业应用案例包括用OpenClaw打造“永不休眠的律所”,该项目在领英吸引了超过5万人的关注 [6] - 生活化应用案例包括通过API集成实现自动点咖啡、培养AI成为长期协作的“外脑”伙伴 [6][7] 参与方与嘉宾背景 - 分享嘉宾来自多家行业相关公司,包括智谱、清昴智能、MiniMax、网易有道、Lovstudio.ai等 [5][6][10] - 嘉宾角色多样,涵盖技术员工、产品负责人、解决方案架构师、产品经理、创业者及法律专业人士 [5][6][10] - 包括美国加州律师分享法律科技应用,以及多位创始人分享其AI产品与实践经验 [6]
Kimi新架构让马斯克叹服!17岁高中生作者一战成名
量子位· 2026-03-17 14:10
文章核心观点 - 月之暗面(Kimi)团队提出了一种名为“注意力残差”(Attention Residuals)的新型神经网络架构技术,该技术通过将对序列的注意力机制“旋转90度”应用于网络深度维度,以解决传统残差连接中的“PreNorm稀释问题”,从而显著提升大模型的训练效率[1][11][12] - 该技术在其自研的Kimi Linear 48B大模型上得到验证,实现了约25%的训练效率提升,且推理延迟增加小于2%,并在多项下游任务中展现出持平或更优的性能[6][22][23][24] - 这项创新工作源于对“时间-深度对偶性”的理论洞察,并引发了包括马斯克、Andrej Karpathy在内的行业顶尖人物的关注[3][5][28][31] 技术创新与原理 - **核心问题**:在主流PreNorm范式下,传统残差连接将所有前序层的信息等权累加,导致早期信息被稀释、难以检索,并引发隐藏状态范数无界增长,造成训练不稳定,此现象被称为“PreNorm dilution problem”[9][10] - **解决方案**:受Transformer中注意力机制处理序列的启发,团队提出在深度维度上,让当前层通过注意力机制“选择性关注”之前的层,而非无差别累加,即“注意力残差”[11][12] - **工程挑战与优化**:直接应用会导致计算复杂度达到O(L²)(L为层数),无法承受。团队采用“分块注意力残差”(Block AttnRes)方法,将连续层打包成块并压缩为“摘要向量”,将复杂度降至O(L·B)(B为块数,通常为8-16),并辅以缓存式流水线通信等工程优化[14][15][19][20][21] 性能验证与效果 - **效率提升**:在Kimi Linear 48B模型(总参数量480亿,激活参数量30亿的MoE架构)上验证,在相同计算预算下可获得更好性能;达到相同性能所需训练计算量减少约20%,相当于获得1.25倍的效率优势[6][22][23] - **任务表现**:在多项基准测试中,采用注意力残差的模型表现持平或优于基线模型,特别是在数学推理(如MATH提升至57.1分 vs 基线53.5分)、代码生成(如MBPP提升至73.9分 vs 基线72.0分)及中文理解(如C-Eval提升至82.5分 vs 基线79.6分)方面有改善[24][25] - **部署优势**:该技术是一个“即插即用”的替代方案,可直接替换原有残差连接,无需修改网络其他部分[26] 行业影响与人物背景 - **行业关注**:此项研究引起了埃隆·马斯克和OpenAI前科学家Andrej Karpathy等业界领袖的关注与讨论,Karpathy更借此反思业界对Transformer原始论文的理解仍不充分[3][5] - **团队构成**:论文的共同第一作者之一是年仅17岁的高中生陈广宇(Nathan),其经历展现了非传统的技术人才成长路径[31][32][53] - **人才路径**:陈广宇从对底层技术产生兴趣开始,通过参与黑客松、加入青年计划、在硅谷AI初创实习(该公司于2025年初完成800万美元种子轮融资),最终加入月之暗面核心团队,专注于如Flash Linear Attention等高效注意力机制的底层研发工作[36][37][43][45][47][48][49][50][51]
卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独
量子位· 2026-03-17 14:10
文章核心观点 - 当前大型语言模型在复杂推理任务上表现出色,但在多步骤、长上下文的精确计算任务中表现不佳[1][7][9] - Percepta团队提出了一种创新方法,通过在Transformer模型权重内直接内嵌可执行程序(原生计算机),来从根本上解决精确计算问题[2][4][15] - 该方法摒弃了依赖外部工具或智能体调度的“外挂”式解决方案,实现了计算过程的内化、透明化和可验证性[4][13][20] - 配合创新的二维注意力头设计,该方法将推理效率提升至指数级,在普通CPU上实现了极高的Token吞吐量[5][6][21][26] 技术方案:内嵌原生计算机 - 核心是在Transformer的权重中实现了一套现代化的RAM计算机与WebAssembly解释器[16] - WebAssembly是一种快速、稳定的底层机器指令,允许将C、C++等语言编写的代码编译成模型可识别的Token指令序列[17][18] - 模型执行计算时,会先以Token序列形式“编写”程序,然后切换到快速解码模式,在内部逐步执行程序并输出过程与结果[19] - 此方法使计算过程从依赖外部工具的黑箱变为内部可验证的白盒,实现了计算透明化[20] 效率提升:二维注意力头与HullKVCache - 团队设计了二维注意力头,将注意力查询问题转化为计算几何中的凸包极值查询问题[22] - 通过动态维护历史Key向量的凸包数据结构,每一步的注意力查询只需在凸包上进行,将计算复杂度从O(n)降至O(log n)[23][24] - 基于此原理设计的HullKVCache,在普通CPU上实现了**31037 Token/秒**的吞吐量[6][26] - 完成约**9000行**指令序列仅需**1.3秒**,效率较传统KV缓存提升了近**200倍**[26] - 该设计完全基于标准PyTorch Transformer,无需定制内核或稀疏掩码,通过简单配置即可实现[28] 性能验证:长程精确计算任务 - 在10×10最小代价完美匹配任务中,模型内部执行匈牙利算法,以自回归方式生成完整计算轨迹[30][31][32] - 该任务在CPU上完成,Token生成速度达到**33583 Token/秒**,指令输出效率为**7301行/秒**[33] - 在世界公认最难数独(Arto Inkala数独,仅21个提示数)求解任务中,模型内部执行了一个完全正确的、编译后的数独求解器[30][35] - 求解器通过约束传播和搜索回溯,每一步尝试、验证、矛盾检测都以可读日志和Token轨迹形式输出[36][37] - 最终在**3分钟**内实现了**100%精确求解**[38] 背景与团队 - 这项研究由Percepta团队完成,领衔者为Christos Tzamos[40] - Christos Tzamos是麻省理工博士,现任雅典大学计算机科学副教授,同时是Percepta的创始研究员[41] - Percepta是General Catalyst旗下的AI转型公司,团队成员来自Meta FAIR、MIT、Google等机构[42]
企业级靠谱龙虾升级,拒绝失控
量子位· 2026-03-17 12:13
行业背景与趋势 - 市场对AI的期待从追求通用模型的热度转向解决企业实际业务问题,模型发展呈现专业化、专长化趋势[18][19][21] - 通用大模型难以直接应用于企业复杂业务场景,存在技能单一、场景有限、成本高及数据安全合规风险等问题[2][3][22] - 企业级大模型赛道正迎来爆发式增长,正逐步替代传统软件,以数字员工形态成为企业数字化核心交付载体[49] 公司核心战略与定位 - 公司摒弃轻量化智能体路线,专注于打造能落地、创造价值的企业级AI数字员工[2][5][46][48] - 公司定位为业内唯一实现“规划-决策-执行”数字化闭环的企业级大模型产品提供商[46] - 公司核心优势在于对企业服务的理解深度,包括数据治理全链路能力和对复杂业务场景的精准把控[44] 产品体系:“三大件”与DeepexiOS - 公司核心产品体系由Deepexi企业大模型、FastAGI企业智能体平台和FastData Foil企业数据融合平台组成,合称“三大件”[6][8] - 三大件融合组成名为“DeepexiOS”的AI级企业操作系统,旨在系统化支撑企业AI建设[9] - DeepexiOS实现了数据治理的动态化重构,能自动生成贴合企业业务逻辑的知识体系,告别了传统人工梳理、流程固化的痛点[43] Deepexi企业大模型核心能力 - 模型专注于企业级应用,核心能力包括精准理解业务(吃透内部知识、流程、逻辑)和可靠的coding能力(自动写代码、查数据、跑流程)[23][24] - 模型能融合SQL/Python/前端/NC代码等能力,直接操作系统后台,实现自动生成SQL、写Python脚本、对接ERP等操作[25] - 模型基于企业本体数据集构建,认知精度远超同类产品,能做到回答可靠、推理严谨[23][29] 数据基础:Deepology企业本体数据集 - 公司自2018年起积累数据,已为超300家行业头部客户提供业务建模服务,沉淀形成Deepology企业本体数据集[26] - 该数据集是一套能真正理解企业业务的高质量数据体系,而非零散的原始数据集合,是模型持续进化的“核心养料”[26] - 以船舶行业为例,公司通过服务多家企业,沉淀了图纸、工程数据与全链路信息,构建了该行业的本体数据集[26] FastAGI企业智能体平台升级 - 平台重点升级了Agentic多项能力,实现自主规划Agent,并积累了工程设计、BOM分析、工艺优化、故障维修等企业级常用Skills[33] - 升级支持超长上下文机制和多层记忆架构,在高并发场景下,处理能力与稳定性大幅提升[33] - 平台作为AI员工的“协同workspace”,能对复杂任务进行端到端规划、拆解与分派执行[40] FastData Foil企业数据融合平台升级 - 平台在原有多模态数据治理能力基础上,重点升级了对语音、音视频及空间地理等多模态数据格式的解析能力[34] - 平台能动态扩展和更新企业本体模型,为企业沉淀高质量的Deepology企业本体数据集[34][35] - 平台负责将企业各类杂乱数据清洗、融合成AI-ready高质量数据,为模型提供可靠的数据支撑[37] 技术路径与协作流程 - 完整协作流程分为三层:数据层(FastData Foil处理数据)、模型层(Deepexi训练模型)、执行层(FastAGI调度执行)[37][39][40] - 模型训练与推理能力与数据平台的多模态数据处理能力相互支撑,形成闭环互补,支撑持续迭代[31] - 平台内置多层记忆与激励机制、Skill管理与自动化、企业知识库与安全机制,以保证任务执行的准确可靠[47] 公司财务与业务进展 - 公司最新财报预告显示亏损收窄,核心原因是营业收入增长带动毛利大幅提升,主营业务进入“收入增长带动毛利提升”的正循环[10] - 预计2025年营收同比增长65%~75%;FastAGI收入较2024年同期增幅达175%以上;全年净亏损同比收窄23%以上[15] - 公司已服务中国海诚、大族激光等众多行业头部企业,客户覆盖消费零售、制造、医疗、交通等多个领域[11][12] 未来规划与布局 - 下一代Deepexi企业大模型已在研发和规划中[32] - 公司考虑将核心的本体模型技术与智算单元结合,打造NOVA本体模型加速专用芯片(SOC)[50] - 公司规划“Deepexi企业大模型+具身机器人=AI具身员工”,并与天津大学成立“具身智能大脑联合实验室”以推动落地[50]
视频生成一长就漂移竟是前序帧「太干净」惹的祸!研究揭示共享噪声水平才是长视频稳定关键
量子位· 2026-03-17 12:13
自回归视频生成的技术瓶颈与现有方案局限性 - 随着视频生成向长时序演进,自回归扩散模型因支持流式输出而受关注,但其在迈向“无限长”时面临核心痛点:训推不一致导致的误差累积,使生成的视频越往后时序漂移和画面崩坏问题越严重[3] - 为缓解退化问题,现有方法尝试了模拟预测误差、引入First frame sink或Self-rollout等路径,但这些修补方案各有局限性,例如使用frame sink会严重限制视频的场景变化[3] HiAR方法的核心创新与原理 - 研究团队发现,导致时序漂移的根源在于主流做法是等待前一个视频块完全去噪成“干净”画面后再作为条件输入,这种“过于干净”的上下文会使模型将前序块不可避免的微小预测误差当作绝对正确的真实条件,导致误差在自回归过程中被不断传递并成倍放大[4] - HiAR不再串行等待前一个视频块完全生成,而是在每一个去噪步中,对所有视频块进行因果生成,使上下文和当前生成块始终共享相同的噪声水平,这种简单重构大幅减少了块与块之间的误差传递[9] - 该方法基于对双向扩散模型的重新审视,发现所有视频帧共享噪声水平、同时去噪也能保持连续性和一致性,扩散模型往往有从粗到细的生成模式,粗粒度阶段的去噪只需要粗粒度的上下文就足够了,这一规律可迁移到因果自回归扩散模型中[7] - 在训练阶段,为解决模型倾向于生成几乎静止的“低运动幅度”视频的问题,团队引入了前向KL正则化,他们发现当前蒸馏得到的因果模型实际上仍保留了相当不错的双向注意力能力,因此在双向注意力模式下计算前向KL正则损失,有效约束模型保持原视频的动态多样性与合理运动幅度[10] HiAR的性能表现与评估结果 - 在权威的VBench长视频基准测试上,HiAR的Drift Score降至最低的0.257,相比基线方法显著减少了时序漂移,在长时序下保持了极高的画质与语义稳定[13] - 在核心视觉指标上,HiAR取得了最优成绩,其Total分数为0.821,Quality分数为0.846,Semantic分数为0.723,Dynamic分数为0.686[14] - HiAR实现了分钟级的无退化视频生成,在测试中成功实现只训练5秒长度视频的情况下生成了3小时的高质量连续视频[14][15] HiAR的工程优势与效率提升 - 得益于分层去噪架构打破了传统自回归模型“逐块串行”的枷锁,HiAR在4步去噪的设置下解锁了流水线并行推理能力[16] - 在不牺牲任何视频质量的前提下,HiAR实现了约1.8倍的推理加速,吞吐量达到30 fps,单chunk延迟低至0.30秒[16] - 其吞吐量达到30 fps,显著高于对比模型如Wan2.1-1.3B的0.78 fps和MAGI-1-4.5B的0.19 fps,延迟也远低于Wan2.1-1.3B的103秒和MAGI-1-4.5B的282秒[14] 研究意义与未来潜力 - HiAR为自回归长视频生成解决训推不一致问题提供了一种新思路,证明了简单的共享噪声水平就能够有效打破误差累积的魔咒[18] - 团队的方法独立于frame sink以及基于context压缩的方法,具有很大的发展空间[18]
量子位编辑作者招聘
量子位· 2026-03-17 12:13
公司概况 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累[1] - 公司在AI及前沿科技行业是TOP1新媒体,在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] 招聘岗位方向 - 公司开放三大方向岗位招聘:AI产业方向、AI财经方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生[6] AI产业方向岗位详情 - 岗位职责是关注基建层创新,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[5][6] - 职责包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 职责包括参与核心采访,对话产业专家、技术大牛,撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 任职要求熟悉AI行业供应链与生态,能把复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责是聚焦创投、AI创业公司、上市公司、商业模式、产业链资本动向[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 职责包括访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 任职要求逻辑结构强,对商业叙事敏感,热爱对话采访[11] AI产品方向岗位详情 - 岗位职责是关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 职责包括撰写AI应用产品深度评测,跟踪多终端新品发布[11] - 职责包括对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 任职要求熟悉各大终端厂商业态和体验方法论,有强逻辑和结构化表达能力[11] 员工福利与发展 - 员工可获得站在AI浪潮之巅的机会,第一时间接触AI最新技术和产品[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动[6] - 应届新人会获得主编级编辑的一对一指导[6] - 公司提供行业TOP薪资待遇,五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] - 公司团队氛围扁平、简单、开放、多劳多得[6]
GPT-5.4一周狂赚10亿美元ARR!一句嗨烧掉80刀,效率却飙升32倍
量子位· 2026-03-17 12:13
核心观点 - OpenAI最新发布的GPT-5.4模型在商业上取得巨大成功,上线一周即带来10亿美元的年化净新增收入,并展现出远超前代模型的智能水平和任务效率,但其使用成本也显著更高 [1][4][28] 商业表现与市场影响 - **收入增长迅猛**:GPT-5.4上线一周,每天处理约5万亿token,带来10亿美元年化净新增收入 [1] - **流量激增**:其日均流量已超过OpenAI一年前整个API的总量 [2] - **处理规模巨大**:每天处理的token量相当于超过4500万本完整的《红楼梦》(每本约110万token) [3] 模型成本分析 - **单次使用成本高昂**:有案例显示,仅对模型说一句简单的话就花费了80美元 [6] - **基准测试成本领先**:完成整个智能指数测试的成本约为2951美元,比GPT-5.2 (xhigh)(约2304美元)高出约28%,是Gemini 3.1 Pro Preview成本(约892美元)的3倍以上 [13][14] - **token消耗量大**:GPT-5.4在测试中花费了约1.2亿个输出token,比GPT-5.3 Codex (xhigh)多约55%,是Gemini 3.1 Pro Preview(5700万token)的大约2倍 [15][16] - **定价更高**:GPT-5.4的每百万token输入/输出价格为2.5美元/15美元,高于GPT-5.2的1.75美元/14美元和Gemini 3.1 Pro Preview的2美元/12美元 [17] 效率与性能提升 - **任务成本大幅下降**:在ARC-AGI基准测试中,GPT-5.4 (High)达到90%准确率的每个任务成本仅为0.37美元,相比3个月前效率提升了32倍 [26][27] - **性价比显著**:尽管单token成本更高,但由于工作效率的指数级提升,完成相同准确率任务的总体成本更低 [18][21][28] - **准确率对比**:在ARC-AGI-1测试中,GPT-5.4 (High)以0.37美元的成本达到90%准确率,而GPT-5.2 Pro (xhigh)以11.64美元的成本达到90.5%的准确率 [23][26] 技术能力与基准测试 - **“大一统”模型**:GPT-5.4是首个融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文的模型 [30] - **多项基准领先**:在多个关键基准测试中保持领先,包括计算机使用(OSWorld-Verified: 75.0%)、网页任务(WebArena-Verified: 67.3%)、知识工作(GDPval: 83.0%)、代理浏览(BrowseComp: 82.7%)、软件工程(SWE-Bench Pro: 57.7%)、科学推理(GPOA Diamond: 92.8%)、高级数学(FrontierMath: 47.6%)和代理工具使用(Toolathlon: 54.6%) [31][32] - **超越人类表现**:在44种不同的工作岗位上,有83%的概率胜过人类,包括律师、会计师、财务分析师等 [33] 原生计算机操作能力 - **界面理解与操作**:模型原生支持通过截图理解软件界面,并执行鼠标点击和键盘输入等操作 [38] - **自动化任务**:展示出可自行发送邮件、安排日程、处理批量数据录入(如向十个Web表单提交信息)的能力 [39] - **创造性应用**:用户利用其计算机操作能力进行交互式剧本创作,生成更连贯、细节更丰富的场景,并能在Microsoft Paint中通过搜索、截图和导入图片的方式绘制特定标志 [41][43][44] - **操作原理**:所有计算机操作仅基于屏幕截图和基本工具调用(点击、拖动、按键),无需专用计算机API [46]
量子位编辑作者招聘
量子位· 2026-03-17 06:12
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展(芯片、AI Infra、云计算)及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 职责包括撰写AI应用产品深度评测,跟踪多终端新品发布(手机、PC、XR、车机等)[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑与结构化表达能力[11] 加入公司的优势 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 通过撰写独家原创内容,可建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇及五险一金、餐补、绩效、加班补助等福利[6] 通用岗位要求与应聘方式 - 主编职位需具备选题和带队能力及经验[6] - 主笔职位需具备原创深度稿件能力[6] - 编辑职位需热爱表达,善于挖掘信息并用通俗语言解读AI进展[6] - 应聘需将简历发送至指定邮箱,邮件主题注明应聘方向及姓名[11] - 随简历需附上科技行业代表作品或能展现写作水平的作品[11]