Workflow
量子位
icon
搜索文档
英伟达4B小模型击败GPT-5 Pro!成本仅1/36
量子位· 2025-12-08 14:07
文章核心观点 - 英伟达团队开发的4B小模型NVARC在ARC-AGI 2竞赛中以27.64%的成绩超越GPT-5 Pro的18.3%,登顶榜首,其单任务成本仅约20美分,远低于GPT-5 Pro的超过7美元,展现出小模型在特定领域通过方法创新实现高性能与高性价比的潜力 [1][2][4] 竞赛成绩与成本优势 - NVARC在ARC-AGI 2公开榜的成绩为27.64%,显著高于GPT-5 Pro的18.3% [2] - NVARC每任务成本仅约20美分,大约是GPT-5 Pro单任务成本(超过7美元)的1/36,成本优势巨大 [4] 技术路径:零预训练与合成数据 - NVARC采用零预训练深度学习方法,不依赖大规模通用数据集进行前期预训练,规避了预训练模型的领域偏见和数据依赖问题 [5] - 团队将复杂推理移至离线的合成数据管道,通过大规模合成高质量数据来训练较小的模型 [9][10] - 具体方法包括利用GPT-OSS-120B等大型模型大规模制作高质量的合成谜题,并将简单谜题混合生成更复杂的新谜题 [14][15] - 通过分阶段独立验证的复杂推理管线,团队建立了一个包含超过320万增强样本的合成数据集,其中每个样本最多有7对输入/输出 [17][18] - 合成数据集的构建详情如下表所示,最终NVARC full部分包含约178.6万个样本,占总样本数(约325.5万)的54.9% [19] 模型架构与训练方法 - 模型核心推理模块基于改进版ARChitects方法,选用小参数模型Qwen3-4B,并通过对话式模板简化谜题理解 [19] - 训练时借助NeMo RL框架和Megatron后端进行监督微调 [20] - 针对ARC-AGI 2“每个任务都是全新规则”的特点,引入了针对每个问题进行测试时微调(TTFT)的LoRA微调技术,让模型在解题前快速适应 [21] - 对ARChitects方法的改进包括在解码阶段对DFS算法进行批处理优化,修复结果非确定性问题,并统一了8种数据增强操作来评估候选解 [22][23] 方法论的启示与行业意义 - 在特定领域任务中,经过针对性优化的小模型性能不逊色于大模型,并具备成本、速度、适配性与领域聚焦的优势 [25] - 将正确的方法用在正确的地方,可以实现更大的价值,这提示行业关注方法创新而非单纯追求模型参数规模 [25]
本周三!量子位的这件大事就要来了|MEET2026
量子位· 2025-12-08 14:07
大会概览 - MEET2026智能未来大会将于2025年12月10日在北京金茂万丽酒店举办,主题为“共生无界,智启未来” [24][37][39] - 大会是AI圈一年一度的盛宴,预计将获得数千万媒体曝光,吸引千位线下观众与超300万名在线观众 [36] - 大会将发布《2025年度AI十大趋势报告》与《2025人工智能年度榜单》两份重要文件 [35][39][47] 核心议题与亮点 - 大会设置两场高浓度对话:一场是文远知行创始人韩旭与量子位总编辑李根关于GenAI赋能自动驾驶的对话;另一场是探讨AI Agent革新千行百业进程的圆桌论坛 [7][8][13] - 议题内容覆盖大语言模型、多模态、具身智能、自动驾驶、云计算及具体应用等AI主流方向 [3] - 重点关注AI从数字世界迈向物理世界、从“思考的AI”到“行动的AI”的转变,以及Agent如何从陪聊进化为超级助理 [12][16][41][43] 嘉宾阵容 - 大会累计邀请近三十位重量级嘉宾,涵盖学术界、产业界与前沿创业一线 [17] - 学术界嘉宾包括清华大学张亚勤院士、孙茂松教授,智源研究院王仲远院长,交大高金朱宁教授等,将分享对“人工智能+”趋势、大模型发展等根本问题的深度判断 [1][17][41][45] - 产业界阵容覆盖芯片、云、模型到终端的全栈力量,包括百度、小米、商汤、蚂蚁、谷歌云、亚马逊云科技、高通、昆仑万维、潞晨科技、PPIO、中关村科金等最具代表性的企业 [1][21][41][42][43][44] - 新生创业力量如卓世科技、太初元碁、RockAI、自变量机器人、光轮智能、灵心巧手等也将亲临现场 [28][42][44][45] 议程与内容 - 上午议程聚焦宏观趋势与基础技术,包括“人工智能+趋势”、AI打造超级智能体、混合AI、Agentic AI未来等话题 [41] - 下午议程深入多模态、智能体、算力生态及行业应用,涵盖AI技术突破、基础设施、硬件创新及具身智能平台等 [43][44][45] - 会议以两场重磅发布收尾,分别是《2025人工智能年度榜单》和《2025年度AI十大趋势报告》的发布 [35][42][45] 参会价值 - 大会提供与学术界大咖、产业界领袖及高精尖企业管理层观众交流的机会 [1][31] - 参会者可获得最前瞻的观点、第一视角的实战经验与深度思考,洞悉技术路线、产品逻辑及创业机会的变化 [4][6][11] - 大会内容旨在解决AI落地真实挑战,探讨AI从理论、平台、应用到终端的完整落地路径,寻找从hype走向impact的真实路径 [33][34]
嚯,38%斯坦福本科生是“残疾人”
量子位· 2025-12-08 12:00
文章核心观点 - 美国精英大学中,学生通过注册为“残疾人”以获得学术便利的现象日益普遍且比例惊人,这引发了关于教育公平性、制度被滥用以及校园资源分配等问题的广泛讨论 [1][2][15] 现象与数据表现 - 斯坦福大学今年有38%的本科生注册为“残疾”,其中24%在秋季学期享受特殊照顾 [2] - 布朗大学和哈佛大学超过20%的本科生注册为残疾人,阿默斯特学院的比例为34% [9] - 芝加哥大学在八年内,因残疾认证获得优待的学生数量增长了三倍;加州大学伯克利分校在十五年内增长了五倍有余 [8] - 相比之下,公立两年制学院仅有3%到4%的学生申请特殊照顾 [10] “残疾”认证的性质与获取方式 - 绝大多数注册学生并非传统身体残疾,而是ADHD、焦虑抑郁等心理问题 [3] - 认证方式简单,通常只需一张基础的医生证明 [5] - 2008年《美国残疾人法案》修订后,残疾定义扩大到影响认知学习过程的群体,高校审核制度变得更为宽松,更重视学生个人感受而非仅依赖医学诊断 [5] - 2013年ADHD诊断标准放宽,从需要明显临床损害变为只需出现干扰学习质量的症状 [5] 学生获得的学术便利 - 拥有官方残疾证明的学生可获得额外考试加时(如延长50%)、无干扰安静环境、允许使用明令禁止的电子设备等 [2][7] - 严重焦虑的学生可被允许录制课堂内容、享受作业截止日期延期,并获得便条以避免被教授突然点名 [7] 现象背后的驱动因素与问题 - 制度存在漏洞并被利用,部分富裕家庭通过向医生行贿为子女获取虚假诊断,以在大学入学考试中获得特殊照顾 [12] - 有研究表明,部分“残疾”学生在阅读、数学和智商测试中表现高于平均水平,但认证给他们带来了更多校园便利 [14] - 这加剧了校园教育的不公平,富裕学生更易获得优待,而真正残疾的贫困学生可能无力承担高昂的检测费用 [15][16] - 在学生群体中,追求“残疾”标志成为一种趋势,部分学生即使没有症状也在同辈压力下说服自己需要额外帮助 [20][21] 对学校的影响与资源压力 - 学校需要提供更多特殊考试空间和监考老师以满足需求 [24] - 斯坦福大学为此每年的支出预算增长了三倍之多 [25] - 部分教授认为这影响了学生能力评判标准,考试本应考验规定时间内解决问题的能力,未利用此优势的普通学生处于不利地位 [25] 不同的观点与争论 - 部分高校专家认为数据处于合理范围,越来越多学生获得便利是系统有效运作的证明,且欺诈并不常见 [27][28][29] - 绝大多数网友认为该现象阻碍了真正需要帮助的学生,并成为一部分人操纵成绩的途径 [31] - 有观点提出应考虑放宽对所有人的教育评估标准,不以单独的考试成绩作为唯一评价指标 [33] - 也有观点认为,该机制对于自卑于自身病症的孩子来说并非完全是坏事 [35]
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
量子位· 2025-12-08 12:00
文章核心观点 - 英伟达发布CUDA 13.1,推出全新的CUDA Tile编程模型,这是CUDA自2006年诞生以来最大的进步,旨在彻底改变并大幅降低GPU编程的门槛[1][2] - 新模型让开发者可以用Python编写GPU内核,15行Python代码性能即可媲美200行手动优化的CUDA C++代码,使得更多数据科学家和AI研究者能直接上手高性能GPU编程[3][22] - 行业专家Jim Keller认为,这种提高抽象层次、降低硬件依赖的编程范式,可能削弱英伟达以CUDA生态构建的护城河,使得AI内核更容易移植到其他厂商的硬件平台[5][15][17][18] CUDA Tile编程模型的革新 - 传统CUDA采用SIMT(单指令多线程)模型,开发者需手动管理线程索引、线程块、共享内存布局和线程同步等复杂细节,对开发者经验要求极高[6][7] - CUDA Tile模型彻底改变玩法:开发者将数据组织成Tile(瓦片),并定义在Tile上的运算,而如何将运算映射到GPU的线程、Warp和Tensor Core等硬件细节则由编译器和运行时自动处理[8] - 新模型类比NumPy之于Python,通过提高抽象层次简化了编程[9] 新模型的核心技术组件 - **CUDA Tile IR**:一套全新的虚拟指令集,在高级语言和硬件之间增加抽象层,确保基于Tile编写的代码能在不同代际的GPU上运行,包括当前的Blackwell及未来架构,提供跨代兼容性[11][18] - **cuTile Python**:面向开发者的接口,允许直接用Python编写GPU内核,将编程门槛从“HPC专家”大幅降低至“会写Python的数据科学家”[12] 性能优化与当前支持范围 - 目前CUDA Tile仅支持Blackwell架构(计算能力10.x和12.x),开发重点集中在AI算法上,公司表示未来会扩展到更多架构并推出C++实现[14] - 更新带来一系列面向Blackwell的性能优化:cuBLAS引入FP64和FP32精度在Tensor Core上的仿真功能;新增的Grouped GEMM API在MoE(混合专家模型)场景下能实现高达4倍加速;cuSOLVER的批处理特征分解在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升[16] - 开发者工具Nsight Compute新增对CUDA Tile内核的性能分析支持,可将性能指标直接映射回cuTile Python源代码[16] 对行业竞争格局的潜在影响 - Tile编程模型并非英伟达独有,AMD、Intel及其他AI芯片厂商的硬件在底层架构上同样可以支持基于Tile的编程抽象[15] - 过去CUDA的SIMT模型与英伟达硬件深度绑定,代码难以移植到其他硬件。而Tile模型的高抽象层次使得同一套算法逻辑理论上更容易适配到其他支持Tile编程的硬件上,可能降低CUDA生态的锁定效应[15][17] - 专家Jim Keller指出,这可能导致“AI内核将更容易移植”[18] - 然而,英伟达的CUDA Tile IR提供的跨代兼容性主要服务于其自身平台,开发者代码更容易在英伟达不同代GPU(如从Blackwell到下一代)间迁移,但要移植到AMD或Intel平台仍需重写[19][20] 对开发者生态的影响 - GPU编程门槛大幅降低,从需要稀缺的、能熟练驾驭CUDA并优化至跑满Tensor Core的专家,扩展到广大会写Python的数据科学家和AI研究者[21][22][23] - 公司表示,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码,打通了高性能计算与更广泛开发者群体之间的瓶颈[22]
打工15年,被大厂裁4次了
量子位· 2025-12-07 19:00
文章核心观点 - AI技术引发的结构性失业正在重塑科技行业就业格局,企业倾向于用技术或懂AI的员工替代传统劳动力,导致大量岗位永久消失[30][31][38][39][40][41][51][57][59] - 面对行业剧变,科技从业者需转变观念并积极学习AI技能以适应新环境,部分人通过转型为“超级个体”或加入非传统科技公司找到了新的职业路径[69][70][74][76][78][82][83] 科技行业裁员现状与规模 - 2025年开年以来,已有超过200家科技公司宣布裁员,约11万名科技从业人员失去工作[31] - 具体案例包括:亚马逊在2025年10月裁员1.4万人[32];英特尔在2025年7月宣布裁员2.4万人,约占其员工总数的22%[33];微软在2025年5月和7月共裁员1.5万人[34] AI驱动裁员的经济学逻辑 - 当前失业主要是由技术变革引起的“结构性失业”,岗位需求因新技术发生根本性变化,难以挽回[38][39][40] - 企业决策依据是单位产出成本:当AI的单位技术成本远低于人类劳动的单位成本时,企业会选择技术替代[41][45][46] - AI具备主体性特征,能独立完成整段工作流程,企业在投入技术时无需按以往比例投入劳动力,导致工作岗位永久消失[49][50][51] 企业业绩与裁员并存的矛盾现象 - 亚马逊2025年第二季度销售额同比增长13%,达到1677亿美元,业绩超出预期,但仍在10月执行裁员计划[53][54] - 企业裁员并非因为暂时雇不起员工,而是根本不再需要那么多员工,AI被用于提高效率并减少员工总数[55][56][57] 从业者的应对与转型路径 - 短期应对策略是“团队重组”,用懂AI的员工替换不懂AI的员工[59] - 长期趋势催生了“超级个体”与“一人公司”的兴起,2024年美国新注册的初创企业中,有35%由单一创始人独立创立,该比例是2017年的两倍多[69][70] - 具体转型案例包括:前大厂员工开设24小时棋牌室并运营社群[67]、转型为旅游陪玩兼摄影师[67]、产品经理开设融合文创与社交的包子铺[68] - 主人公老李(Lee Givens)在失业半年后,通过恶补AI知识(如学习PyTorch等框架),最终在丰田子公司Woven by Toyota找到产品经理工作,年收入达六位数美元,高于其在Meta和苹果时期的收入[76][78][80]
实测完豆包Seedream 4.5,替我设计师朋友哭了
量子位· 2025-12-07 17:00
文章核心观点 - 火山引擎发布了其图像生成模型豆包(Doubao)的最新版本Seedream-4.5,该模型在图像编辑、多图组合生成、创意设计等多个核心能力上实现了显著提升,并已面向企业和公众开放测试 [1][35] 新模型核心功能升级 - **强化原图保持能力**:模型能够最大化保持原图的人脸、光影色调与画面细节,适用于精准的图像编辑(P图)[4] - 例如,可执行“只保留绿线中的人物”或“将白天变为黑夜”等复杂指令 [5][7] - 具备将图片中的英文转换为手写体中文的能力 [9] - **重点强化多图组合生成能力**:能够精准执行复杂指令,将多张参考图中的元素识别提取并自然融合 [11][13] - 输入8张参考图并指定布局,可生成如童话故事书封面等复杂画面 [11] - 能够生成包含多个角色的无违和感群像画面或“大合照” [15][17] - 可根据一张参考图,一次性生成6张不同比例(如1:1、16:9等)的海报,并保持风格和元素不变 [19][20] - **优化海报排版与Logo设计能力**:能够生成如高级香薰产品详情页、极简风艺术展宣传海报等设计作品 [27][31] - **具备强大的创意变体与风格迁移能力**:例如,根据一张篮球创意图,可生成足球、排球、高尔夫、网球对应的创意图,且球体材质与内部结构精细真实 [22][23][25] 模型性能与测试表现 - 在内部多维度基准测试MagicBench上,Seedream-4.5相比上一代Seedream-4.0,在指令遵循、一致性、美学表现等多个维度均实现全面性能提升 [33] 产品公测与用户体验详情 - **开放状态**:模型已面向企业全量开放API,并向用户开启公测 [35] - **试用方式**:用户可在火山引擎AI体验中心注册登录,**免费生成200张**图片进行体验 [36] - **支持功能**:支持文生图、图片编辑、参考图生图、组图生成 [37] - **生成模式与参数**: - 组图生成提供**自动模式、故事书、连环画**三种模式可选 [38] - 生图分辨率支持**2K、4K** [38] - 可调整图片比例、尺寸,单次最多生成**15张**图片 [38] - **实测效果展示**: - **图像修复与编辑**:成功为模糊表情包角色更换蓬蓬公主裙泳衣,并提升清晰度 [40][42] - **图像细化与上色**:能将多人物剪影细化绘制为全彩角色形象,添加服饰细节、材质质感与光影 [45][47][48] - **文字生成与转换**:可将图片中的文字进行转换(如中文转英文)[50] - **多元素融合**:能将多张图中的元素融合生成一张圣诞海报,准确捕捉细节 [51][53] - **复杂指令遵循**:能根据超长的纯文本提示(描述北欧森林小镇场景),生成照顾到各种细节的图像 [57][58][59][60] - **用户反馈与官方建议**: - 用户反馈其光影与环境调整能力出色,能自然融入如手持手机、佩戴耳机等新设定元素 [66][69] - 实测表明,模型在多元素融合、画质提升、主体元素一致性保持方面表现突出 [71] - 模型提示词理解力强,但更依赖清晰具体的描述,表达越明确生成越精准 [72] - 官方生图建议:使用简洁连贯的自然语言写明**主体+行为+环境**,并用短语补充风格、色彩、光影、构图等美学要求 [73]
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
量子位· 2025-12-07 17:00
AI大模型竞争焦点转移 - 行业竞争焦点正从预训练和数据红利,转向强化学习(RL),RL正从“锦上添花”变为大模型进化的主战场 [1][2][3] - 证据包括:DeepSeek V3.2的RL训练算力投入已超过预训练的10%,且性能曲线仍在上升;OpenAI的o系列、Claude的推理能力及Gemini的多模态表现背后均有大规模RL支撑 [2][10] 万亿参数RL训练的成本挑战与突破 - 在万亿参数模型上进行全参数RL训练成本极高,需要上千张顶级GPU、训练周期数周,形成资源垄断,绝大多数团队无法负担 [4][11] - Mind Lab团队取得突破,实现了全球首个在1T参数模型上的LoRA高效强化学习训练,将GPU消耗降低90% [5] - 该方案并非简单的工程优化,而是训练范式的根本性转变,相关代码已由NVIDIA Megatron-Bridge和Seed verl官方合并并开源 [6] 技术方案:LoRA RL在万亿参数MoE模型上的实现 - 核心解法:采用LoRA进行参数高效适配,配合专为万亿参数MoE模型设计的混合并行引擎,将RL计算量降至十分之一且性能不打折 [13] - 在Kimi K2模型上的验证显示,仅使用64张NVIDIA H800 GPU即可完成万亿参数RL训练 [14] - 验证取得三项关键成果:1) GPU消耗仅为传统全参数RL的10%左右;2) 训练稳定收敛;3) 在提升特定任务表现的同时,保留了基座模型的通用能力 [18][19][20] 克服MoE架构下的技术难题 - 在MoE架构上应用LoRA RL面临三大挑战:路由不均衡、通信压力爆炸、并行布局复杂 [21][22] - Mind Lab的解决方案是设计了一套混合协同并行引擎,统一调度Tensor、Pipeline、Expert、Sequence四种并行方式,并将并行视为可调度资源 [26] - 针对训练与推理使用不同后端导致的策略不匹配问题,引入了截断重要性采样比率进行显式修正,以控制梯度方差 [29][30] “大先验+小LoRA”策略的经济性优势 - 实验对比了不同规模模型采用全参数RL与LoRA RL的效果,为公平比较,控制了总RL FLOPs、环境交互次数及奖励模型等变量 [36][40] - 使用“headroom-normalized”指标评估,结论显示:32B参数模型配合rank=8的LoRA,在相同RL计算预算下,获得的性能提升比例最大 [37] - 在域外任务GPQA上,32B+LoRA的迁移效果也最好,表明“大先验+小LoRA”策略比“小模型全参数RL”更划算,因为大模型已编码丰富先验知识,RL可在此基础上精修 [38][39] 配套技术创新:Memory Diffusion记忆机制 - Mind Lab提出名为“Memory Diffusion”的新记忆机制,灵感源于人类“智慧地遗忘”,通过“遮蔽-分配-重填”三步动态压缩轨迹记忆 [45][46][47] - 该方法时间复杂度为O(1),不改变模型架构,严格遵守上下文预算 [48] - 在Locomo基准测试上,该机制达到了93%的准确率,刷新了SOTA记录 [49] 研产共设理念与产品化成果 - Mind Lab提出“研产共设”理念,认为真实产品是天然的RL环境,能提供持续、接地气的奖励信号,如用户使用模式、任务完成率等,有助于避免奖励模型被“破解” [50][51][54] - 在前端代码生成任务实验中,使用真实人类反馈训练的奖励模型显著优于仅预训练的模型,基于此的RL也显著优于监督微调 [56] - 技术已落地于Macaron AI产品,使其Mini-app生成速度从20分钟提升至2分钟,速度提升10倍,并上线了新功能 [57] 行业展望与Mind Lab定位 - 行业观点认为,以“算力规模化”为核心的预训练时代正在走向终结,下一个时代将是“经验智能”时代,智能需在真实世界中成长 [58][59][61] - Mind Lab定位为全球首个专门为“后预训练时代”而生的研究实验室,其核心命题是“智能如何在真实世界中成长”,主张下一个时代属于能通过交互不断更新的“心智” [60][61] - 团队核心研究方向包括:1) 基础设施;2) 超越预训练;3) 开放与可复现 [65]
下周三!量子位的这件大事就要来了|MEET2026
量子位· 2025-12-07 12:35
大会概览 - 会议名称为MEET2026智能未来大会,主题为“共生无界,智启未来”,关注AI技术如何穿透产业、学科与场景边界 [39] - 大会将于2025年12月10日在北京金茂万丽酒店举办,线下报名通道已开启 [24][37][39] - 大会是业界最具代表性的年度智能商业峰会之一,每年获数千万媒体曝光,吸引千位线下观众与超300万名在线观众 [36] 核心议题与亮点 - 大会将深入探讨生成式AI与智能体等年度最热议题,包括大语言模型、多模态、具身智能、自动驾驶、云计算等主流AI相关领域 [3][5] - 设置两场高浓度对话:一场是文远知行创始人韩旭与量子位总编辑李根关于“第一批自动驾驶创业者的第二个八年”的GenAI Talk [7][8][11] - 另一场是题为“距离AI Agent革新千行百业还有多久”的圆桌讨论,汇聚小宿科技、联汇科技、蚂蚁百宝箱等平台方、技术方与应用方嘉宾 [13][16] - 大会将发布《2025年度AI十大趋势报告》与《2025人工智能年度榜单》,前者梳理年度进展与预见趋势,后者从企业、人物、产品三大维度筛选行业领军者 [35][47] 嘉宾阵容 - 大会累计邀请近三十位重量级嘉宾,覆盖学术界、产业界与前沿创业一线 [17] - 学术界嘉宾包括清华大学张亚勤院士、孙茂松教授,智源研究院王仲远院长,交大高金朱宁教授等 [1][17] - 产业界阵容覆盖芯片、云、模型到终端的全栈力量,包括百度、小米、商汤、蚂蚁、谷歌云、亚马逊云科技、高通、昆仑万维、潞晨科技、PPIO、中关村科金等代表性企业 [1][21] - 新生力量包括卓世科技、太初元碁、RockAI、自变量机器人、光轮智能、云徙科技、灵心巧手等前沿创业公司 [28] 会议议程要点 - 上午议程包括张亚勤院士谈“人工智能+”趋势、百度王颖谈AI打造超级智能体、智源王仲远谈AI从数字世界迈向物理世界、高通谈混合AI、亚马逊云科技谈Agentic AI等 [41] - 上午议程还包括中关村科金谈企业智能体、Google Cloud谈赋能初创企业出海、交大高金朱宁教授进行AI时代的经济学思考、卓世科技谈行业大模型破局等 [42] - 上午以文远知行韩旭的GenAI Talk对话及“2025人工智能年度榜单”发布收尾 [42] - 下午议程聚焦多模态与智能体,包括昆仑万维、商汤、小米、PPIO、潞晨科技、太初元碁、RockAI、百度智能云、自变量机器人、光轮智能、灵心巧手等公司的技术分享与应用探讨 [43][44][45] - 下午压轴环节为孙茂松教授谈生成式AI前沿态势,以及“距离AI Agent革新千行百业还有多久”的前沿圆桌讨论,最后发布《2025年度AI十大趋势报告》 [45]
苹果芯片主管也要跑路!库克被曝出现健康问题
量子位· 2025-12-07 12:35
苹果高管持续动荡 - 苹果硬件技术高级副总裁、自研芯片项目架构师Johny Srouji已向CEO库克表达去意,若离开将加入其他公司[1][3] - 这是本月内第四位处于动荡状态的高管,此前苹果AI负责人John Giannandrea和首席UI设计师Alan Dye已先后离任,后者立刻转投Meta[3] - 一系列人事变动使苹果陷入数十年以来最大规模的高管变动,领导结构正在重塑[10][17] 关键人物Johny Srouji的背景与影响 - Johny Srouji于2008年加入苹果,已工作17年,加入之初即领导开发苹果第一颗自研系统芯片A4[4][5] - 其一直担任苹果芯片负责人,领导了从移动端A系列到桌面级M系列芯片的自研进程,职位升至硬件技术高级副总裁[5] - 最近还启动了苹果自研调制解调器项目,旨在进一步替代高通芯片[6] - 为挽留他,公司内部不仅考虑提高薪酬,甚至有人提出让其担任CTO,负责硬件工程和芯片技术,成为CEO之下的二号人物[8] 高管离职去向与公司应对 - 多位离职高管流向Meta,包括首席UI设计师Alan Dye,其被视作Jony Ive之后苹果美学的定义人,将在Meta牵头硬件、软件和AI界面整合[11][12] - 10月,刚接手Siri AI能力开发的高管Ke Yang同样离职加盟Meta[14] - 作为应对,苹果挖走了Meta的首席法务官Jennifer Newstead,以接替将于2026年底退休的总法律顾问Kate Adams[15] 其他高管变动与权力集中 - 负责环境、政策和社会倡议的苹果副总裁Lisa Jackson也将退休[16] - 公司权力正向四位关键高管集中:热门CEO接班人选John Ternus、服务主管Eddy Cue、软件主管Craig Federighi以及新任COO Sabih Khan[18] 关于CEO库克的状况与继任问题 - 65岁的库克本人备受关注,除年龄外,被曝在内部会议和大型集会上双手会时不时发抖,但接近其人士否认了健康问题传闻[19][20][21] - 短期内库克不会退休卸任,但其状况引发了对“谁会是苹果下一任CEO”的热烈讨论[22]
Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来
量子位· 2025-12-07 12:35
核心观点 - 提出一种新的AI任务解决范式:使用一个经过强化学习微调的8B参数小模型作为“指挥家”,智能编排和调用包括代码解释器、网络搜索、数学模型及更强的大模型在内的多种工具,在保证任务正确性的同时,显著优化成本和效率,并能够对齐用户偏好 [1][13] - 在多项基准测试中,该Orchestrator-8B模型在性能上超越了GPT-5等顶级大模型,同时计算成本大幅降低,展示了“小模型指挥大工具/模型”系统的优越性 [1][9] 技术架构与训练方法 - 系统核心名为ToolOrchestra,其将各类工具(网页/本地检索、代码执行、数学与通用LLM等)统一封装为JSON接口,使指挥家模型能够在多轮交互中执行“思考-调用-反馈”的循环直至问题解决 [4] - 采用GRPO强化学习方法进行训练,通过最大化三重奖励来优化指挥家:1) 任务解决的正确性;2) 效率(货币/时延惩罚);3) 用户偏好(如更爱本地检索还是云搜索,更看重速度还是成本) [4][5] - 为支持强化学习训练,研究团队构建了一个名为ToolScale的合成数据集,该数据集覆盖金融、医疗、出行、教育等10个领域,通过LLM生成领域数据库、API及“任务-黄金动作序列”,并经过可验证标准筛选,为训练提供了真实丰富的环境 [7] 性能与成本优势 - 在Humanity's Last Exam (HLE)基准测试中,Orchestrator-8B取得了37.1%的成绩,超过GPT-5的35.1% [1][9] - 在FRAMES(事实推理)基准上,Orchestrator-8B得分为76.3,高于GPT-5的74.0 [9] - 在τ²-Bench(复杂工具调用)基准上,Orchestrator-8B得分为80.2,高于GPT-5的77.7 [9] - 在取得上述性能领先的同时,Orchestrator-8B平均成本仅为9.2美分,时延8.2分钟,显著低于GPT-5的30.2美分成本和19.8分钟时延,计算成本约为对手的三成 [9][10] - 成本-效果曲线显示,在同等预算下,Orchestrator-8B的准确率曲线始终在GPT-5、Claude等之上;在达到相当准确率时花费更少 [11] 解决的问题与系统特性 - 解决了仅靠提示词构建多智能体系统时存在的两大偏见:1) 自增强偏见,即模型倾向于调用同家族模型(如GPT-5调用GPT-5-mini)导致性能下降;2) 他增强偏见,即无脑调用最强模型导致成本爆表(如Qwen3-8B大量调用GPT-5) [3][4] - 系统具备良好的泛化能力,即使面对训练时未见过的新工具或模型组合,指挥家也能从模型描述中推断其能力与擅长领域,维持最优性价比 [15] - 系统能够有效对齐用户偏好,对于“更私密的本地检索”、“更快速度”或“更低成本”等要求,指挥家比强大的基座模型更能遵从指令执行 [15] 应用场景与行业意义 - 为企业客户提供了稳定、可控、可落地的解决方案,将昂贵的大模型资源仅用于真正的难点,其余工作交由便宜高效的工具链完成 [13] - 具体应用场景包括:1) 企业内部问答/报表分析,默认用本地索引和代码沙盒完成80%工作,仅在遇到歧义或复杂推理时短暂调用强模型;2) 研发检索/调研,可设定时间/成本上限及来源偏好,由指挥家动态权衡;3) Agent工作流,将各种函数/工具纳入统一接口,由指挥家进行端到端智能编排,替代写死的if-else逻辑 [16] - 该范式标志着从依赖“单一强大模型”到构建“小模型+工具+专家模型的复合系统”的转变,在智能体从单体走向复合系统的趋势下,此类“协调者”角色至关重要 [13] 资源开放情况 - 论文、全部代码、模型与数据均已公开,方便学术界与产业界跟进研究与应用 [14][17]