量子位
搜索文档
OpenAI也缺卡!僧多粥少,自曝内部抢卡抢到发疯
量子位· 2025-10-20 18:29
核心观点 - OpenAI面临绝对的算力稀缺,内部资源争夺严重,已影响到新产品的发布[1][2][4] - 算力是AI创新的根本驱动力,直接决定了AI能力的上限,行业呈现“得算力者得天下”的趋势[4][16][17][18] - 公司正通过自建数据中心和近万亿的算力交易在市场上抢占先机[19][20] 算力稀缺的影响 - 内部算力资源争夺严重,被形容为痛苦与煎熬[2][15] - 许多正在研发的惊人产品因算力有限而无法发布[4] - 已发布的功能如ChatGPT Pulse也因算力限制仅对Pro用户开放[5][6] 资源分配机制 - 资源在研究侧和应用侧之间划分,由高层团队如CEO Sam Altman和应用CEO Fidji Simo裁决[9][10] - 研究领域内部的分配由首席科学家Jakub Pachocki和研究主管Mark Chen共同决定[12] - 执行层面由Kevin Park领导的小组通过搬运和重组闲置GPU来满足项目需求,过程艰难[14][15] 行业趋势与公司行动 - AI发展对算力的需求没有上限,算力掌控被视为掌控AI的关键[17][18] - OpenAI去年有70亿美元算力支出,目前正通过自建数据中心和近万亿算力交易抢占市场先机[19][20] - Meta等公司也将计算资源作为竞争优势,算力成为AI发展的重中之重[22][23]
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
量子位· 2025-10-20 11:46
模型演进与定位 - GPT-5可被视为o3模型的迭代版本,即o3.1,其思考过程与o3一脉相承[1][4][23] - o1模型是公司第一个正式的推理模型,更侧重于技术演示,擅长解决谜题而非作为实用产品[15][17][18] - o3模型代表了AI发展的结构性转变,是首个真正实用、能熟练使用工具并持久寻求答案的模型[19][20][22] - 公司未来的方向是构建能力更强、思考时间更长、能自主与多系统互动的模型,寻求下一个重大飞跃[4][24] 模型推理过程 - 模型的推理过程类似于人类思考,是寻找未知答案的过程,可能涉及计算、查找信息或自我学习[11] - 思维链是模型推理的具体表现,通过将模型的思维过程用人类语言口语化表述出来[12] - 模型在推理中花费的时间越长,结果往往会更好,但公司需在推理质量与用户等待时间之间寻求平衡[13][14] - 公司目前将高推理模型与低推理模型同时开放给用户,并将思考时长的选择权交还用户[14] 公司内部架构与文化 - 公司工作结构是自上而下与自下而上结合,整体专注于三到四个核心项目,研究人员在项目内享有自由[31][33] - 研究部门约600人,信息高度透明,公司认为研究受阻的风险远高于知识产权泄漏[33] - 公司能快速发布产品(一年内从o1到GPT-5)得益于良好的运营结构、巨大的发展势头及顶尖人才的高效产出[33] - 员工大量使用内部工具,例如ChatGPT和CodeX,有员工每月为ChatGPT支付200美元费用[9][34] 强化学习(RL)的战略意义 - 强化学习是公司多次转折的关键,语言模型是预训练和强化学习的结合,此为自2019年以来的研究核心[35][36] - 强化学习通过奖励和惩罚机制训练模型,关键在于策略(模型行为)和环境(交互式反馈)[37][38] - GPT-4最初在长回答中缺乏连贯性,是通过基于人类反馈的强化学习(RLHF)解决了该问题,从而创造了“ChatGPT时刻”[41][42][43] - 公司近期在编程竞赛中的优异表现,源于长期使用编程谜题作为测试平台来尝试强化学习想法[45][46] - 强化学习可应用于任何能评估结果并计算反馈信号的领域,但其规模化难度较高,过程精细复杂[47][48][49] 行业影响与外部贡献 - DeepSeek团队提出的GRPO(组相对策略优化)算法获得肯定,其开源推动了美国实验室更快地训练推理模型[7][51] 未来方向与AGI路径 - AI智能体化是大势所趋,由基础推理驱动的智能体允许模型长时间独立思考以解决编程、预订等复杂任务[53] - 模型对齐问题本质上是一个强化学习问题,旨在引导模型行为符合人类价值观,且该问题将随文明演进永无止境[54] - 通往AGI的道路上,预训练和强化学习二者缺一不可,公司反对“纯强化学习是唯一途径”的观点[56][57] - 公司相信目前走在正确的AGI道路上,未来的变化将是添加新的复杂组件,而非完全推翻现有架构[59]
AI助手Cici悄然霸榜海外,又是字节
量子位· 2025-10-20 11:46
字节跳动AI助手Cici的全球扩张 - 字节跳动旗下AI助手Cici在墨西哥谷歌应用商店连续一周日下载量冠军,并在英国苹果应用商店免费榜进入前十,实现爆发式增长[2] - Cici与国内产品豆包外观高度相似,但主要在英国、墨西哥及东南亚等部分国家上线,有明确的区域限制[3][6] - 市场情报显示,过去三个月Cici在印度尼西亚、马来西亚、菲律宾、墨西哥和英国等市场稳居谷歌应用商店免费应用下载量前20名[11] Cici的产品技术特点 - Cici融合了字节跳动旗下技术,如图片编辑器PicPic和代码助手Coze[8] - 在聊天对话生成方面,使用到OpenAI的GPT系列模型和谷歌的Gemini模型[9] - 产品界面设计与豆包高度相似,支持文字或语音交互及图片生成与分析,但功能上针对性调整,如突出数学问题求解能力,暂未加入音乐/视频生成功能[10][11] 国内AI智能助手市场竞争格局 - 量子位智库统计显示,豆包是国内AI智能助手赛道60余款APP中全维度领先的产品,是唯一累计下载量破亿的智能助手[15][16] - 行业马太效应显著,Top4产品(豆包、Kimi、DeepSeek、腾讯元宝)用户规模占比约93%,形成DDKT第一梯队[16][17] - 在新增下载维度,豆包APP在9月新增下载超过2700万,领先其他玩家一个数量级[20] 主要产品的用户活跃度 - 豆包、DeepSeek、腾讯元宝三款APP的平均日活分别达到3300万、2500万和1600万以上,组成持续稳定的第一集团[23] - 这三款产品的活跃用户在智能助手APP总活跃用户中占比达到93%[24] - 在Web网页端,DeepSeek以8000万月总访问量位居第一,是字节跳动尚未拿下第一的领域[27][29]
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人
量子位· 2025-10-20 11:46
核心技术框架 - 微软推出名为BitNet Distillation(BitDistill)的蒸馏框架,实现几乎无性能损失的模型量化,将模型量化至1.58-bit [1] - 该框架包含三个依次衔接的阶段:模型结构优化、继续预训练和蒸馏式微调 [8] - 在模型结构优化阶段,引入SubLN归一化模块,将其插入多头自注意力模块和前馈网络的输出投影之前,以稳定量化训练过程并提升收敛性,而不改变主干计算路径 [10][11][12] 性能与效率表现 - 量化后的模型在同等硬件下,推理速度提升2.65倍,内存消耗仅为全精度FP16模型的1/10 [6] - 在文本分类任务(如MNLI、QNLI、SST-2)中,1.58-bit模型的准确率与全精度微调模型(FP16-SFT)几乎一致,显著优于直接微调的量化模型(BitNet-SFT)[23][24] - 在文本摘要任务(CNN/DailyMail数据集)上,量化模型的BLEU指标为14.41,ROUGE-L为27.49,与FP16模型的13.98和27.72几乎等同,甚至在BLEU上略有超出 [25][27] 技术通用性与兼容性 - 该框架在4B及以下的Qwen、Gemma模型上证实有效,理论上可应用于其他Transformer架构 [2] - 框架展现出良好的通用性,在Gemma和Qwen2.5等其他预训练模型上也能高度还原全精度性能 [28] - 该方法与Block-Quant、GPTQ、AWQ等常见量化策略兼容,可作为独立的上层蒸馏方案,适用于多种后量化优化场景 [28] 行业影响与团队背景 - 技术突破可能降低对昂贵GPU硬件的依赖,因为量化后模型内存需求大幅减少且推理速度提升 [7] - 该研究的作者团队全部来自微软研究院,且均为华人,通讯作者为微软亚洲研究院副总裁韦福如博士 [29][30]
AI点外卖哪家强,美团LongCat团队做了个全面评测
量子位· 2025-10-20 09:16
美团LongCat团队发布VitaBench智能体评测基准 - 美团LongCat团队发布了一个高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准VitaBench [1] - 该基准以**外卖点餐、餐厅就餐、旅游出行**三大高频生活场景为载体,构建了包含**66个工具**的交互式评测环境,并设计了跨场景综合任务 [1] - 基准旨在为智能体在真实生活场景中的研发与落地提供重要基础设施,并已全面开源 [4] 研究背景与行业痛点 - 现有智能体评测基准与现实应用需求存在显著差距,主要体现在**工具生态简单化、信息密度不足、模型探索性受限、交互动态性缺失**等方面 [5][6] - 真实世界任务的复杂性源于**推理复杂性、工具复杂性、交互复杂性**三大维度的交织 [6][7] VitaBench基准构建方法论 - 基准通过**三维复杂度框架**对智能体任务进行量化拆解,建模为部分可观测马尔可夫决策过程 [9] - **推理复杂度**通过观测空间大小、部分可观测度、推理点数量衡量,单个任务可涉及**5-20个服务提供商、最多超过100个候选产品** [9][10] - **工具复杂度**通过工具图的大小与密度、工具调用链路长度与子图覆盖率衡量,基准提炼了**66个真实工具**并构建有向图 [11][17] - **交互复杂度**通过用户模拟器实现,模拟器基于真实平台数据构建多样化用户画像,并涵盖情绪表达、交互模式等行为属性 [13][18] - 基准构建采用两阶段流程:**框架设计**(工具定义、依赖构建、用户模拟)和**任务创建**(任务指令、环境数据、评估标准) [16][19][25] 基准数据规模与评估方法 - 基准共构建了**400项评测任务**,包括300项单场景任务和100项跨场景任务 [25] - 基准环境数据库包含大量真实数据,例如跨场景任务涉及**1,324个服务提供商、6,946个产品、447笔交易** [20] - 针对长轨迹评估,团队提出了**基于Rubric的滑动窗口评估器**,以克服传统状态比对方法的不足,实现了更全面、细粒度的行为覆盖 [22] - 评估器与人工标注相比,**Cohen's κ达0.828**,显著优于无Rubric或无滑动窗口的基线方法 [40][41] 主流大模型评测结果分析 - 团队评测了包括**GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash**等在内的20余款主流大模型 [26] - **跨场景任务带来极大挑战**:表现最佳的o3 (high)模型在跨场景任务上的成功率也仅为**30.0%**,远低于单场景任务的**48.3%** [28] - **模型行为高度不稳定**:尽管部分模型在跨场景任务的Pass@4(至少一次成功)指标可达**60%**,但Pass^4(四次全成功)接近**0%** [29] - **“思考型”模型显著优于“非思考型”**:启用链式推理的模型普遍提升**5–8个百分点**,且交互轮次更少 [32] 复杂性维度有效性验证 - **推理复杂性**:任务所需推理点数量与成功率呈强负相关,在线旅行与跨场景任务平均包含**9.7–10.3个推理点** [34] - **工具复杂性**:工具图的节点与边数量越多任务越难,跨场景任务涉及**66个工具、512条依赖边**,是所有任务中最复杂的 [35] - **交互复杂性**:引入真实用户模拟器后,模型性能下降**15–25个百分点**,尤其对弱模型影响更大 [36] 核心组件可靠性验证 - **用户模拟器**在信息保真度(**9.48/10**)与人格一致性(**9.34/10**)两项指标上均表现优异 [38] - **滑动窗口评估器**与人工标注的一致性高,Cohen's κ达**0.828** [40] 模型典型失败案例分析 - 模型错误主要分为三大类别:**推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)** [43] - 当前模型普遍存在**忽略时空与常识推理细节、因不确定性提前放弃任务、在失败或需求模糊时重复无效操作而非调整策略**等失误模式 [45][51] 行业意义与展望 - VitaBench不仅是一个评测基准,更是一套关于“Agentic Task Complexity”的**理论框架**,首次系统量化了三大维度对智能体性能的影响 [46][47] - 该工作揭示了当前模型在真实生活场景中的能力边界,目标在于开启“AI下半场”,实现通往**实用智能体的最后一公里** [48] - 基准名称“Vita”(拉丁语“生命,生活”)寓意智能的终极考场在**生活本身** [49]
OpenAI以为GPT-5搞出了数学大新闻,结果…哈萨比斯都觉得尴尬
量子位· 2025-10-20 09:16
事件概述 - OpenAI研究员宣称GPT-5在数学领域取得重大突破,声称其解决了10个此前未解决的厄尔多斯数学难题,并在另外11个问题上取得进展[5][7][8] - 该宣称迅速引发行业关注,但随后被证实为夸大宣传,GPT-5并未独立解决难题,而是通过检索找到了已存在于学术文献中的答案[13][14] - 此事件引发了包括DeepMind CEO和Meta研究员在内的行业人士的公开批评,认为OpenAI存在营销过度的问题[3][4][16] 宣称的“突破”细节 - OpenAI研究员Mark Sellke表示,通过数千次GPT-5查询,发现了10个厄尔多斯难题的解答,问题编号分别为223、339、494、515、621、822、883(第二部分)、903、1043、1079[5] - 此外,宣称在第827题上发现了厄尔多斯原始论文中的错误,该错误已由其他学者修正[5] - OpenAI研究员Sebastien Bubeck称,两位研究员仅用一个周末借助GPT-5就解开了这些难题,标志着AI驱动科学加速时代的开启[8] 事实澄清与行业反应 - erdosproblems网站创始人Thomas Bloom澄清,GPT-5只是通过网络搜索找到了早已存在的论文答案,网站上的“未解”状态仅代表维护者未知,而非数学界无解[11][13] - DeepMind CEO哈萨比斯直接评论称“太尴尬了吧”,Meta的LeCun则讽刺OpenAI被自己吹嘘GPT的言论所坑[3][4][16] - 事件发酵后,研究员Bubeck删除了相关推文并道歉,承认仅是发现了文献中的已有解法,但认为这依然是巨大进步,因为检索文献非常困难[15] GPT-5的实际数学能力 - 此前,数学家陶哲轩曾在国庆期间使用GPT-5解决数学难题,并表示若无AI帮助,完成同样任务需花费数小时进行手动编码和调试[18] - GPT-5在量子复杂性理论等领域也展现出能力,能在不到半小时内给出关键证明思路[19] - 上个月,GPT-5在数学教授引导下,首次将定性的第四矩定理扩展为带有显式收敛率的定量形式[20] 事件影响与行业动态 - 此次乌龙事件的关键原因被归结为宣传发言模棱两可,以及内部人员的夸大宣传,导致了公众误解[23][24] - 有观点认为,AI带来轰动性大进展的节奏正在过去,若非真正的大突破,过度宣传容易出偏差[27] - 事件反映出行业对AI突破可能已开始脱敏,对突破的真实性和实质性要求更高[27]
开源对机器人的价值,远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人
量子位· 2025-10-20 09:16
行业痛点与平台推出 - 当前机器人研究最大痛点是模型在仿真环境中表现完美,但一到现实世界就彻底失灵[1] - 为解决此痛点,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf联合推出了开放、统一、可复现的真实世界机器人评测平台RoboChallenge.ai[5] - 该平台首次让全球研究者在物理环境中远程测试模型,用户可通过API控制真实机器人,而模型可保留在本地[6] 开源在物理智能中的作用 - AI领域几乎所有重大突破都基于开源,例如transformer架构本身就是Google开源的[9][10] - 开源是探索新领域的关键基础,新兴的VLA模型几乎都从开源模型出发,经修改后适配到机器人上[16][17] - 开源对机器人领域的重要性可能超过其在大语言模型中的作用,因为开源模型可被应用到多种不同类型的机器人上,形成一个共同的大脑[20][21] - 让模型本地运行在机器人内部具有重要价值,例如安全性,而目前几乎所有嵌入式模型都是开源模型[22][23][25] 开放基准测试的重要性与挑战 - 独立、客观的评估平台能帮助社区过滤噪音,避免被营销视频或夸张演示误导,这是当前机器人领域所缺乏的[33][34] - 在机器人领域进行真正评测非常困难,且存在大家倾向于展示机器人在最完美状态下表现的问题[35][36] - 建立一个统一、开放且可复现的基准系统,来公平比较不同方法、策略和模型至关重要[41][42] - RoboChallenge.ai旨在提供共享数据和标准化评估,研究者可远程提交模型并在真实机器人上进行实验,平台提供排行榜展示结果[50] RoboChallenge.ai平台细节 - 平台通过Remote Robots机制实现远程测试,用户无需上传模型,可通过HTTP API访问摄像头和机器人[52] - 平台以Table 30作为基准测试的起点,提供每个任务约1000个episodes的微调数据供开发者下载[52][59][60] - 平台建设面临诸多挑战,包括实现真实环境中可复现、公平的测试,以及定义基准本身[51][52] - 平台遵循完全开放策略,提供免费评测服务,目标是打造一个可复现、开放、统一的平台[76][77] 社区参与与数据挑战 - 数据是机器人学的一大瓶颈,社区在提供多样化数据方面可发挥关键作用[61][62][65] - 社区可在算法层面作出贡献,例如探索如何微调策略、设计训练架构等[66] - 最先参与的用户群体预计主要是学术界和初创公司,因为目前最强的基座模型主要由这些机构开发[56][57] - 社区精神对机器人和具身智能研究有重要推动作用,个人也可通过廉价机器人采集和分享数据来参与[63][64][68] 未来展望与发展方向 - 评测方式应多样化,包括仿真测试,未来会看到多种评测体系共存[72] - 三到五年后,具身智能研究将发展到机器人能执行越来越长的任务,从现在的几分钟到未来的几小时甚至更久[77] - 未来可测试的维度包括多模态感知、动态环境适应、长时序任务等[77] - 平台是迈向“真实世界基准”的重要第一步,未来将持续优化[74][75]
经济学诺奖得主的富二代人生:香奈儿老佛爷帮他写作业,AI时代反对向机器人征税
量子位· 2025-10-19 16:10
2025年诺贝尔经济学奖核心观点 - 奖项授予三位研究科技创新如何与市场竞争相互作用以推动经济增长的学者,其成果在当前AI技术变革背景下具有深刻意义[2][5][40] 获奖者及其学术贡献 - 乔尔·莫基尔获得一半奖项,其研究揭示了科学突破与技术应用相互促进形成自我强化循环,是解释人类持续增长起点的关键桥梁[5][6][7][14] - 菲利普·阿吉翁与彼得·豪伊特共享另一半奖项,两人在上世纪90年代构建开创性数学模型,解释企业通过研发改进工艺和产品以取代市场巨头的机制[7][8][14] - 莫基尔主张工业革命是知识体系、科学精神与社会文化共同演化的结果,并将有用知识分为解释原理的"命题性知识"和指导实践的"规范性知识"[13][28] - 阿吉翁与豪伊特的内生增长理论显示,企业更替是增长发动机,美国每年超10%企业倒闭同时新企业诞生,这种创造性破坏过程推动行业演化[32][33][34][39] 理论现实意义与AI关联 - 理论指出创新成就新赢家也导致部分群体被忽视,AI崛起正掀起新一轮创造性破坏,可能加剧不平等并导致部分岗位消失[40][41][42] - 面对AI变革需完善政策体系防止市场失灵,维护创造性破坏机制以避免经济停滞,阿吉翁强烈批判对机器人征税,认为自动化反而通过规模经济创造更多就业[43][44][59][62][63] - 阿吉翁出身艺术家庭,母亲为时尚品牌Chloé创始人,其成长环境被认为影响了他对创新的动态认识[46][50][57]
LSTM之父向何恺明开炮:我学生才是残差学习奠基人
量子位· 2025-10-19 14:10
残差学习技术发展脉络 - 残差学习思想最早可追溯至1991年,Sepp Hochreiter在其博士论文中首次系统性分析RNN梯度消失问题并提出循环残差连接解决方案[12][13] - 循环残差连接核心机制是使用权重严格为1.0的恒等激活单元,使误差信号在反向传播中保持恒定,避免梯度消失或爆炸[13][14] 权重接近1.0(如0.99)会导致误差信号在100个时间步后衰减至37%,而0.9权重会使信号衰减至0.0027%[15] - 1997年LSTM论文提出恒定误差轮盘(CECs)机制,通过权重为1.0的循环残差连接使误差在数百至数千时间步内不衰减,该论文成为20世纪引用最多的人工智能论文[18][19] 残差网络架构演进 - Highway网络于2015年5月首次实现上百层深度前馈网络训练,较传统20-30层网络深度提升10倍以上,其核心将LSTM门控残差思想引入前馈网络[23] - ResNet于2015年12月在ImageNet竞赛成功应用残差连接,其设计与展开的LSTM及初始化Highway网络高度相似,若将Highway网络门恒定设置为1.0即可得到纯残差网络ResNet[24] - LSTM与Highway网络分别奠定循环和前馈网络的深度训练基础,ResNet实质是1997年LSTM前馈变体的延续应用[26] 学术贡献归属争议 - Jürgen Schmidhuber认为残差学习成果完全归因于何恺明团队有失偏颇,强调其学生Sepp Hochreiter在1991年已提出核心思想[3][10] - 深度学习三巨头(Bengio、Hinton、LeCun)在Nature综述论文中大量引用自身成果却未提及Jürgen等人,引发长期学术争论[7][8] - Jürgen声称LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer均受其实验室成果启发,但除LSTM外其他成果未获普遍认可[28][31]
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
量子位· 2025-10-19 12:10
行业技术发展现状与瓶颈 - 多模态大模型在静态截图生成网页代码方面已展现出不俗能力,但网页的真正价值在于其动态交互功能,这是传统静态评测的盲区[1] - 为填补评估交互式网页重建能力的关键空白,上海人工智能实验室与浙江大学等机构联合提出了IWR-Bench评测基准,标志着AI从“看懂静态网页”到“理解动态交互”的关键一步[1][20] - 新基准的任务复杂性跨度很大,从简单的浏览功能到需要逆向工程游戏规则的2048、订机票等应用,难度远超预期[2] IWR-Bench评测基准核心特点 - 评测核心转变在于要求模型观看一段记录完整用户操作流程的视频,并结合网页全部静态资源,去理解并复现整个页面的动态行为,即从“image-to-code”迈向“video-to-code”[2][5] - 基准覆盖113个真实网站任务和1001次交互动作,平均每任务8.9步,包含2048、扫雷等完整游戏逻辑与GUI重建的复杂任务[5][12] - 引入自动化Agent-as-a-Judge评测协议,通过编程代理复现动作轨迹,采用双重评分体系同时评估功能正确性与视觉保真度[5][10][11] 主要模型评测结果 - 对28个主流模型的全面测试显示,最佳模型GPT-5的综合得分仅为36.35分,其交互功能分数为24.39%,视觉保真度分数为64.25%[2][13][14] - 所有模型的视觉保真度分数均显著高于交互功能分数,揭示模型能较好复现静态视觉效果,但在生成事件驱动逻辑方面严重不足,功能实现是最大瓶颈[14][16] - “thinking”版本模型普遍表现更好,但提升幅度有限,基础模型能力仍是决定性因素[17][18][19] - 专门针对视频理解的模型表现垫底,通用多模态大模型表现更优,表明该任务与传统视频理解任务具有显著差异性[20] IWR任务对模型的核心挑战 - 任务对模型提出三大核心挑战:从视频帧精准捕捉布局、文本与组件状态的多模态理解能力[8] - 挑战还包括在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定的多模态推理能力[8] - 最终挑战是将推断出的状态机与事件逻辑实现为可运行前端代码的高级代码生成能力[8]