机器之心
搜索文档
Karpathy:很多App就不该出生、人类唯一护城河只剩理解、CPU将沦为配角
机器之心· 2026-05-01 15:24
文章核心观点 - 大模型(LLM)并非仅仅是提升旧有软件效率的工具,而是一种全新的计算范式,它将重新定义软件、工作结构以及人类在其中的角色,并导致某些基于旧范式的软件失去存在价值 [1][2][4] - 人工智能的能力呈现“锯齿状智能”特征,其发展受可验证性和实验室资源分配的经济学视角驱动,这为垂直领域的创业公司创造了机会 [18][21][22] - 未来的系统将向“智能体原生”演进,核心竞争力在于使数据结构、流程和接口对智能体可理解,并催生“智能体工程”等新职业 [27][28] - 在智能体能力日益强大的背景下,人类的独特价值在于“理解”而非“思考”,即定义目标、判断价值与风险的能力,这要求个人构建并深化自己的认知系统 [32][33][36] 技术范式转移:从加速器到新物种 - 行业常误将革命性技术视为旧事物的加速器,如将汽车视为更快的马车,目前对大模型(LLM)的认知也普遍停留在“效率插件”层面 [6][7][8] - 大模型正成为一种新的计算机:其上下文窗口是内存,提示词是程序语言,模型本身是解释器,这代表了从Software 1.0(人写规则)到Software 3.0(人通过提示词编程模型)的演进 [10] - 新范式使得某些旧软件变得多余,例如“Menu Gen”应用,原本需要OCR、数据库、图像生成等多层调用,现在只需向模型上传菜单照片并给出指令即可直接输出结果图像,中间的软件层被“蒸发” [11][12][13][14] - 未来最重要的软件接口可能不是GUI或API,而是可被模型理解的说明文本,例如用文字描述安装过程替代复杂的Shell安装脚本 [17] 锯齿智能与AI发展经济学 - 大模型能力呈现“锯齿智能”特征:在某些领域(如数学、编程)能力极强,近乎达到“逃逸速度”,而在另一些领域(如日常常识)则表现挣扎,这种不均衡是系统性特征 [19] - 能力不均衡的成因包括“可验证性”(代码、数学等容易判断对错,便于强化学习优化)和“实验室关注度/经济学”(实验室有限的算力和工程师资源会优先投入高价值或可量化的领域,导致数据偏移) [20][21] - 在通用模型已达到逃逸速度的领域(如数学、编程),创业机会依然存在,主要在于垂直领域,只要场景能构建反馈机制并形成数据,创业公司即可通过强化学习微调获得收益 [23] - 许多工作并非天然不可自动化,只是尚未被建立起有效的评估体系,AI创业的关键是找到那些尚未被转化为训练环境的问题 [24] 未来系统与智能体经济 - 未来的产品和服务将是由传感器、执行器和逻辑共同组成的复杂系统,而当前大多数数字系统仍是为人类而非智能体设计的 [27] - “智能体原生”的标志是:人类仅需给出一个提示词(如“构建Menu Gen”),智能体便能自动处理服务关联、DNS配置并直接上线,无需人工干预 [27] - 未来的核心竞争力在于让数据结构、流程说明和系统接口对LLM尽可能可理解,使智能体能直接读取、执行和协同 [28] - 这将催生“智能体工程”新职业,其核心是组织多个智能体完成复杂任务,并保证质量、安全与稳定交付,企业招聘评估重点也将从算法题转向借助智能体完成真实项目的能力 [28] - 在更远的未来,神经网络可能承担大部分计算任务,成为新的主计算层,而传统CPU则退居辅助位置,只负责少量确定性任务 [29] 人类角色的重新定位 - 在智能体能力日益强大的世界里,人类的价值更类似于系统里的“导演”,模型可以生成方案、执行流程甚至推理,但无法替代人类进行“理解”:即判断什么重要、真实、值得追求以及风险可否接受 [33] - 人类指导思考和处理过程的能力,从根本上受限于自身的“理解”深度,而个人可能成为认知瓶颈 [34] - 增强“理解”的方式是构建个人知识库与Wiki系统,通过不断重组信息、追问和交叉提问,将海量信息压缩成认知地图,从而获得新的洞察 [35][36]
有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了
机器之心· 2026-05-01 13:04
研究背景与核心方法 - 研究人员提出“不可压缩知识探针”框架,旨在仅通过黑盒API调用逆向估算任意大语言模型的参数规模 [1] - 研究灵感源于一项持续三年的非正式测试,通过向各代主流大模型提出同一个冷门问题,观察模型对世界知识认知的发展 [3] - 研究团队利用AI Agent历时四天自主构建了完整的IKP正式数据集,包含1400个问题,按信息稀缺程度划分为7个层级,并在涵盖27家厂商的188个模型上进行了全面测试 [4] - 核心假设在于:模型的逻辑推理能力可被压缩,但对冷门“事实性知识”的记忆容量无法大幅压缩,主要取决于模型的物理参数规模 [4] - 研究者在89个参数量已知的开源模型上拟合出事实准确率与参数量的对数线性关系,拟合优度R² = 0.917,并据此对闭源模型进行参数估算 [4] 对主要闭源模型的参数估算结果 - 根据该方法估算,GPT-5.5参数规模约为9万亿,Claude Opus 4.7参数规模约为4万亿 [5] - 该方法估算的90%置信区间约为0.3至3倍 [5] - 其他模型估算结果:GPT-5.4参数规模约2.2万亿,Claude Sonnet 4.6参数规模约1.7万亿,Gemini 2.5 Pro参数规模约1.2万亿 [9] 研究中的其他发现 - 模型更倾向于记住那些产生了领域性影响的工作,而非高产但影响相对分散的学者,引用数量和h指数并不能有效预测研究者是否被模型记住 [6] - 跨越三年的96个开源模型数据显示,事实记忆容量的时间系数在统计上接近于零,这与“Densing Law”所预测的效率随时间提升的规律相悖 [6] - 研究者据此认为推理能力基准趋于饱和,而事实容量仍主要受制于参数规模 [6] 技术社区的讨论与争议 - 有观点基于估算数据,结合Claude Opus 4.7在部分长文本任务中的主观体验波动,推测Anthropic因算力储备不足,被迫将Opus 4.7的参数量从上一代的5.3T“反向升级”至4T [8] - 同时推测OpenAI凭借充足算力将GPT-5.5堆到9T,从而实现了体验上的反转 [8] - 多位研究者和从业者对估算数字及方法论提出质疑,认为GPT-5.5约9万亿参数的估算与实际服务能力不符,若规模真达到此量级,OpenAI现有基础设施恐难支撑 [12] - 有观点指出GPT-5.4到GPT-5.5的性能提升幅度与10倍参数差距并不匹配,认为两者规模比约在2倍左右更为合理 [12] - 定向引入“合成数据”进行微调,同样能显著提升模型对冷门知识的掌握度,这会直接干扰“事实知识不可压缩”的核心前提 [13] - 业内长期流传的GPT-4规模约1.7T,这与论文估算的结果出入极大 [14] - 有讨论发起者补充说明,估算数字不应被视为事实,置信区间非常大,某些模型的估算可能相差甚远 [15] 建设性的技术探讨 - 有观点认为MoE架构和稠密模型在知识压缩效率上可能存在本质不同,建议将这两类模型分开统计以观察趋势 [15]
强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史
机器之心· 2026-05-01 13:04
强化学习在大型语言模型推理训练中的演进 - 强化学习已成为大型语言模型后训练技术栈中最重要的技术之一,是促成GPT-3向InstructGPT转变的关键要素,也是当前推理能力提升浪潮的核心[1] - 第一代方法以PPO为主导,第二代方法在提升推理能力的目标驱动下,带来了新一轮的算法演进,涌现了大量变体[2] - 文章概述了2024至2026年间用于推理大型语言模型的强化学习主要进展,从REINFORCE和PPO的基础知识讲起,随后探讨GRPO及其后续的改进与优化方法[2] REINFORCE算法 - REINFORCE是策略梯度方法的基础,其目标函数梯度形式简单,本质上是一种带有权重的监督微调形式,根据奖励对采样的答案进行加权以强化或惩罚它们[13] - 该算法的主要缺点是方差较大,不同样本之间的梯度估计值可能存在巨大差异[14] - 为减小方差,REINFORCE会减去一个与采样回复无关的基线,这通常能大幅降低方差,此时梯度中的数量 `r(x,y)-b(x)` 是优势估计的最简单形式[15][16][17] PPO算法 - PPO曾是占据主导地位的通用策略梯度算法,也是过去几年里RLHF的默认选择[18] - 其目标函数通过重要性采样比例和裁剪操作来限制优化过程偏离生成策略的程度,这是对信任域的一种近似计算[19][22][23] - PPO需要在内存中驻留四个庞大的组件:可训练策略、推演策略、参考策略以及价值模型[29] - 在完整形式下,PPO目标函数通常会结合KL正则化,以保留模型的通用能力并控制相对于奖励模型的分布偏移[28] GRPO算法 - GRPO最初在DeepSeekMath中提出,随后被DeepSeek-R1发扬光大,它移除了PPO的价值模型,取而代之的是一个相对组内的基线[30] - 关键洞察在于,通过将某条回复与同一提示词下的其他回复进行对比,就能为该回复获得一个良好的基线[31] - GRPO成功的更重要原因是移除了critic模型,这大幅减少了内存占用,使得面向推理模型的大规模强化学习更容易运行[33] - 在最初的公式中,GRPO目标函数保留了PPO风格的裁剪重要性采样,并包含了一个KL项[32] RLOO算法 - RLOO从不同方向得出类似结论:对于大型语言模型微调场景,PPO可能比实际需要的更复杂[35] - 对于每个提示词,RLOO会采样K个回复,回复的优势等于其奖励减去其他K-1个回复的平均奖励,这个基线是无偏的,并且不需要学习额外的价值模型[36][37] - RLOO放弃了PPO风格的裁剪,转回纯粹的REINFORCE风格更新[38] - 作者提出,在他们的实验中,PPO的裁剪机制仅在不到5%的情况下被激活,在这个场景下可能是不必要的[40] Dr. GRPO算法 - Dr. GRPO发现标准的样本级损失归一化引入了一种偏置,倾向于支持简短的正确回复以及冗长的错误回复[42] - 修复方法是改变损失聚合方式,不再先除以序列长度再除以批次大小,而是除以一个固定常量,这消除了使得错误答案变得不必要冗长的激励因素[42] - Dr. GRPO还移除了通过奖励标准差进行归一化的操作,因为当奖励方差很低时,微小的奖励差异会被放大成巨大的归一化优势,导致模型在已基本回答正确的提示词上接收到极不相称的巨大更新[43] - 其优势估计简化为 `r_i - μ_G`,没有除以标准差,并且损失是在token级别通过固定归一化进行聚合[44][45][46] DAPO算法 - DAPO对GRPO的多个组件进行了深入分析,并提出了四项改进[48] - 第一项改进是将样本级的均值计算替换为基于token级别的聚合计算[48] - 第二项改进是针对裁剪机制,采用非对称裁剪,使用一个更大的上界ε_high = 0.28,同时保留原有的下界ε_low = 0.2,以给予低概率token更多上升空间[48][49] - 第三项改变是超长奖励塑形,在硬性截断之前增加一个软性惩罚区域,为略微超长的回复提供更明确的学习信号[50] - 第四项改变是动态采样,如果某个提示词下采样的所有回复全部正确或全部错误,优势将为零,DAPO会持续采样直到每个提示词都出现正负混合的结果,以确保每个提示词都能提供学习信号[51] CISPO算法 - CISPO针对PPO风格裁剪的一个特定弱点:当一个token落在裁剪范围之外时,PPO会完全阻断其梯度,这可能抑制对高信息量token的学习[53] - CISPO将裁剪与梯度流进行解耦,仅裁剪重要性采样的权重,并对该权重应用停止梯度操作,允许所有token的梯度正常反向传播[54] - 在实验中,他们报告称只需使用并调节上边界裁剪项ε_h,下边界ε_l则被设置为一个足够大的值使其处于未激活状态[55] - 在MiniMax的实验中,与DAPO相比,CISPO的单步训练效率实现了两倍的提速[55] MaxRL算法 - MaxRL从一个完全不同的视角出发,认为标准的强化学习目标函数优化的是期望奖励,但研究人员经常观察到pass@1的提升往往以牺牲pass@k为代价[57] - 最大似然训练的梯度实际上是pass@k梯度的无限调和混合,而不仅仅是pass@1的梯度,标准的强化学习仅仅保留了该展开式的第一阶项[57] - MaxRL定义了一个受计算量索引截断的目标函数家族,其中T=1时恢复为标准的强化学习,而T→∞时则等同于最大似然估计[58] - 实证结果表明,MaxRL提升了pass@k性能,与GRPO相比,它能更好地保留输出多样性,并在测试时算力扩展的效率上带来了巨大的收益[62] DPPO算法 - DPPO更加直接地重新审视了信任域问题,其核心批判点在于PPO仅基于采样token的概率比例进行裁剪,这可能并不能很好地代表实际策略散度[64] - DPPO用基于预估策略散度定义的信任域取代了基于比例的掩码,在整个词表上计算精确的完整散度代价高昂,但采用二元近似或Top-K近似方法能取得不错的效果[64] - 从他们的实验中可以得出一个有趣的洞察:绝大部分的不稳定性仅由一小部分(不足0.5%)的更新引起,只要屏蔽这部分更新,就足以让训练变得稳定[67] - DPPO引出了一个关键问题,即在大型语言模型领域究竟应该如何定义信任域,并为此提供了一种解答方案[68] ScaleRL研究 - ScaleRL的重点并非发明新目标函数,而是探索在算力规模大幅扩张后,哪些设计选择依然至关重要[70] - 该研究报告了超过40万GPU小时的消融实验,并通过拟合“性能与算力”曲线来分析不同方法,这有助于分离方法在给定算力预算下性能提升的速度和最终达到的渐近性能[70] - 主要发现包括:倾向于流水线式的异步设置以提升计算效率;在众多异策略损失函数中,CISPO和GSPO在渐近性能上优于DAPO;在FP32精度下计算语言模型头可以显著提升渐近性能;提示词级别的损失平均化能带来最佳性能;将全对或全错的提示词从优化过程中排除以加速训练;将正确答案超过90%的提示词排除在未来的训练轮次之外,以实现更高的渐近性能[73] 算法演进模式与最佳实践 - 对于大型语言模型训练而言,critic模型似乎不再是必需项,自PPO之后,每一种方法都发现更简单的基线设定不仅能够达到甚至超越学习到的价值函数效果,还能节省约50%的内存[74] - 标准差归一化往往会产生副作用,会使模型过度关注那些几乎已经解决的问题,采用标准差归一化的DAPO在渐近性能上明显更低[75] - 损失聚合绝非无关紧要的细节,序列级奖励结合样本级均值的做法会扭曲每个token的学习信号,损失函数的规约是一个关键环节[75] - 信任域是一个极佳的优化切入点,PPO对信任域的定义似乎恰到好处,但最近许多新方法将目光对准了信任域并展示了更优的性能[75] - 一份初步的最佳实践正在成型,包括无critic模型训练、感知token或感知提示词的损失聚合、更柔性或更具原则性的信任域处理机制,以及对课程学习和算力分配日益明确的关注[76] 开放挑战 - 信用分配机制:现有的基于结果的方法将相同的奖励分配给回复中的所有token,效率很低,导致推理失败的关键token与周围无关紧要的词汇接收到的信号完全相同[78] - 样本效率:当前大多数训练配方依赖于为每个提示词生成多个推演结果来构建有效的相对基线,代价高昂,在验证成本很高或需要部分人工介入的情况下,情况会进一步恶化[78] - 极具挑战的难题:如果模型始终无法对某个提示词生成正确的推演结果,那么所有方法都无法提供任何梯度[79] - 向数学与代码领域之外的拓展:最近几乎所有的突破都源于验证成本低廉且对错分明的领域,将这些方法扩展到伴随噪声奖励、延迟奖励、主观评估或多轮交互的场景,依然是一项艰巨的任务[79] - 实证结果的可可靠性:该领域的大部分证据仍停留在实证层面,适用范围相对狭窄,且复现成本高昂,许多论文仅测试了单一模型家族、单一验证器设定、单一数据集组合以及固定的算力预算[80]
腾讯混元CL-bench续作发布,让大模型读懂你的日常生活
机器之心· 2026-05-01 11:30
下一代AI助手的发展方向与核心挑战 - 下一代AI助手需要从对静态知识的记忆,转向对动态、碎片化“生活上下文”的理解与推理,才能真正嵌入日常生活并解决复杂问题[2] - 当前AI在处理日常生活场景时面临的核心挑战在于,现实中的上下文是混乱、碎片化且未被预先整理的,这与专业领域结构清晰的上下文截然不同[5][11][12] - 让AI蜕变为真正的私人助手,关键在于使其能够读懂人类真实、混乱的生活模式,这要求AI具备从高噪声、弱结构化的信息中拼凑真相并保持鲁棒性的能力[13][15] 腾讯混元推出CL-Bench Life基准 - 腾讯混元团队推出了CL-Bench Life基准,旨在精准衡量AI在现实生活中的上下文学习能力,该基准包含**405个**完全由人工精心构建的真实任务[16] - CL-Bench Life与之前的CL-Bench形成互补:前者测试专业领域内聚焦、有序的上下文学习,后者测试日常生活中混乱、碎片化的上下文学习[14][29] - 该基准将测试场景划分为三大核心类别:1) 沟通与社交互动;2) 碎片信息与修改轨迹;3) 行为记录与活动轨迹,以覆盖最常见的真实场景[17][23] - 基准包含**5348条**纯人工编写的评分标准,平均每个任务对应**13.2个**考核点,旨在进行更全面、细粒度的评估[24] CL-Bench Life基准的详细构成与数据 - **沟通与社交互动**类包含**135个**上下文,平均每个任务有**13.4个**评分点,上下文平均长度约为**12.9K个**token[25] - **碎片信息与修改轨迹**类包含**135个**上下文,平均每个任务有**13.9个**评分点,上下文平均长度约为**12.8K个**token[25] - **行为记录与活动轨迹**类包含**135个**上下文,平均每个任务有**12.3个**评分点,上下文平均长度显著更长,约为**32.5K个**token[25] 主流AI模型在CL-Bench Life上的表现评估 - 测试的**12个**主流语言模型在CL-Bench Life上整体表现不佳,平均仅能解决**14.5%** 的任务[27] - 表现最好的模型是GPT-5.5 (High),其任务解决率也仅为**22.2%** ,其次是GPT-5.4 (High)的**19.3%** 和Claude Opus 4.6 (High)的**17.0%** [27][28] - 模型在CL-Bench Life上的表现显著低于在CL-Bench上的表现(后者平均解决率超过**20%** ),证实了处理日常生活上下文的难度更高[29] - 在不同任务类别中,模型表现存在差异:例如在“行为记录与活动轨迹”类中,GPT-5.5 (High)解决率最高,达**25.4%** ;而在“沟通与社交互动”类中,Seed 2.0 Pro (High)在“群聊”子类中表现突出,解决率达**26.7%** [28][33] 模型失败原因与能力局限的深入分析 - 模型的主要错误类型是“上下文误用”,平均占比超过**76%** ,远高于“忽略上下文”(平均约**40%** )、“格式错误”(平均约**13%** )和“拒答”(平均约**1.5%** )[37] - 在CL-Bench Life中,上下文误用的含义与CL-Bench不同,更多是误解日常语境,例如混淆人物指代、依赖已被推翻的旧信息、误将草稿当最终决策等[36] - 在“沟通与社交互动”类任务中,一个常见错误是角色混淆与说话人归因错误,例如模型无法在混乱的多人群聊中持续、准确地维护参与者身份和关系[41] - 日常生活上下文学习的瓶颈主要不在于长文本推理能力,因为开启推理模式后,上下文长度与模型表现的相关性变弱,核心挑战在于处理高噪声输入[34][39] - 当放宽任务通过的评分阈值时,模型通过率显著上升,说明模型虽难以完美解决任务,但能部分理解上下文并完成部分子任务,且模型间的相对排名保持稳定[30][32] 对AI行业发展的启示与意义 - CL-Bench Life的评测结果揭示了当前最顶尖的AI模型仍远未真正理解人类的日常生活,这解释了用户常感到AI“不够机灵”、“抓不住重点”的原因[43] - 该基准表明,让AI学会处理复杂、动态的上下文,是其真正走进现实世界并成为可靠个人助手的关键一步[43] - 行业的发展需要从两个互补方向推进:一手提升AI掌握专业领域内有条理知识的能力,一手增强其应对现实生活中碎片化、混乱现实的能力[43]
ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互
机器之心· 2026-05-01 11:30
研究背景与问题 - 当前3D AIGC技术能快速生成场景,但生成的场景在物理模拟中会暴露物体悬空、互相穿插、易散架等问题,难以直接用于游戏、XR或机器人等实际应用场景[2] - 问题的根源在于过去的文生3D方法主要优化视觉效果,忽略了场景的物理合理性,导致其在接触、支撑关系和整体稳定性上存在缺陷[2] 解决方案:PAT3D方法 - PAT3D由卡耐基梅隆大学、香港大学和香港科技大学的研究团队提出,旨在生成不仅在视觉上合理,而且在物理上成立、可直接用于编辑、交互和仿真的3D场景[3] - **第一阶段:3D物体与空间关系抽取** 系统根据文本提示生成参考图,利用视觉语言模型识别物体类别、材质和相对位置,并将图像分割成多个对象区域,为每个对象独立生成3D资产,使其能作为独立刚体参与物理计算[8] - **第二阶段:布局初始化** 利用单目深度估计将2D参考图回投成粗略3D布局,并根据物体依赖关系构建描述物理依赖(如“支撑”“包含”)的“场景树”,随后进行水平去重叠和垂直分离调整,得到无穿插、适合进入物理模拟的初始化场景[8] - **第三阶段:布局优化** 引入libuipc的可微刚体仿真,让物体在重力和接触力作用下向静力平衡演化,并通过基于物理模拟的闭环优化,定义语义损失并反向调整初始布局,最终得到既稳定又尽量保留文本语义的场景[9] 实验结果与性能 - 在包含18个复杂提示词的测试中,PAT3D在关键物理指标上表现突出:继续模拟位移为0,物体穿插比例为0,物理合理性评分高达88.5[15] - 定量对比显示,PAT3D的Clip Score为31.79,VQA Score为0.68,均优于GraphDreamer、Blender-MCP、MIDI等对比方法,且在位移和穿插比例上均为0[16] - 在书本、杯子、餐具、积木、水果篮等接触关系复杂的场景中,PAT3D能有效避免物体悬空和模拟后坍塌,并明显减少摆放错位[17] 应用前景与意义 - **场景编辑** PAT3D支持增删物体后的物理一致场景编辑,场景能在模拟中重新达到平衡,使未来的3D内容创作更接近“搭积木”[20] - **动画制作** 生成的场景满足基本物理约束,可直接用于后续动画制作,无需大量手动修正初始布局,将大幅提高传统物理仿真动画的制作效率[22] - **机器人仿真** 生成的场景可直接导入模拟器,用于测试抓取成功与否、操作过程中物体会否倾倒,为机器人训练和评估提供大量更可信的环境[23] - PAT3D的意义在于让3D生成更接近真正可用,其面向的是完整的数字内容生产流程以及机器人、仿真等真实应用场景,其源代码已在Apache-2.0许可下开源,为社区验证、扩展和落地提供了基础[25]
GPT-5系列咋都爱说「哥布林」?原因找到了
机器之心· 2026-04-30 18:58
文章核心观点 - 现代大规模语言模型的训练过程极其复杂,其内部学习机制可能导致难以预测的、从细微偏差放大而成的系统性行为异常 [34] - DeepSeek与OpenAI的案例表明,训练数据中的细微污染或强化学习奖励信号的意外偏好,都可能在模型中被固化并扩散,最终形成难以忽视的“怪癖” [34] - 此类“无害”的异常行为初期不易察觉,但可能在模型迭代中持续积累,最终导致模型在特定表达上出现显著偏差,这揭示了当前大模型训练中存在不可控风险 [34] 行业现象与案例 - 2023年夏季,深度求索公司的DeepSeek V3.1模型输出中频繁出现无关的“极”字,英文输出对应出现“extreme”,被研究者推测源于训练数据中未清洗干净的“极长数组”,模型在强化学习阶段将其学成了特殊的终止符或语言切换标记 [1] - 从GPT-5.1开始,OpenAI的模型在回答中越来越频繁地使用“goblin”(哥布林)一词,后续版本中其同类词汇如“gremlin”、“troll”、“ogre”也陆续出现,在GPT-5.5及Codex的早期测试中已成为明显的异常行为 [7][9][10][12] 问题根源分析 - OpenAI调查发现,仅占全部响应2.5%的“Nerdy”(书呆子)人格选项,贡献了所有包含“goblin”词汇回复的66.7% [14] - 针对“Nerdy”人格的强化学习奖励信号,在76.2%的数据集中对含有“goblin”或“gremlin”等怪物词汇的输出给出了更高分数,无意中鼓励了模型使用此类比喻 [18] - 关键问题在于行为“泄漏”:训练过程中,带“Nerdy”提示词与不带提示词的样本里,“goblin”词汇的出现频率几乎同步增长,在特定模式下被强化的习惯通过迁移渗入了模型更广泛的表达方式中 [22][27] - 完整的因果链是:训练“Nerdy”人格导致奖励信号意外偏爱怪物词汇,强化学习将风格固化,随后该风格扩散到非Nerdy的普通对话,最终导致哥布林词汇在全模型蔓延 [28] 应对措施与行业反应 - OpenAI工程师在找到根源前采取了治标方案,直接在Codex的系统提示词中明确禁令:“永远不要谈论哥布林、小妖精、浣熊、巨怪、食人魔、鸽子或其他动物和生物,除非这与用户的问题有绝对和明确的直接关联” [30][31] - 事件引发了AI社区的广泛讨论和调侃,OpenAI官方及Sam Altman本人也参与了玩梗,例如Sam Altman调侃“开始训练GPT-6,你可以用整个算力集群。额外补贴:加倍的哥布林” [2][4][32][33]
刚刚,DeepSeek多模态技术范式公布,以视觉原语思考
机器之心· 2026-04-30 18:58
文章核心观点 - DeepSeek联合北京大学、清华大学发布了一项开创性的多模态技术“Thinking with Visual Primitives”,旨在解决当前多模态大模型普遍存在的“指代鸿沟”问题,即模型能“看见”图像但无法在推理过程中精确“想清楚”和指代视觉对象[10][11] - 该技术的核心创新在于将空间坐标(如边界框和点)作为基本“思维单元”融入推理过程,使模型的逻辑链能锚定在图像物理坐标上,从而显著提升了在复杂计数、空间推理及拓扑推理等任务上的性能[7][20][22] - 在多项基准测试中,尤其是在主流前沿模型普遍表现欠佳的拓扑推理任务上,该模型实现了显著超越,例如在迷宫导航任务上达到66.9%的准确率,领先GPT-5.4约16个百分点,在路径追踪任务上达到56.7%,领先GPT-5.4约10个百分点[41][44] 技术背景与问题定义 - 当前多模态大模型面临“指代鸿沟”的根本瓶颈:模型使用自然语言进行思维链推理时,对视觉对象的描述(如“左边那个”)天生模糊,导致在密集或复杂场景中注意力“漂移”,最终得出错误结论[10][14] - 学术界此前主要致力于解决“感知鸿沟”,即通过高分辨率切割等技术让模型“看得更清”,但DeepSeek指出“看见”和“能说清楚在说哪个”是两件不同的事,精确的“指代能力”无法被更强的感知能力所替代[14][15] 模型架构与核心创新 - **架构基础**:以DeepSeek刚发布的V4-Flash模型为语言主干,这是一个总参数284B、推理时激活13B参数的混合专家模型,视觉编码部分采用自研的ViT,支持任意分辨率输入[16][17] - **核心创新一:视觉原语作为思维单元**:将边界框(`<|box|>`)和点坐标(`<|point|>`)作为推理的基本单位,像文字一样穿插在思维链中输出,使模型在提及视觉对象时能同步输出其精确坐标,从而将逻辑链锚定在图片物理坐标上,防止漂移[19][20][22] - **核心创新二:高效的视觉压缩**:通过ViT处理、3×3空间压缩及内置的压缩稀疏注意力机制,将一张756×756图片的视觉信息最终压缩至仅81个KV缓存条目,从原始像素到最终缓存条目的整体压缩比高达7056倍[24][25] - **效率对比**:处理一张800×800的图片,该模型仅需约90个KV缓存条目,而Claude Sonnet 4.6需要约870个,Gemini-3-Flash需要约1100个,表明精确的空间指代能力可在一定程度上弥补视觉token的不足[27] 训练数据与策略 - **冷启动数据构建**:从近10万个目标检测相关数据集中,经严格筛选保留约3.17万个高质量数据源,生成超过4000万条训练样本[29] - **专项任务设计**:针对“思考与视觉原语”设计了四类专项训练任务: 1. **计数任务**:分粗粒度与细粒度计数,训练模型“批量锁定”或“逐一扫描”的策略[30] 2. **空间推理与视觉问答**:利用GQA和CLEVR数据集生成多跳推理样本,迫使模型在每一步都用边界框锁定对象[32] 3. **迷宫导航**:生成46万条样本,训练模型用点坐标记录探索轨迹和回溯路径[34] 4. **路径追踪**:生成12.5万条样本,重点挑战曲线交叉时的歧义消解能力[36] - **后训练策略**:采用“先专家化,后统一”的四步法,包括分别训练边界框和点坐标专家模型、对专家模型进行精细奖励设计的强化学习、统一的强化微调以及在线策略蒸馏来弥合性能差距[38][39][40] 实验结果与性能表现 - **整体评测**:在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流前沿模型进行对比[42] - **计数任务**:在Pixmo-Count基准上以89.2%的精确匹配率超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%[44] - **空间推理任务**:在MIHBench上以85.3%的准确率排名第一,在SpatialMQA上以69.4%的准确率排名第一[44] - **拓扑推理任务(核心优势)**: - 在迷宫导航任务上达到66.9%的准确率,而GPT-5.4为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%,提升约17个百分点[44] - 在路径追踪任务上达到56.7%的准确率,对比GPT-5.4的46.5%和Gemini-3-Flash的41.4%,优势明显[44] 技术意义与行业影响 - 该研究为多模态AI的发展提供了新的思路,挑战了主流依赖更大模型、更高分辨率、更多数据的叙事,提出通过提升模型的精确指代和空间锚定能力来增强推理效果[57][58] - 技术引入了一种类似人类“用手指点着想”的思考姿势,为多模态推理增添了一种此前AI缺失的基础能力[58] 当前局限性与未来方向 - 模型需要明确的“触发词”来启用视觉原语机制,尚不能自主判断何时使用该机制[60] - 受输入分辨率限制,在极细粒度场景中,视觉原语的位置偶尔不够精准[60] - 用点坐标解决复杂拓扑推理问题的跨场景泛化能力仍有局限[60] - 团队认为与现有高分辨率感知方案结合是自然的下一步[60]
不只是DeepSeek V4,还有个万亿级大模型,训推全程国产芯片
机器之心· 2026-04-30 13:45
事件概述 - 2026年4月24日,DeepSeek与美团同日发布新一代万亿参数大模型预览版,引发行业关注 [1] - DeepSeek发布并开源DeepSeek-V4系列预览版,总参数规模迈入万亿级,支持百万字超长上下文 [1] - 美团发布并内测了基于全国产算力集群训练的万亿参数大模型LongCat-2.0系列预览版 [2] 美团LongCat-2.0-Preview的核心突破 - 该模型总参数规模约1.6T(万亿),平均激活参数约48B(十亿),支持1M(百万)级超长上下文 [22] - 关键突破在于其训练与推理全流程实现了“英伟达含量为0”,这在业内尚属首次 [3] - 此举明确回答了行业核心问题:万亿参数级模型可以依靠国产芯片稳定、高效地运行 [4] 技术路径与工程方法论 - 此次突破基于此前开源的LongCat-Flash大模型(5600亿参数)所验证的方法论 [7] - LongCat-Flash训练阶段未使用英伟达GPU,其技术报告实为一份国产算力训练经验总结 [9][12][20] - 团队在国产芯片上进行了大量底层算子自研与优化,例如自研高性能确定性FlashAttention反向梯度算子,将性能损失控制在5%左右,优于国产芯片厂商的官方版本 [17] - 团队对Scatter类算子进行重构,设计确定性并行算法,性能提升数十倍 [17] - 对GEMM等高耗时模块采用确定性Tiling策略与深度调优,实现高性能与确定性双重目标 [18] - 通过“整网确定性训练”确保了计算结果的精确复现和异常快速定位,这在工具链不完善阶段是排障刚需 [19] 模型架构创新 - 模型采用MoE架构,在架构层面进行了核心创新以降低硬件负担、提升效率 [23] - 延续并增强了N-gram Embedding路线,将部分专家层参数前移至embedding层,引入词组级建模能力,使高频语言模式可直接匹配,降低了对逐层计算的依赖,从而控制了推理成本 [24][26][27] - 在注意力机制层面引入轻量稀疏注意力机制,并叠加“跨层流感知索引”设计,减少了重复的全量attention计算,使模型能稳定支持1M上下文,同时控制推理延迟与计算成本 [28][29] 超大规模国产算力集群部署 - 训练阶段调用的国产加速卡规模达到5万至6万张,刷新了国产算力支撑超大模型训练的规模上限 [32] - 在万卡规模上,对专家并行、张量并行与流水线并行进行了重新组合与解构,以完成整体训练部署 [34] - 针对国产芯片单卡HBM容量与带宽的差距,进行了极其精细的显存切分与调度优化 [33] - 构建了一套容错与恢复体系,包括链路感知、自动重调度与多层异常检测机制,以应对数万卡规模下的硬件掉线、通信抖动等稳定性挑战 [36] - 针对国产硬件特点对训练框架和模型结构做了亲和设计,提升了计算性能 [37] - 最终在计算正确性、数值精度及长周期训练稳定性等核心指标上追平国际水平,足以支撑万亿级MoE模型全流程训推 [37] 行业意义与影响 - 此次突破标志着国产算力正从“能用”迈向“好用”,跨过了从“可替代”到“可承担顶级任务”的关键门槛 [38][40] - 为整个国产AI基础设施积累了公共能力,那些攻克过的工程难题将沉淀为行业经验 [40] - 当国产芯片开始承载前沿大模型并获得验证,为国产生态注入了信心,也为更深层的结构性变革打开了空间 [41] - 公司战略上,此举呼应了其将美团App升级成AI-powered App的目标,是战略预判的结果 [5] 当前状态与未来展望 - LongCat-2.0-Preview目前处于受邀内测阶段,每天提供1000万token免费额度 [6][43] - 该模型大概率将延续开源路线,具体的开源方式与时间有待公布 [42][43]
ACL 2026 综述:从事后解释到内生解释,大模型内生可解释性的前沿进展
机器之心· 2026-04-30 12:52
文章核心观点 - 大语言模型可解释性研究正经历从“事后解释”到“内生可解释性”的重要范式转变,目标是从设计源头构建更易理解的“玻璃箱”模型,而非仅事后分析“黑箱”[3][4][6] - 内生可解释性旨在将可解释性直接嵌入模型结构、训练目标和信息流路径中,使解释成为模型计算本身的一部分,改动这些部件会直接影响模型输出[4] - 该领域已形成五类核心设计范式,它们代表了不同的可解释性构造原理,而非彼此隔绝的技术,共同推动形成一种新的模型设计观[8][14] 内生可解释性的设计范式 - **功能透明性**:强调模型内部计算过程应具有清晰结构和明确语义,例如广义加性模型(GAM)及其后续发展,代价是可能限制表达能力和训练效率[9] - **概念对齐**:希望模型的中间变量直接对应人类可理解的概念,如概念瓶颈模型(CBM),好处是可直观检查概念层面的错误,但存在“对齐成本”,可能约束模型的自由表达空间[9] - **表征可分解性**:关注降低隐藏表示的语义纠缠,将其拆分为更独立的子空间或组成部分,以提高表示的可读性与可操控性,例如Backpack Language Models和CoCoMix等工作[10] - **显式模块化**:将可解释性纳入模块化架构的设计目标,如专家混合模型(Mixture-of-Experts, MoE),通过设计更简单、稀疏的专家网络或更具语义结构的路由器,使模型计算调用过程可见[11] - **潜在稀疏性诱导**:通过稀疏约束、门控机制或结构化正则化,促使模型在训练中形成更清晰的激活路径与功能划分,例如Transformer中的GLU/SwiGLU门控结构和稀疏训练方法[13] 领域发展趋势与挑战 - **发展脉络**:该领域正从早期“刚性、预定义、低容量”的可解释模型(如GAM),向“更灵活、可扩展、同时保留可解释结构”的现代架构演进[14][17] - **关键挑战**:包括定义和评估标准不统一、可解释性与性能之间的取舍问题,以及现有方法向复杂大模型系统稳健扩展的验证需求[18] - **根本意义**:内生可解释性研究视角的转变,为构建更可信、可控、安全的大模型系统提供了更底层的可能性,将可解释性从分析目标推进为模型设计原则[18][19]
Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式
机器之心· 2026-04-30 12:52
文章核心观点 - 智元机器人及其合作研究团队提出并验证了一种名为“部署中学习”的全新具身智能训练范式,该范式通过大规模分布式强化学习,使机器人能够在真实世界部署中持续自主改进,突破了当前视觉-语言-动作大模型的天花板,标志着具身智能范式的彻底升级 [1][11][16] LWD范式概述与核心机制 - LWD是一套让通用VLA策略在真实世界部署中持续自主改进的可扩展强化学习系统,在业内首次实现了具身VLA的大规模RL预训练+后训练 [14] - 该范式将机器人从执行工具转变为“动态的智能网络”,构建了一个由真实世界强化学习驱动的数据飞轮,其转速直接由部署的机器人集群规模和运行时间决定 [16][23] - 系统从一个预训练好的VLA模型开始,利用离线数据进行强化学习预训练,然后将策略部署到机器人集群,机器人在执行任务时生成的数据会实时回传云端以持续更新策略,再将进化后的模型下发给物理集群,形成闭环 [19][20] - LWD的核心创新在于从失败中学习的机制,能够吸收所有类型的交互数据,包括高达34.8%的完全失败的交互轨迹,教会机器人如何在复杂物理世界中维持稳态 [23][24][41] 四大维度技术创新 - 引入**分布型隐式价值学习**:用分类方式拟合“价值分布”,根据不确定性自适应调整策略,确保在奖励稀疏、执行序列长达3-5分钟的任务中能精准识别关键动作 [26] - 引入**伴随匹配Q学习**:针对先进VLA模型的流匹配架构,将价值网络引导的动作改进转化为沿流轨迹的局部回归目标,绕过了生成模型反向传播的阻碍,降低了算力开销 [27] - 设计**动态多步TD策略**:根据任务长度和训练阶段智能调整预判未来的步长,例如离线训练长程任务时步长拉大到n=10,在线部署时切回n=1,兼顾了信号回传效率和在线更新的稳定性 [27][28][29] - 提出**分段异步Actor-Learner架构**:将执行数据的机器人集群与云端更新策略的学习器解耦,两者可独立扩容,并通过中央协调器将前端异步数据流变为同步、全局一致的数据集进行训练,云端学习经验仅需41秒,模型更新下发的延迟中位数为38秒 [29][30] 真实世界性能验证 - 新方法在16台Agibot G1双臂机器人上进行了8项真实环境操作任务测试,其中包含4项分钟级长程连贯操作任务 [32][33] - 经过在线训练强化的LWD在所有8项任务的综合评分中,平均成功率达到了0.95,显著优于传统纯行为克隆的0.76、人类干预纠偏方案的0.85以及先进离线后训练方案的0.85 [37][40] - 在最困难的4项长程任务组中,LWD取得了0.91的平均得分,优于对比方案的0.77和0.73,并且其平均循环时间比纯行为克隆缩短了23.75秒 [40][41] - 在泡功夫茶、榨果汁、调鸡尾酒及打包鞋盒等长程任务中,LWD展示了处理包含几十个连续物理交互子步骤、持续3到5分钟复杂操作的能力 [36][40] 行业意义与发展趋势 - LWD的出现,如同大模型领域的RLHF,可能成为推动具身智能新一轮规模扩展的转折点,标志着行业重心从预训练向后训练倾斜 [44] - 未来的通用机器人,核心竞争力将不再是出厂时预训练的数据量,而是在实际部署后于千行百业中主动学习和迭代的速度 [45] - 该范式验证了将真实世界的效用作为评估标准、设计贴近现实世界任务的新思路的重要性,呼应了AI大模型领域关于“下半场”的讨论 [44]