机器之心
搜索文档
告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑
机器之心· 2025-12-27 12:01
核心观点 - 北京通用人工智能研究院提出了一种名为“原生并行推理器”的新方法,旨在解决大语言模型在复杂推理场景中传统链式思维的局限性,通过让模型在一次思考中同时衍生并维护多条候选推理路径,并在关键节点进行分支与聚合,以合成最优解 [2] - 该方法的核心突破在于提出了一套“自蒸馏 + 并行强化学习”的三阶段训练范式,并配套专门的并行推理引擎,目标是让并行推理从外挂技巧变为模型的原生认知能力 [2] 背景与痛点 - 未来更强的智能体需要具备广泛探索多条思考路径的能力,类似MapReduce的分而治之思路,但将其天然整合进智能体存在巨大挑战 [4] - 现有方法面临三大挑战:1) 算法与架构不匹配,现有推理引擎和强化学习算法难以原生支持“分支+聚合”操作 [5];2) 低效的手工并行机制导致分支间重复计算,效率低下 [6];3) 对强监督蒸馏的依赖,使得模型难以超越教师模型的局限,达到智能瓶颈 [7] 核心理念与训练范式 - NPR的关键在于“原生”,旨在零外部监督的条件下,让模型自我进化出并行推理能力 [15] - 采用渐进式三阶段训练范式:第一阶段为并行格式学习,让模型掌握并行推理的表达结构 [16];第二阶段为自蒸馏,让模型内化并行思考逻辑,摆脱对外部教师模型的依赖 [17];第三阶段为并行感知强化学习,让模型学会在推理过程中执行并行控制逻辑 [18] - 经过三阶段训练,NPR在测试中的准确率从约17%持续爬升至50.4%,并实现了约4.6倍的生成加速 [19] 具体实现细节 - 第一阶段通过格式遵循强化学习,让模型学会生成结构化的并行格式轨迹 [21] - 第二阶段通过拒绝采样与并行预热,对第一阶段产物进行严格筛选,保留高质量并行推理轨迹用于监督微调,并引入并行注意力掩码与并行位置编码以支持并行分支独立计算并实现KV Cache重用 [21][24] - 第三阶段提出并行感知策略优化方法,直接在并行计算图内优化分支策略,并配套NPR-Engine推理引擎以解决工程化问题 [24][29] - 关键技术包括:自蒸馏与严格筛选 [23]、并行注意力掩码与并行位置编码 [24]、并行感知策略优化 [27]、以及工程改进如预算感知的KV回收和格式预检 [29][36] 主要实验与结论 - 在8个推理基准上评测,使用自行提炼的数据集替换Multiverse的训练语料后,性能显著提升:AIME24从46.7提升至50.8,ZebraLogic从60.2提升至76.1,AMC23从75.0提升至85.9,MATH500从81.6提升至91.6,总体平均得分从50.1提升至59.0 [33] - 从顺序监督微切换至并行监督微调能提升模型性能,例如AIME25从37.1提升至42.9 [34] - 在并行监督微调基础上应用并行强化学习能获得进一步性能提升,总体平均得分从62.0提升至65.0 [35] - NPR在所有八个数据集上均达到了100.0%的并行触发率,而Multiverse的并行率则因数据集而异 [37] - 在推理效率上,NPR始终优于Multiverse和自回归基线,加速比随任务难度增加,在AIME25上达到4.6倍加速,在HMMT25上达到4.1倍加速 [38][39] 案例解析与结语 - 案例显示NPR的典型推理模式为:并行产生若干独立计划,每个计划独立展开推理步骤,最后整合与交叉验证得出最终答案 [40] - 该方法构建了一个无需依赖外部教师模型即可学习自适应分解、多样化并行规划和可靠聚合的原生并行推理器,在多个基准测试上显示出显著改进,是实现更通用、可扩展智能的有前景方向 [46]
AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后
机器之心· 2025-12-27 12:01
行业变革态势 - AI技术的快速发展正在对软件工程行业产生“9级大地震”般的冲击,彻底重构编程职业[4] - 衡量AI通用能力的综合指标ECI在过去两年增长速度几乎是前两年的两倍,2024年4月更是加速增长了90%[19] - AI能力的指数级增长已超过原本预期,且增长势头很可能持续到2026年[20] 工作模式转变 - 程序员贡献的代码越来越少,更多工作转变为在各种工具之间进行串联[4] - 资深工程师表示,软件工程正在发生根本性变革,需要不断重新调整对模型能力的认知[8] - 有工程师在一个月内完全未打开IDE,依靠AI模型(Opus 4.5)生成了约200个PR的所有代码[8] 新技能要求 - 出现了一个新的可编程抽象层需要掌握,包括agents、提示词、上下文、工具、工作流等概念[4] - 需要建立思维模型来理解本质随机、易错且不断变化的AI模型的优缺点[4] - 有效使用AI的关键在于学习如何为其提供良好的上下文,并进行大量实验和项目构建[11] 生产力影响 - 若能正确利用过去一年出现的新工具,程序员的生产力可能提升10倍[4] - AI工具威力巨大但不够稳定,一旦找对方法能带来指数级的生产力提升[9] - 有技术专家表示,投入时间学习使用AI编码Agent来交付高质量产品,是其职业生涯做过的最棒的事[10] 从业者反应 - 行业资深人士(如Andrej Karpathy)感到自身技能落后,引发广泛共鸣,其帖子获得超过2.2万点赞、3000多次转发和360万浏览量[2][4][6] - 新入职的毕业生由于没有先入之见,有时能更有效地使用AI模型[8] - 部分从业者持乐观态度,认为领域开放使得创意解决方案可以来自任何地方,建议避免焦虑,专注于实验和构建[11] - 也存在反对声音,有资深工程师对AI生成的“劣质”内容和其对工程文化的冲击感到愤怒[16][18] 未来展望 - AI进化速度极快,过去30天未跟进的人,其观点可能已经过时[9][10] - 有观点认为软件工程师职业可能在未来5到10年内发生终结性变化[13] - 另一种观点认为,人工智能取代的不是程序员,而是编程语言本身[13]
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架
机器之心· 2025-12-27 12:01
文章核心观点 - 当前视频生成领域的人物定制研究普遍存在一个根本性缺陷,即假设单视角下的人物相似度等同于身份保留,而忽视了真实电影制作中身份认知依赖于多视角与多光照下的稳定表现 [4][5][6] - 公司提出“Virtually Being”框架,其核心论点是:要真正学会一个人的身份,模型必须学习其在多视角与多光照下的外观,身份应被视为一个4D(空间+时间)一致的概念,而非静态的2D属性 [8][9] - 通过系统性引入基于4D重建的多视角表演数据与真实光照变化数据,该框架为解决视频生成中的多视角身份一致性问题提供了一条更贴近电影制作实际需求的路径 [10][37] 当前研究范式的问题与挑战 - **单视角假设的局限性**:主流人物定制范式(给定单张或少量人物图像生成视频)隐含了错误假设,即单视角相似度等于身份保留,但这在真实视频与电影语境中不成立 [4] - **身份具有视角依赖性**:面部轮廓、五官比例、体态与衣物形态会随观察角度发生系统性变化,单张图像无法覆盖侧脸、背面及连续视角变化中的外观一致性 [5] - **相机运动暴露问题**:相机运动会持续暴露未见过的外观区域,放大身份不一致性 [5] - **多人场景放大错误**:当多个角色同框时,轻微的身份漂移会变得非常明显 [5] - **研究空白**:显式关注多视角身份保留在当前视频定制化生成研究中几乎没有被系统性地解决 [7] Virtually Being 框架的方法论 - **数据层面重新设计**:从数据层面重新设计了人物定制流程,以解决多视角身份被长期忽视的问题 [11] - **多视角表演采集**:使用专业体积捕捉系统(75相机面部捕捉阵列、160相机全身捕捉阵列)采集真实人物在受控条件下的动态表演,而非依赖单视角参考图像 [12][14] - **4D高斯溅射作为数据生成器**:利用4D Gaussian Splatting对采集的表演进行高质量重建,生成多视角视频数据,为模型提供多视角下的身份一致性监督 [12][15] - **两阶段训练策略**: - **阶段一:相机感知预训练**:基于ControlNet架构,引入完整3D相机参数,在大规模公开视频数据上训练,使模型掌握电影级镜头语言 [18] - **阶段二:多视角身份定制**:在预训练模型基础上,使用4DGS渲染的多视角视频进行微调,为每个身份引入专属token,将身份与多视角外观显式绑定 [19] - **引入光照真实感**:通过引入基于HDR的视频重打光数据,对同一人物生成多种自然光照条件,使模型学会在光照变化下保持身份稳定 [23] - **多人物生成支持**:支持通过联合训练或推理阶段噪声混合的方式,实现多人物自然同框与互动,前提是模型对每个角色在不同视角与光照下的身份都有稳定建模 [26][27][28] 实验效果与验证 - **身份指标领先**:系统性实验表明,使用多视角数据训练的模型,在AdaFace等身份指标上显著优于仅使用正面视角数据及其他视频定制方法 [32] - **关键数据对比**:在文本到视频定制任务中,该框架的AdaFace得分为0.351,显著高于对比方法MagicMe(0.280)、ConsisID(0.301)等 [35] - **用户研究偏好明确**:在用户研究中,该框架生成结果在“多视角身份”项获得81.34%的偏好率,远超其他方法(最高为ConsisID的12.96%)[35] - **光照真实感提升**:引入重光照数据后,83.9%的用户认为生成视频的光照更自然、更符合真实拍摄效果 [23] - **单视角数据对比**:即使与自身仅使用正面视角数据的版本相比,完整框架在AdaFace得分(0.351 vs 0.327)和动态程度(0.72 vs 0.59)上仍有优势 [35] - **图像到视频定制有效**:在图像到视频定制任务中,该框架版本获得65.43%的用户偏好,优于非定制化基准的34.57% [35]
马斯克圣诞礼物:X上所有图片都能一键AI改图了,全球画师暴怒
机器之心· 2025-12-27 10:45
核心观点 - X平台(原推特)推出由Grok AI驱动的“全场域编辑”功能,允许用户直接编辑平台上任何图片,标志着平台可能从“内容分享平台”向“生成式创作平台”转型 [1][2][11] - 新功能引发巨大争议,尤其是对原创艺术家和普通用户构成潜在风险,包括作品被篡改、版权被侵犯以及个人照片被滥用,且目前无法禁用该功能 [11][13][16][19][22] 技术功能与特性 - 平台所有图片新增“编辑图片”选项,接入了Grok AI模型,用户可对任何图片(包括他人发布的)进行原地编辑 [2] - Grok AI提供“图转视频”能力,可将静态图转换为6-15秒的动态视频,AI会自动判断动作逻辑并匹配音效 [3] - 该功能目前似乎适用于所有账号,且没有电影IP的限制 [3] - 功能的实现依赖于xAI团队的多模态技术进步以及由十万卡H100 GPU组成的Colossus AI超算集群的支持 [11] 市场反应与用户行为 - 功能上线后,大量用户立即开始“创作”和“整活”,例如修改名人图片等,玩得不亦乐乎 [3][5][11] - 有用户尝试使用该功能去除图片水印和作者签名,从而可能窃取原创作品 [22] 行业影响与争议 - 原创艺术家感到威胁,有画师表示将停止在X平台上传作品并迁移到其他平台 [11][13] - 普通用户也面临风险,任何人可使用AI编辑平台上发布的真实人物照片(如家庭照),引发对隐私和同意的担忧 [19] - 功能默认启用且目前没有官方方法可以关闭或禁用,引发了广泛的抗议 [16][22] - X平台已更新服务条款,其中一项允许平台及他人使用用户发布的内容(包括用于机器学习) [22] - 有观点认为X平台选择在圣诞假期推出功能,是为了在收到法律通知前观察几天用户使用情况 [23]
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布
机器之心· 2025-12-26 12:35
MeViSv2数据集发布 - 由复旦大学、上海财经大学、南洋理工大学联合打造的多模态视频理解数据集MeViSv2正式发布,并被顶刊IEEE TPAMI录用[2] - 该数据集围绕复杂动作推理挑战模型的多模态处理能力,包含2,006个视频、8,171个目标及33,072条文本/音频表达,通过新增15万秒音频数据实现了向原生多模态的进化[4] - 数据集全面支持RVOS、RMOT、AVOS以及RMEG四大核心任务,并引入了“无目标语句”和“运动推理”等新机制,旨在挑战模型逻辑推理与鲁棒性的天花板[4] MeViSv1的核心理念与成就 - 初版MeViSv1确立了探索像素级视频理解的三大核心理念:运动优先、复杂场景和长时序关联[9][16] - MeViSv1提供了超过28,000个高质量语句标注,覆盖2,006个视频中的8,171个物体[9] - 截至目前,MeViSv1在CodaLab上已吸引全球近千支队伍参加评测、累计1万余次提交,并成功在CVPR 2024、ECCV 2024、CVPR 2025、ICCV 2025上举办全球挑战赛[9] MeViSv2的核心增强与亮点 - **模态增加**:首次为全部的33,072个文本语句都配对了对应的语音指令,音频数据总时长超过150,000秒,标志着MeViS已经从视频数据集进化为原生多模态数据集[11] - **任务更广**:系统性地补充了精确的物体轨迹标注,使其成为迄今为止规模最大的指向性多目标追踪数据集,支持RVOS、AVOS、RMOT、RMEG四大核心任务[13][14][17] - **规模增大**:将总表达式数量扩充至33,072条,相较于MeViSv1新增了4,502条极具挑战性的语句,精准覆盖了当前AI推理能力最核心的两大挑战瓶颈:运动推理语句和无目标语句[15][18] 新增挑战性语句类型 - **运动推理语句**:要求模型进行复杂的逻辑推理,从“看动作”到“懂因果”,例如理解“What is causing the cage to shake?”并推断出是笼内扑腾的鸟引发了震动[24] - **无目标语句**:引入了具有欺骗性的无目标表达,要求模型具备“判伪”能力,在视频中没有匹配对象时输出“无目标”,以增强现实应用中的鲁棒性[24] 基线模型LMPM++的技术创新 - **核心架构**:采用以“对象”为中心的LLM推理,生成语言引导的查询,将视频中的潜在对象转化为轻量级的目标嵌入,并输入到LLM中以捕捉长周期的行为模式[26] - **原生多模态**:设计了统一的指令格式,通过引入<Text>和<Audio>标签以及对应的投影层,将文本和音频特征映射到同一语义空间,实现模态无关的统一感知[27] - **创新损失**:引入了时间级对比损失,通过随机打乱目标嵌入的时间顺序作为负样本,强制模型学习正确的时间结构,增强对复杂动作序列的辨识能力[28] - **自适应输出**:针对“无目标语句”陷阱,模型被训练预测目标数量No并动态生成对应数量的<SEG> Token,当No=0时不输出任何掩码,从而大幅提升无目标准确率[29] 在MeViSv2上的基准测试结果 - **RVOS任务**:LMPM++在综合指标J&F上达到了43.9%的新高,刷新了SOTA记录,其无目标准确率跃升至45.7%,目标准确率达到87.4%[31][32][33] - **RMOT任务**:LMPM++斩获了38.1%的HOTA*和28.1%的DetA*,相比前代SOTA方法TempRMOT性能提升显著,其目标准确率达到87.4%[34][35] - **AVOS任务**:LMPM++在所有指标上都远超之前的模型,取得了42.3%的J&F得分,体现了该方法优越的多模态处理能力[36][37] - **RMEG任务**:现有模型普遍面临“表达难”的困境,表现最好的VideoLLaMA 2的METEOR和CIDEr得分也仅为15.68和27.10,表明在生成精准描述方面仍有巨大提升空间[38] 对行业未来研究的启示 - 需要开发能够直接从原始语音信号中提取时间语义线索,并将其与视频运动信息深度融合的新架构[40] - 需提升模型从长时序视频和复杂语言指令中进行因果和逻辑推理的能力,而非仅仅进行模式匹配[41] - 需增强模型在无目标、多目标、目标相似等复杂场景下的鲁棒性和泛化性,使其更接近真实世界的应用需求[42] - MeViSv2的发布是对整个多模态视频理解领域的一次挑战升级,为未来的相关研究奠定了坚实的基础[43]
Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍
机器之心· 2025-12-26 12:35
文章核心观点 - 华为诺亚方舟实验室与香港中文大学联合发布的SCOPE框架,旨在解决LLM Agent因使用静态Prompt而无法从执行错误中学习、导致“错误循环”的问题 [2] - SCOPE框架的核心思想是让Agent的Prompt在执行过程中不断进化,通过从执行轨迹中自动提炼指导规则,使Agent能够“从错误中学习”并实现自我优化 [4] - 该框架通过四个核心组件(指导规则合成、双流路由机制、记忆优化、视角驱动探索)实现Agent的在线自我优化,显著提升了任务成功率 [11][12][13][14][15][16] Agent的失败模式与SCOPE的解决方案 - **Agent的两大失败模式**:第一类是“纠正型失败”,即Agent无法利用错误日志中已包含的明确解决方案进行修正,甚至可能编造数据 [7];第二类是“增强型失败”,即Agent即使在没有明显错误的情况下,也会错过优化机会,例如固守单一关键词策略 [7] - **失败的根本原因**:静态Prompt缺乏从执行反馈中学习的机制 [9] - **SCOPE的解决方案**:将上下文管理从手动工程任务转变为自动优化过程,利用Agent自身的执行轨迹作为学习信号 [11] SCOPE框架的核心组件 - **指导规则合成**:当Agent遇到错误或完成子任务时,分析执行轨迹并合成候选指导规则,采用Best-of-N策略挑选最佳规则 [12];合成模式包括从错误中提取教训的“纠正型合成”和从成功模式中挖掘优化机会的“增强型合成”,后者占所有合成规则的61% [12] - **双流路由机制**:将合成的规则通过分类器路由到两个记忆流:“战术记忆”存储任务特定规则,“战略记忆”存储跨任务通用规则,只有置信度高于0.85的通用规则才会被提升到战略记忆 [13][14] - **记忆优化**:对战略记忆执行三步清理:冲突解决、冗余剪枝、整合归并,以优化规则库 [15] - **视角驱动探索**:初始化多个由不同“视角”(如效率优先vs周全优先)引导的并行流,各自进化出不同的Prompt,以提高策略覆盖,测试时选择最佳结果 [16] 实验结果与性能提升 - **基准测试结果**:在HLE、GAIA和DeepSearch三个基准上,SCOPE均显著提升了任务成功率 [19] - 在HLE基准上,任务成功率从基线Agent的14.23%提升至38.64% [19][20] - 在GAIA基准上,成功率从32.73%提升至56.97% [19][20] - **消融实验贡献**:指导规则生成器提供+4.85%的初始提升,双流路由贡献+3.63%,Best-of-N选择贡献+3.03%,记忆优化贡献+1.82%,视角驱动探索带来+10.91%的提升 [20][21] - **领域特定提升**:在知识密集型领域提升明显,例如生物/医学领域成功率从14.9%提升至43.2%,化学领域从14.1%提升至50.3% [22] SCOPE框架的有效性与特点 - **规则采纳验证**:观察到“语言采纳”现象,即Agent在规则合成后直接引用相同措辞,行为变化在几秒内发生,证明了规则的实时影响力 [24] - **视角策略多样性**:效率流与周全流的总体准确率相近(44.85% vs 46.06%),但两者解决的问题重合度仅为33.94%,约23%的问题只能被其中一个视角解决 [26][27];全局集成(Union)捕获了两种策略的优势,总准确率达56.97% [27] - **定性行为差异**:面对同一HTTP 403错误,效率流学会“快速失败”并升级到搜索Agent,而周全流学会“寻找替代来源”如尝试Archive.org,展示了处理不同任务类型的能力 [28] - **框架主要特点**:1) 步级别适应,允许从任务中途的失败中恢复 [32];2) 单Agent优化,每个Agent基于自身特定模式进化Prompt [32];3) 主动优化,61%的规则来自成功模式的增强型合成 [32] 开源实现与实用性 - **开源与可用性**:SCOPE代码已在GitHub开源,提供了一套完整的实现框架 [33][34] - **实用特性**:即插即用,只需在Agent执行循环中调用`on_step_complete()`接口即可为现有系统添加自我进化能力,无需修改原有架构 [35];模型无关,通过统一适配器接口支持OpenAI、Anthropic等100+模型提供商;轻量部署,可通过`pip install scope-optimizer`一键安装 [35]
视频生成DeepSeek时刻!清华&生数开源框架提速200倍,一周斩获2k Star
机器之心· 2025-12-26 12:35
核心观点 - 清华大学TSAIL团队与生数科技联合发布的TurboDiffusion加速框架,将AI视频生成从“分钟级等待”带入“秒级实时”时代,实现了高达200倍的推理加速,是行业发展的关键转折点[1][3][52] 技术突破与核心优势 - **加速效果显著**:在单张RTX 5090显卡上,主流视频生成模型的推理速度得到百倍提升,例如将14B模型生成5秒720p视频的时间从4767秒缩短至24秒,加速近200倍[1][26][43];将1.3B模型生成5秒480p视频的时间从184秒缩短至1.9秒,加速97倍[39][40] - **攻克核心瓶颈**:该框架成功击破了扩散模型生成高质量视频面临的主要壁垒——高推理延迟,通过系统性优化解决了处理海量时空token导致的耗时问题[7] - **四大核心技术驱动**:通过混合注意力加速、高效步数蒸馏、W8A8线性层量化以及训练阶段的并行策略协同作用,实现加速[13][21] - **混合注意力加速**:结合SageAttention(低比特量化注意力)与Sparse-Linear Attention(稀疏线性注意力),两者正交叠加可获得数倍额外加速[14][17][19] - **高效步数蒸馏**:引入rCM蒸馏方法,将采样步数从100步大幅减少至3-4步,同时保持视频质量[20] - **W8A8线性层量化**:对模型权重和激活值进行8-bit分块量化,将模型大小压缩约一半,并利用INT8 Tensor Cores加速计算[21] - **训练优化策略**:采用并行训练,将预训练模型的全注意力替换为SLA进行微调,同时使用rCM进行蒸馏,最后合并参数,以平衡推理效率与生成质量[22] 实际应用与性能表现 - **支持多种模型**:框架已支持包括TurboWan2.2-I2V-A14B-720P、TurboWan2.1-T2V-14B-720P等多个文生视频、图生视频模型版本,提供480p至720p的最佳分辨率[8][9] - **图生视频加速**:在14B模型生成5秒720p视频的任务中,实现了几乎无损的端到端119倍加速[31] - **文生视频加速**:在14B模型生成5秒720p视频的任务中,实现几乎无损的端到端200倍加速[43] - **商业模型集成验证**:在生数科技自研的Vidu模型上,生成8秒1080p视频的延迟从900秒提速到8秒,且不损失生成质量[47][48] 行业影响与产业落地 - **开启新范式**:标志着AI视频创作从“渲染与等待”模式向“实时生成”时代转变的关键节点[3][52] - **降低算力门槛**:使高端视频创作能力从昂贵的H100等专业显卡下沉到RTX 5090等消费级显卡,极大降低了个人创作者的算力门槛[52] - **技术广泛部署**:核心组件SageAttention作为全球首个注意力计算量化加速方案,已被工业界大规模部署,集成至NVIDIA Tensor RT,并落地于华为昇腾、摩尔线程等主流GPU平台[27] - **头部企业应用**:腾讯混元、字节豆包、阿里Tora、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤等国内外科技公司已在核心产品中应用相关技术,创造了可观经济效益[27] - **未来应用场景**:为AI视频直播、个性化视频流、AR/VR实时内容渲染等需要即时反馈的应用场景的落地铺平了道路[52]
离谱:256G内存比RTX5090还贵,你要为AI买单吗?
机器之心· 2025-12-26 11:06
文章核心观点 - AI算力需求的爆发性增长导致高端内存(HBM/LPDDR)出现结构性紧缺,产能被AI巨头锁定,进而挤压了消费电子(如PC、手机)的内存供应,引发个人电脑配件(内存、硬盘、显卡)价格普遍飙升 [3][5][6] - 内存短缺和价格压力已从消费市场传导至科技巨头供应链,导致微软、谷歌、Meta等公司为确保供应而激烈竞争,甚至引发内部人事动荡 [8] - 为应对内存瓶颈,行业正在探索新的技术路径,例如英伟达通过收购Groq获得基于SRAM的LPU技术,以寻求高带宽内存的替代或补充方案 [10][11][12] AI需求引发内存市场结构性紧缺 - **消费级内存价格飙升**:单条256GB DDR5内存市场价格已飙升至3500-5000美元之间,PC内存短期预计继续涨价 [3] - **根本原因在于AI产能截胡**:全球仅SK海力士、三星、美光三家能生产高端HBM与LPDDR内存,AI服务器需求抽走大量产能 [5] - **巨头锁定巨额产能**:OpenAI“星际之门”项目与三星、SK海力士签署协议,锁定每月90万片DRAM晶圆供应,相当于全球DRAM月产量的40%,导致合约价跳涨 [5] - **厂商产能分配倾斜**:AI服务器HBM内存的利润是向消费者出售DDR5内存的5倍,厂家优先将生产线分配给大客户,导致PC市场DDR5供应减少 [5] AI推动全产业链配件需求与价格上涨 - **AI PC提升内存门槛**:为流畅运行100亿参数以上的本地大模型,PC内存需求从16GB提升至32GB甚至64GB,加剧内存紧缺 [6] - **全配件价格受影响**:硬盘存储价格经历飙升,二手市场RTX 4090显卡价格仍近两万元人民币 [6] - **供应链压力传导至科技公司**:谷歌有采购人员因未能保证内存供应而遭解雇 [6] 科技巨头为争夺内存供应展开激烈竞争 - **巨头高管长期驻扎韩国**:微软、谷歌、Meta等公司的采购负责人为与三星、SK海力士签署供货合同,几乎长期驻扎韩国 [8] - **供应谈判陷入僵局**:SK海力士曾对微软表示,在其提出的条件下供货存在困难,导致一名微软高管愤然离席 [8] - **追加产能请求被拒**:谷歌因TPU需求超预期,试图向SK海力士与美光寻求追加HBM产能,但被告知“不可能” [8] - **引发内部问责**:谷歌管理层因认为采购负责人未能提前签署长期供货协议导致供应链风险,而将其解雇 [8] 行业探索新技术路径以应对内存瓶颈 - **英伟达的潜在战略布局**:英伟达与AI芯片初创公司Groq达成非排他性许可协议,并挖走其创始人、总裁及多名核心工程师 [10] - **Groq的LPU技术原理**:其LPU芯片未采用HBM,而是将SRAM直接集成在芯片内部作为主存储,单芯片内存带宽高达80TB/s,是传统HBM方案的20倍以上 [11] - **技术路径的优劣**:SRAM方案在带宽上具有巨大优势,但代价是功耗更高(一个标准机架满载功耗约26kW至30kW)且需要更多机架 [11] - **收购的潜在动机**:有观点认为,英伟达此举是为了对冲DRAM价格疯涨和产能短缺,探索新的内存技术路径 [11] - **SRAM的技术挑战**:SRAM成本高昂,且在与逻辑电路集成时才能发挥速度优势,在已非常巨大的Tensor Core芯片上增加大量SRAM单元会面临制造挑战 [14]
全异构、全异步的RLinf v0.2尝鲜版发布,支持真机强化学习,像使用GPU一样使用你的机器人!
机器之心· 2025-12-26 11:06
文章核心观点 - 公司发布了RLinf v0.2版本,这是一个面向“真机路线”的强化学习基础设施框架,旨在支持大规模分布式真机强化学习训练范式,以解决具身智能领域的数据效率与系统灵活性挑战 [2][4][9] RLinf v0.2 系统特色 - **特色1:将机器人抽象为可灵活配置的资源**:系统将机器人(Robot Node)视为与GPU(GPU Node)同层级的资源,用户只需编写YAML配置文件即可完成模型与机器人的映射对接,极大降低了使用成本 [5][6][9] - **特色2:支持全异构软硬件集群配置**:系统能够灵活配置端云协同的异构集群,例如在NUC上运行机器人控制器、在RTX 4090(24GB显存)上进行模型推理、在A800(80GB显存)上进行模型训练,以提升系统吞吐和训练效率 [11][12][13][14] - **特色3:支持全异步off-policy算法**:v0.2版本新增全异步设计,将端侧推理节点与云侧训练节点解耦,通过Data Channel进行数据同步,实现训推并行,并上线了SAC、CrossQ、RLPD等off-policy算法,以提高数据利用率和训练效率 [15][16] 实验验证与发布信息 - **实验设置**:尝鲜版基于Franka机械臂设计了两个快速验证任务:使用异步SAC算法的Charger(稠密奖励)任务和使用异步RLPD算法的Peg Insertion(稀疏奖励)任务,后者在训练前采集了20条人类操作数据作为离线数据集 [19] - **社区与开发进展**:自2025年9月1日发布以来,RLinf已拥有约2千位社区用户,并保持约每两周更新一次新功能的速度;面向仿真路线的RLinf v0.1版本已于2025年12月17日正式发布 [22] - **支持矩阵**:框架目前支持多种仿真器(如Maniskill、IsaacLab)、视觉语言动作模型(如Pi0、GR00T、OpenVLA)、自定义策略(如MLP、CNN)以及强化学习算法(如GRPO、PPO)等 [26]
无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%
机器之心· 2025-12-25 13:26
文章核心观点 - 决定AI性能上限的关键因素可能正从底座模型本身,转向外围的“推理编排”系统[1] - 初创公司Poetiq开发的“元系统”在不改变大语言模型的前提下,通过一套智能的Agentic System,显著提升了AI在复杂推理任务上的表现[1][15] - 该系统展示了强大的泛化能力,能够适配不同模型并实现跨版本、跨模型族的性能提升,为AI能力提升提供了新路径[15] Poetiq公司及其技术 - Poetiq是一家由6位研究员和工程师组成的初创公司,核心成员多来自Google DeepMind[12] - 公司开发了一套名为“元系统”的AI推理和自我改进系统,该系统不依赖特定大模型,可与GPT、Gemini、Grok等前沿模型配合使用[15] - 该系统采用迭代式推理过程,包含“迭代式问题求解循环”和“自我审计”两大核心机制,通过多步骤自我改进来构建和完善答案,并能自主判断终止时机以控制成本[16] 性能测试结果 - 在ARC-AGI-2测试集上,GPT-5.2 X-High结合Poetiq系统在PUBLIC-EVAL数据集上的成绩达到75%,比之前的SOTA高出约15%[3] - 每个问题的解决成本低于8美元[3] - 在测试中,X-High版本比High版本成本更低,原因是能更快收敛到正确答案[11] - 系统处理问题的时间范围较广,最简单问题约8-10分钟完成,最难问题需在12小时时限内终止[9] 技术特点与行业意义 - 该系统的核心优势在于“模型交换”能力,无需对系统或模型进行大规模调整或重新训练,即可切换不同模型应对不同任务[7] - 系统所有适配工作在新模型发布前完成,且未直接接触过ARC-AGI任务集,表明其对推理策略具有良好的泛化能力[15] - 行业评论认为,在模型之上构建智能而非在模型内部构建,是“非常高明”的做法,意味着可以在几小时内适配新模型,并捕捉到推理过程本身的基本规律[15] - OpenAI总裁Greg Brockman转推确认,GPT-5.2在ARC-AGI-2上超越了人类基准成绩[8]