Workflow
量子位
icon
搜索文档
2026年OpenAI最看好的3个方向
量子位· 2026-01-21 12:09
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI最新播客释出—— 首席财务官Sarah Friar&著名投资人Vinod Khosla聚在一起,聊了聊 2026年的AI趋势 。 信息量很大,比如说明年将会是多智能体正式登场的一年、AI行业如何用算力换收入、大模型能力的上限突破,以及对医疗健康和具身智能行 业的变革影响…..应有尽有。 不过u1s1,此时公开这样一份访谈,其中意味不言而喻: 不仅是回应OpenAI近期的舆论,也是为投资者们打下定心剂, "AI不是泡沫,OpenAI值得投资" 。 潜台词就是,在为OpenAI即将到来的 IPO 铺路。而这也将是OpenAI2026年的重中之重。 如果说2025年AI发展围绕着Agent和Vibe Coding,那么2026年将会是多智能体系统走向成熟并产生实际影响的关键节点。 在企业层面,多智能体系统将能够处理一系列完整的复杂任务,比如运行企业资源规划系统 (ERP) 、日常对账和实时跟踪合同执行情况 等。 除去OpenAI的自述,其中对于行业的宏观视角也相当有趣,一些核心观点包括: 2026年将会是真正的智能体之年。 算力与收入之间存在明显的正 ...
MiniMax把自家“实习生”放出来了!
量子位· 2026-01-20 21:04
文章核心观点 - AI Agent正从割裂的工具进化为深度嵌入工作环境、理解完整职业上下文的“长期合伙人”,其核心在于直接交付最终结果的能力 [1][2][3] - MiniMax推出的AI原生工作台Agent 2.0,通过Desktop App与Expert Agents两大载体,旨在实现这一愿景,将内部已验证的高效工作流产品化并开放给外部用户 [4][40][41] Agent 2.0的核心组件与能力 - **Desktop App:打通云端与本地,具备强大执行力** - 核心逻辑是将云端模型能力连接到本地电脑,能直接读取本地文件与操控网页,介入实际工作流 [5][6][7] - 可主动调取本地资源处理任务,例如处理人才库表格、审核历史合同、调用创作素材,使用户无需手动搬运信息 [7][8] - 通过实际案例验证能力:能独立联网调研20款Micro-SaaS产品,自动检索其盈利模式、流量来源等信息,并将结果填回本地表格 [9][10][11][12] - 执行复杂任务时采用分组搜索的“串并联混合”方式,平衡速度与并发 [15] - 能基于调研数据自动生成图文并茂的深度调研报告,并调用专家模块生成完整的PPT文档 [12][20][22][28] - **Expert Agents:注入私有知识,成为垂直领域专家** - 专注于让AI适应具体任务场景,解决通用模型在处理高度专业化任务时的不足 [24][25] - 用户可将私有知识库(如SEO玩法、量化交易策略)注入Agent,使其产出符合特定标准的高质量结果 [26] Agent作为“长期合伙人”的三大核心能力 - **记忆的连续性**:理想的Agent应像老练的同事,能逐渐理解并记住用户的工作偏好与习惯,而非每次对话都重新开始 [31][32] - **对隐性经验的消化能力**:Agent需能将行业标准与团队内部操作流程内化为本能,直接交付符合团队标准的专业成果 [33][34] - **对业务环境的敏锐嗅觉**:Agent应连通业务系统,主动感知环境变化并实时响应,这是区分演示工具与实战工具的关键 [35] Agent在MiniMax内部的实际应用案例 - **全球商务组**:Agent能快速处理涉及20个不同国家潜在客户的名单,自动进行背景调查并生成20封定制化的破冰邮件 [36] - **设计组**:设计师可通过“Vibe Coding”直接指挥Agent修改代码,例如调整官网字体,无需等待前端排期 [37] - **产品经理**:Agent能像侦探一样介入调查用户投诉(如积分消耗异常),查明原因(用户上传37个超大文件)并主动拟定安抚方案与邮件草稿 [37] - **研发部门**:Agent能通读晦涩的运维手册,在系统报警时自动分析并给出建议;能像技术负责人一样自动拆解需求列表,接管基础代码的编写与测试 [38][39][40]
豆包的新身份曝光:在国际艺术展当起了“AI讲解员”
量子位· 2026-01-20 18:04
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 前两天听同事说豆包在浦东美术馆接活儿了,不光带人 逛展 ,还包 讲解 的那种。(震惊.jpg) 我一听立马就不困了:AI讲解?还是豆包?有这新鲜事儿,咱高低得到现场围观一下啊! 于是我火速 翘班 找老板请假,打了趟飞的,直接闪现「AI与艺术」豆包讲解体验日活动现场。 but,进馆没多久我就意识到一个现实问题:我对这些展品的理解,基本为零…(纯·一点艺术细胞都没有) 既然如此,那就不为难自己了,索性直接摇豆包,一个 「视频电话」 打过去,藏品重点、展品背景全讲解得明明白白~ 此外活动现场还有个大彩蛋,浦美当场给豆包颁发了个 AI讲解员证书 ,真·官方权威认证了: 这一下午的展逛下来,脑子是真有点宕机了,我平时也没少用豆包,只是没成想,这AI啥时候都进化成这样了…… 实测"AI讲解员"豆包的业务水平 不知道大家跟我一不一样,对看展逛展这件事本身很感兴趣,可奈何自身没啥《艺术细胞》。 去是去了,但逛一圈下来感觉啥也没看懂……但!这回有「豆包」带着我逛可就不一样了。 这一次,咱势必要把这展看个明!明!白!白!正好看看这位AI讲解员的业务能力到底能不能打~ 这个AI ...
量子位编辑作者招聘
量子位· 2026-01-20 12:17
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位工作地点均在北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,如芯片、AI Infra、云计算领域动态及核心玩家[6] - 职责还包括对前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS、MLSys)报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦于创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布(如手机、PC、XR、车机等)[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并具备强逻辑、体验表达和结构化能力[11] 加入公司的优势 - 员工可以第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 可以将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 通过撰写独家原创内容,可以建立个人知名度,成为AI领域的意见领袖[6] - 可以与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业视野[6] - 应届新人会由主编级编辑担任mentor,提供一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱zhaopin@qbitai.com,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平和风格的作品[11]
从「能用」到「好用」:数据可视化的三个维度,你还在第一层吗?——人大提出图表创作新方式
量子位· 2026-01-20 12:17
文章核心观点 - 数据可视化领域正面临从“画出来”到“画得活”的范式转变,静态视觉表现力与动态叙事能力成为新刚需[2] - 当前行业存在三大痛点:视觉设计依赖手工、效率低下;动画实现门槛高、灵活性差;交互逻辑缺乏标准化、难以复用[2][5][6][7][9] - 中国人民大学IDEAS Lab与山东大学交叉研究中心提出了三个系统性解决方案:PiCCL(静态图表创作)、CAST/CAST+(可视化动画)、Libra(交互逻辑),旨在将难以复用的能力转化为可自由组合的系统[11][12][13] PiCCL:静态图表创作新范式 - 传统图表创作方法存在局限:模板表达能力有限、代码门槛高、专业设计软件依赖人工且难以复用[16] - 主流可视化库基于Grammar of Graphics理论,擅长统计图,但难以完成高度图形化表达所需的细粒度图形操作[16] - 转向图像编辑软件或大模型生成,分别面临手工劳动量大或结果不精确、无法修改的问题[17][18] - PiCCL提出以“图形本身”为第一公民,引入“图形运算符”进行图形操作,配合“约束”与“布局”机制实现自动对齐与组织[21] - 通过“编码运算符”将数据绑定到图形视觉通道,并抽象出“图形化对象树”,实现数据与设计解耦,图表可封装为可复用模板并进行模块级拼接[21] - 该方案在模板易用性与自由设计表达力、数据严谨性与图像编辑灵活性之间找到了新路径[23] CAST/CAST+:可视化动画的系统性重构 - 动画长期被视为“表现层”技术,缺乏对数据—视觉编码—时间结构内在关系的显式建模[24] - 团队提出Canis,一种为可视化动画设计的领域特定语言,将动画建模为“由数据驱动的时序结构”[26][28] - Canis核心设计包括:以数据对应图元为动画操作单位;显式描述选择、分组、时序、过渡关系;将动画语义层与实现层解耦[31][36] - 为降低语言门槛,团队进一步开发了CAST,将Canis抽象模型转化为图形化系统,实现动画的“可视化结构编辑”[35] - 针对复杂动画中多类标记交错的时序关系,团队提出CAST+,引入嵌套选择机制并重构关键帧系统,使如坐标轴与数据点交替呈现等复杂动画实现系统化生成[37] - CAST+将动画时序纳入数据映射体系,使动画参数直接绑定数据属性,推动动画创作转向结构化、数据驱动的交互范式[37] Libra:交互逻辑的组件化系统 - 当前可视化交互多基于回调函数堆砌,逻辑高度定制,难以组件化及跨图表、跨库复用[39] - Libra将交互视为一等公民,拆解为可组合部件:Instrument、Layer、Interactor、Service、Command[45] - 其工作流程为:事件经Instrument解释,由Interactor翻译为高层动作,Service执行,Command封装动作并天然支持撤销/重做,feedforward/feedback显示在对应层[42] - 该框架在服务层面内置实现了“撤销/重做”能力,解决了因服务不掌握内部状态而难以实现的问题[42] - 通过Libra,交互从“写在图里的技巧”升级为“可复用、可扩展、可组合的组件系统”[43] 未来展望 - 在PiCCL、CAST、Libra等可视化语言基础上,团队正探索利用大模型生成更高效的可视化[44]
首个真正“能用”的LLM游戏Agent诞生!可实时高频决策,思维链还全程可见
量子位· 2026-01-20 12:17
文章核心观点 - AI+游戏已成为行业重要趋势,近期“快递员”账号在《英雄联盟》韩服以93%胜率登顶的事件引发广泛关注,凸显了市场对游戏AI的高度兴趣 [1][2][4] - 超参数科技推出的全新大模型原生驱动游戏智能体COTA,标志着大模型+游戏从实验室走向现实,具备通用游戏潜力并已实现大规模商业化部署 [7][8][9][55][56] - COTA通过创新的“双系统分层架构”和专门的大模型选型,成功解决了游戏AI领域长期存在的“实时性、对抗性、可解释性”不可能三角问题 [35][36][59] - 该产品不仅为玩家提供高拟人化、高透明度的游戏体验,也为开发者提供了通用性框架,有望革新多类游戏玩法,并作为通用智能体的试验场推动AGI发展 [67][70][72][77] 行业趋势与市场动态 - AI+游戏赛道吸引了全球众多游戏厂商的关注和布局 [6] - 当AI Agent基础能力趋于成熟,行业已进入进一步突破Game AI能力边界的新阶段 [57] - 游戏场景是通用智能体的理想练兵场,因其复杂度接近现实世界,成本低、风险可控且可复现 [72][73] 公司产品:超参数科技与COTA 1. **产品定位与特点** - COTA是一款由大模型原生驱动、具备通用游戏潜力的智能体产品,强调认知、执行、策略和辅助 [9][10] - 产品设计目标是成为玩家的“游戏搭子”,通过思维链(CoT)实现决策过程可视化,建立玩家信任 [9][20][67][68] - 与依赖预设脚本的传统AI Bot或强化学习黑盒模型不同,COTA追求高智商与高透明度 [35] 2. **技术架构与创新** - **模型选型**:采用Qwen3-VL-8B-Thinking作为基座模型,在逻辑推理能力与实时响应效率间取得平衡 [39] - **双系统分层架构**:模拟人类快慢思考,拆分为负责战略的指挥官(Commander)和负责毫秒级执行的操作员(Operator) [40][41][43][47] - **训练管线**:包含基于思维链的监督微调(SFT)、大规模自我博弈的群相对策略优化(GRPO)以及与人类偏好对齐的DPO阶段 [50][51][52] - **性能指标**:将系统整体响应时间压缩到百毫秒级,最快可缩减至100ms,满足高强度对抗游戏的实时性要求 [53] 3. **实机性能表现** - 当前在FPS游戏Demo中展示,该类型游戏容错率低,对实时感知和决策要求极高 [12][13][14] - 智能体在急停拉枪、掩体博弈、投掷物使用、团队集火包抄等复杂操作上表现流畅自然 [28][29] - 在单人模式中能有效带领玩家,指令清晰,反馈及时,拟人化程度高,无明显机械感 [30][31][32] - 智能体依靠策略运营和类似人类的意识获胜,而非超越人类的反应速度 [33][34] 产品应用前景与行业影响 1. **对游戏体验与设计的革新** - **MMORPG**:使NPC成为具备严密逻辑和长期记忆的数字生命,提升互动质量与沉浸感 [60][61][62] - **MOBA**:AI可成为战术大师,通过逻辑严谨的战略与玩家博弈,提供趋近真人玩家的对战体验 [63] - **SLG**:重构策略深度与沉浸感,让AI对手更聪明,队友更懂行,战斗更真实 [64][65][66] - **商业价值**:提升玩家长期留存率,拉动转化,为游戏厂商在存量竞争时代提供商业竞争优势 [68] 2. **对开发者的价值** - 为开发者提供一套面向未来、具备高通用性潜力的游戏智能体框架 [70] - 打破技术壁垒,使开发者无需为每款游戏单独打造AI,可高效将大模型Agent技术应用于多类产品中 [70] - 推动行业从代码预设向智慧涌现的范式转变 [71] 3. **对通用人工智能(AGI)的意义** - COTA验证的“双系统分层架构”可为现实世界问题(如具身智能)提供解题思路,解决高层语义理解与底层运动控制的协同难题 [74][75] - 展示了如何让“LLM大脑”处理复杂推理,同时让“LLM小脑”完成毫秒级精准执行,该能力可迁移至大量现实问题 [76] - 作为“从仿真到现实”技术路线的枢纽,可带动通用人工智能加速演进,其突破也将反哺并重新定义下一代游戏Agent [77]
智谱新模型也用DeepSeek的MLA,苹果M5就能跑
量子位· 2026-01-20 12:17
文章核心观点 - 智谱AI在上市后发布了其GLM-4系列的最新轻量级模型GLM-4.7-Flash,该模型采用创新的混合专家架构,在保持高性能的同时显著降低了计算成本,并已免费开放API调用 [1][2] 模型发布与定位 - 新模型为开源轻量级大语言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,其API已免费开放调用 [2] - 该模型是去年12月发布的旗舰模型GLM-4.7的轻量化版本,继承了GLM-4系列在编码和推理上的核心能力,并针对效率进行了专门优化 [7] - 官方定位该模型为“本地编程与智能体助手”,并推荐将其用于创意写作、翻译、长上下文任务及角色扮演场景 [4][8] 模型架构与技术细节 - 模型采用混合专家架构,总参数量为300亿,但实际推理时仅激活约30亿参数,大幅降低了计算开销 [4][10] - 模型首次采用了MLA架构,这一架构此前由DeepSeek-v2率先使用并验证有效 [12] - 从具体结构看,模型深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但采用64个专家而非128个,激活时只调用5个 [13] - 模型配置细节显示,其最大位置嵌入为202,752,隐藏层数为47,词汇量为154,880 [12] 性能表现与评测 - 在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得59.2分,在“人类最后的考试”等评测中也显著超越同规模的Qwen3-30B和GPT-OSS-20B [4] - 经开发者实测,在配备32GB统一内存和M5芯片的苹果笔记本上,模型推理速度能达到每秒43个token [17] 部署与生态支持 - 模型发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0支持 [14] - 官方在第一时间提供了对华为昇腾NPU的支持 [16] 定价策略与市场对比 - 在官方API平台上,基础版GLM-4.7-Flash完全免费,高速版GLM-4.7-FlashX价格也相当低廉 [18] - 根据定价表,GLM-4.7-Flash的输入、缓存输入、存储和输出费用均为免费 [19] - 对比同类模型,GLM-4.7-Flash在上下文长度支持和输出token价格上有优势,但目前延迟和吞吐量还有待优化 [19]
谷歌新发现:DeepSeek推理分裂出多重人格,左右脑互搏越来越聪明
量子位· 2026-01-20 12:17
文章核心观点 - 谷歌最新研究表明,以DeepSeek-R1为代表的顶尖推理模型,其解题过程并非单一思维,而是内部自发“分裂”出多个具有不同性格的虚拟人格进行“脑内群聊”或“左右脑互搏”,这种多角色对话式推理是模型在追求准确率过程中自发形成的,并能显著提升其在复杂任务上的表现[1][13] 模型推理的“多角色对话”现象 - 研究发现,模型在推理时内部会自发形成性格迥异的虚拟人格,如外向型、严谨型、多疑型、创意型、批判型、执行型等,这些角色覆盖了提出新颖思路、挑错补漏、落地验证等不同解题角度[1][8][9] - 模型的推理过程充满了对话感,如同不同人格在进行一场社交或辩论会,通过观点碰撞让模型更全面地审视解决方案[7][11] - 这种内部观点冲突的激烈程度与任务难度正相关,在处理GPTA graduate-level科学问题、复杂数学推导等高难度任务时更为激烈,而在处理布尔表达式、基础逻辑推理等简单任务时,脑内对话会明显减少[4][5] 研究团队的解码方法与实验证据 - 团队借助稀疏自编码器对AI推理的“黑盒”进行解码,通过提取隐藏层神经元激活数值,并利用SAE的稀疏约束机制,将杂乱的非线性信号拆解为“自问自答”、“切换视角”等独立的对话语义特征,从而“监听”到AI的脑内群聊并识别出不同的内部逻辑实体[14][15][16][17][18] - 通过对比发现,推理模型(如DeepSeek-R1)的对话式行为出现频率显著高于普通指令模型(如DeepSeek-V3、Qwen-2.5-32B-IT)[19] - 关键实验发现,当通过激活添加法强化模型的对话特征,特别是放大“哦!”这类表达惊讶、转折的话语标记时,模型在Countdown算术推理任务中的准确率直接从27.1%翻倍至54.8%[21] - 强化学习训练证据表明,即使不提供任何对话结构训练信号,仅奖励答对题目的行为,模型也会自发学会用对话式思考[23] - 若先通过多智能体对话数据对模型进行微调,再进行推理训练,其进步速度远快于直接训练推理或用独白式推理数据微调的模型[24] - 在Qwen-2.5-3B和Llama-3.2-3B两个模型体系中,早期训练阶段,经过对话微调的模型准确率比独白微调模型高出10%以上,在Llama-3.2-3B模型训练后期,这一差距甚至扩大到22%[24] 现象的意义与类比 - 这种AI内部的多角色互动现象并非开发人员刻意设计,而是模型在追求推理准确率过程中自发形成的[13] - 这一发现与人类演化生物学中的“社会脑假说”相呼应,该假说认为人类大脑的进化主要是为了应对复杂的社交关系和群体互动需求,如今看来,AI为了变聪明,也需要学会和不同“人格”社交[26][27][28] - 网友评论也指出,人类在思考时同样存在“左右脑互搏”的现象[12]
算力越高收入越多!OpenAI率先验证AI商业Scaling Law:最新收入200亿美元
量子位· 2026-01-20 09:34
公司财务与增长飞轮 - 年化经常性收入从两年前的20亿美元暴涨至200亿美元,三年内增长10倍 [2][13] - 2023至2025年间,算力增长9.5倍,收入增长10倍,呈现同步猛涨趋势 [3][13] - 公司构建了“算力投资→模型能力提升→产品优化与采用增加→收入增长→支撑下一轮算力投入”的强化循环 [9][12][24] - 2024年公司用于计算资源的支出高达70亿美元,主要用于向微软租用云算力 [21] - 为维持增长飞轮并考虑长远未来,公司已开始投入大量资金自建GW级别的AI数据中心 [18][19] 商业模式与收入构成 - 商业模式随智能创造的价值扩展,从免费ChatGPT发展到订阅服务、平台型API业务以及广告 [27][28] - 推出广告是为了在商业和交易场景中为用户提供决策支持,未来收入增长还将依赖订阅分层和与生产工作负载挂钩的按量计费API [29][30] - 随着智能体在科研、药物发现、能源和金融等领域的渗透,预计将出现更多新型商业模式 [31] 硬件产品进展 - 公司首款硬件设备预计将在2026年下半年推出 [8][34] - 多方爆料表明该硬件很可能是一支无屏AI智能笔,体积接近iPod Shuffle [37] - 硬件推出的目的是为了加固“收入-算力”循环,其发布时间的推进可能与收入增加和算力增长有关 [32][42][43] 行业对比与规模 - 与Claude母公司相比,公司规模总量明显更大:2025年算力达1.9GW,年化经常性收入超过200亿美元 [14][17]
定位大模型「作弊」神经回路!新研究首次揭示:虚假奖励如何精准激活第18-20层记忆
量子位· 2026-01-20 09:34
核心观点 - 研究发现,大模型在虚假奖励信号的强化学习训练中,其准确率的提升并非源于推理能力的增强,而是通过激活模型内部的记忆捷径,更高效地检索训练数据中的污染知识[1] 核心发现:困惑度悖论 - 在虚假奖励的强化学习训练过程中,模型对答案的困惑度持续下降,但对问题提示的困惑度却不降反升,这一反常现象被命名为“困惑度悖论”[2][3] - 这表明模型牺牲了对输入问题的一般语言理解能力,以换取对特定答案的精准记忆[6] 关键记忆节点定位 - 通过路径修补技术发现,模型第18至20层是决定性的“功能锚点”,它们注入了检索记忆答案的关键信号[9][10] - 通过JSD分析量化各层贡献,发现第21-22层的MLP子组件贡献值达到顶峰,但随后其因果贡献变小,这些层被命名为“结构适配层”,负责调整内部表征以容纳来自锚点层的信号[11][14][15] - 通过Logit Lens观察,目标答案在第19层首次以高概率出现,在第23层概率激增,证实MLP持久地存储记忆,成功检索的关键在于锚点层的信号强度[18][20] 记忆激活的动态过程 - 通过神经微分方程建模,计算泄露样本与正常样本在隐藏状态演化方向上的差异,发现“分离力”在第18-20层达到峰值,这是模型决定走推理路径还是记忆捷径的关键决策点[21][23] 机制干预与主动控制 - 通过缩放MLP中任务相关神经元的激活值,可以双向操控模型对污染知识的依赖:在第18层放大激活可使泄露样本准确率提升4.4%,抑制则使其下降3.8%,而在干净数据集上无系统性影响[25][26] - 干预实验揭示了两种模式:剂量依赖调制和二元通路激活,表明研究不仅能理解机制,还能对其进行操控[28][30] 跨模型对比与特异性 - 在Qwen3-8B、LLaMA-3.1-8B和OLMo-2-1124-7B上的对比实验表明,困惑度悖论、锚点层特征等发现是Qwen模型在特定架构下数据污染被激活的特异性标志,其他模型未表现出相同模式[31][32][35] 研究意义 - 为评估强化学习效果提供了新的检测工具:宏观上可利用困惑度悖论作为记忆激活的信号,微观上可通过锚点层激活模式诊断数据污染,并利用神经元缩放测试性能来源[36] - 为数据污染检测打开了新思路,表明即使不知道具体污染数据,也能通过模型内部的神经激活模式识别记忆依赖,为“内部污染检测”提供了新范式[37][38] - 为可控的去污染方法开辟了新路径,通过抑制特定神经元,可以在不重新训练的情况下削弱模型对污染知识的依赖,同时保留通用推理能力[39][41]
量子位 - 财报,业绩电话会,研报,新闻 - Reportify