ACL 2026 综述:从事后解释到内生解释,大模型内生可解释性的前沿进展
机器之心· 2026-04-30 12:52
论文链接:https://arxiv.org/pdf/2604.16042 github 链接:https://github.com/PKU-PILLAR-Group/Survey-Intrinsic-Interpretability-of-LLMs 这几年,大语言模型越来越强,但一个老问题始终没有消失:我们到底能不能真正理解它为什么这样回答、为什么这样推理,又为什么会在某些场景下犯错 甚至失控? 过去,主流做法大多是 事 后解 释(post-hoc interpretability) 。也就是说,先训练出一个性能很强但内部复杂的模型,再用特征归因、探针、 LogitLens、稀疏自编码器、因果干预等方法,从外部去分析它。这样的研究非常重要,也确实帮助我们看到了不少模型内部规律。但它有一个根本局限: 很多解释并不是模型真实计算过程本身,而是对这个过程的近似、投影或重建。论文中将这种问题概括为解释与真实计算之间的忠实性差距 ( fidelity gap )。 也正因为如此,越来越多研究者开始把目光转向另一条路线: 内生可解释性(intrinsic interpretability) 。它追求的不是在模型训练完之 ...
Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式
机器之心· 2026-04-30 12:52
编辑|泽南 这一次,具身智能的范式算是彻底升级了。 智元机器人的办公室里,最近员工们一上班就能看到机器人熟练地切着水果: 有梨有黄瓜,一通操作完了之后装进破壁机,打成了健康饮料端上来: 同样一套设备也能玩转调酒的全套流程: 或是做工夫茶、整理商品货架、打包鞋盒等各种任务: 之前每台机器人只能完成一个任务,现在基于同一个模型的机器人可以承接大量不同任务。而且,在真实世界中持续部署的过程中,它们的性能还会持续不 断地提升。 这么全面的能力是如何做到的?答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式: 面向通用机器人策略的分布式 多机强化学习(LWD) 。这一套技术捅破了当前VLA的「天花板」。 LWD 启动物理世界的飞轮 最近一段时间,VLA(视觉 - 语言 - 动作)大模型出现,通过端到端的训练范式让机器人具备了通用泛化能力:只需要收集图像数据,读取人类自然语言 指令,大模型就能将视觉和语言转化为空间特征,直接输出机械臂各个关节的角度和速度,进而完成任务。 但在物理世界里,VLA 具身智能的表现仍然算不上可靠。在长程任务和复杂条件上,机器人频频翻车。工程师往往只能将失败的案 ...
哈萨比斯出的难题,GPT之父接上了:用一个知识停在1930年的模型
机器之心· 2026-04-30 12:52
项目概述 - 研究团队进行了一个有趣的项目,使用1931年以前的数据训练了一个130亿参数的模型“Talkie”,并与这个模型对话以探索其知识边界[5] - 该项目旨在测试一个AI模型是否真正理解了某些能力,还是仅仅在重复训练数据里的答案,Talkie-1930被用作一个诚实的参照系[8] - 该项目的一个深层动机是回应DeepMind创始人Demis Hassabis提出的关于AGI的硬核判定标准:一个训练数据截止到1911年的模型,能否自己推导出爱因斯坦1915年提出的广义相对论[1][16] 模型构建与数据 - Talkie的训练数据全部来自1931年以前的英文文本,包括书籍、报纸、期刊、专利、法律文书,总计2600亿个token[10] - 选择1931年作为截止点是因为在美国,此前的作品已进入公共领域,可以合法使用[10] - 训练一个复古模型面临“时间泄漏”的挑战,即1930年以前出版的作品可能包含后来添加的现代内容,早期版本曾因此出现问题[27] - 数据质量是另一个问题,历史文本的OCR识别质量较差,使用传统OCR转录文本训练的模型性能只有人工转录版本的30%,清洗后能回升到70%但仍存差距[29] - 团队正在开发一套专门针对历史文献的OCR系统,并希望将语料库扩展到超过1万亿个历史文本token,以创建一个功能与最初ChatGPT类似的GPT-3.5级别模型[29][33] 实验设计与发现 - 研究者让Claude Sonnet 4.6全天候与Talkie-1930聊天,对话记录公开[10] - 通过分析《纽约时报》“历史上的今天”近5000条描述,测量Talkie的惊讶度,结果显示1930年之前的事件其惊讶度低,之后明显爬升并在五六十年代达到顶峰[14] - 在编程能力测试中,使用HumanEval评估Talkie,让其根据随机挑选的Python函数示例编写新函数,模型在该任务上的表现随规模扩大而缓慢稳定提升[17][18] - 与现代网页数据训练的同等规模模型相比,Talkie在编程任务上仍有很大差距,其答对的题目仅限于极简单的单行程序或对示例的小幅改动[20] - Talkie在理解“逆函数”等抽象概念上显示出潜力,例如通过将示例中的加号改为减号,正确写出了旋转密码的解码函数[20] 研究动机与深层问题 - 第二个研究动机是解决模型能力评估中的“污染问题”,即难以区分模型是真正“会”还是仅仅记住了训练数据中的答案,Talkie因完全不知晓现代知识而天然绕开了此问题[17] - 第三个动机是探究数据多样性问题,当前主流大模型训练数据均源于互联网,其相似性可能影响对语言模型普遍规律的研究,Talkie提供了一个不同的数据视角[23] - 为了直观衡量Talkie,研究者训练了一个架构完全相同但使用现代网页数据集FineWeb的“现代孪生”模型进行对比[24] - 在过滤掉对Talkie“超纲”的测试题后,两个模型在语言理解和数字计算上的表现差距缩小了一半,剩余的差距可能源于历史文本OCR质量差和语料主题分布不同[24][25] 模型对齐与未来方向 - 对Talkie进行指令微调面临挑战,使用现代对话数据微调会使其失去时代特征,早期版本在强化学习后说话风格变得现代[31] - 团队从历史文本本身入手,使用礼仪手册、书信范文等旧书生成指令-回复对,构建了一套后训练流程,并使用现代AI(Claude)作为裁判进行打分,训练结束时平均分从2分升至3.4分(满分5分)[31] - 研究者承认使用现代AI做裁判本身就是一种“时代污染”,彻底干净的做法应使用Talkie的基础模型来评价其对话,这是他们下一步想尝试的方向[33] - 目前团队正在训练一个GPT-3级别的模型,并计划在今年夏天发布[33]
【华创医药】澳华内镜深度研究报告系列四:布局ERCP手术机器人,打开成长新空间
华创医药组公众平台· 2026-04-30 12:51
ERCP手术机器人锚定临床痛点,应用前景广阔。 ERCP手术是胆胰疾病诊疗的"金标准",但我国 ERCP手术渗透率仍不足10%,相较美国50%的渗透率水平,仍有较大提升空间。具体来看, 阻碍我 国ERCP手术渗透率提升的临床痛点包括: 1)ERCP手术依赖X射线造影,术中辐射大,且ERCP手术 需要医生穿戴10-15kg的铅衣站立操作,医生身体负担重;2)ERCP手术被分类为最高难度的四级手 术,且学习曲线长,我国具备成熟手术能力的医师团队较少,医生资源短缺;3)许多基层医院仍然 缺乏开展ERCP手术的能力。 ERCP手术机器人能够针对性解决临床痛点,促进手术渗透率提升: 1) ERCP手术机器人可以降低医生90%+的术中辐射量,且医生可以无负重坐姿操作;2)通过解决术中 辐射大+医生身体负担重的痛点,能够有效缓解ERCP领域资深专家过早因身体原因退出临床一线的问 题,同时手术机器人的应用可以显著降低ERCP手术难度,缩短新医生学习曲线,缓解我国ERCP医生 资源短缺;3)ERCP手术机器人的远程操作功能有望突破医生层面的地域壁垒,助力ERCP手术在基 层医院普及 。 据测算, 2030 年我国 ERCP 手 ...
国产镀层一哥赴港IPO
是说芯语· 2026-04-30 12:49
行业概述与市场地位 - 电子封装湿制程镀层材料是半导体、PCB制造中不可或缺的关键核心耗材,用于芯片封装电路导通连接和元器件防氧化防腐保护,适配新能源车、AI服务器、消费电子、工业控制等全品类主流终端领域,下游需求刚性强,行业整体需求基数大、发展稳定性强 [3] - 国内湿制程镀层材料市场早年长期被海外国际大厂垄断,半导体高端封装所需核心材料高度依赖进口,本土厂商早期技术积累薄弱,仅能布局低端PCB基础镀层材料领域 [3] - 行业技术门槛高、研发认证周期长,市场集中度偏高,头部企业优势明显,参与者分为海外传统老牌厂商和以创智芯联为代表的国内本土厂商 [5] - 按2024年收入规模统计,创智芯联已是国内本土湿制程镀层材料及一站式镀层方案龙头企业,本土市场地位稳固 [5] 行业增长驱动力与国产替代 - 近几年国内半导体产业链自主可控进程全面提速,叠加先进封装、功率半导体、高端PCB产能持续向国内集聚转移,本土镀层材料行业迎来千载难逢的替代窗口期,行业整体规模稳步扩容,长期增长确定性十足 [3] - 国产替代逻辑清晰:政策端持续扶持半导体及电子材料国产化,下游客户主动推进供应链去进口化;本土厂商产品技术已实现突破,关键指标达标甚至优于海外产品;本土企业交付周期短、售后响应快、定制化灵活,对比海外厂商有明显竞争优势 [6] - 国产替代节奏呈现梯度推进特征:低端PCB镀层材料已基本完成国产替代;中端封装基板、常规芯片封装镀层材料替代正在全面提速;高端晶圆级先进封装、碳化硅功率半导体配套镀层材料替代处于初期突破阶段,是未来的核心增量增长空间 [6] - 行业国产替代是长期不可逆的产业大方向,本土龙头企业成长确定性极强 [6] 公司竞争优势与发展前景 - 创智芯联作为本土优质厂商代表,近些年技术快速突破,产品性能、工艺适配能力已追上国际水准,性价比和本地快速服务优势突出,正在持续抢占海外厂商市场份额 [5] - 公司卡位优势显著,技术和客户基础扎实,乘着国产化替代的行业东风,叠加IPO募资扩产、研发加码赋能,后续有望持续替代海外厂商份额,持续享受行业成长与国产替代双重红利 [9] - 湿制程镀层材料行业赛道优质、需求稳健,国产替代空间广阔、推进节奏持续加快,公司长期发展成长路径清晰明朗 [9]
Why Samsung stock is falling after its best quarter in history?
Invezz· 2026-04-30 12:49
文章核心观点 - 三星电子在2026年第一季度创下历史最佳季度业绩 其营业利润达到57.2万亿韩元 营收达到133.9万亿韩元 主要由人工智能数据中心支出驱动的芯片业务盈利激增所推动[4][5] - 尽管业绩创纪录 但三星股价在财报发布后由涨转跌 当日下跌1.3% 不过该股年内已累计上涨88%[16] - 公司管理层对AI驱动的需求持续表示乐观 并已开始为英伟达Vera Rubin平台量产HBM4芯片[1][6][11] 财务业绩表现 - **整体业绩**:2026年第一季度营业利润达到57.2万亿韩元 符合公司先前指引 较去年同期的6.69万亿韩元大幅增长 营收同比增长约70%至133.9万亿韩元 创下季度纪录[5] - **芯片业务**:芯片部门营业利润为53.7万亿韩元 占公司总营业利润的94% 较去年同期的1.1万亿韩元增长近50倍[5][6] 该季度利润已超过其2025年全年43.6万亿韩元的营业利润[7] - **其他业务**:移动和网络部门第一季度利润下降35%至2.8万亿韩元 显示面板部门营业利润下降20%至4000亿韩元[13] 人工智能与内存业务驱动因素 - **AI需求强劲**:业绩反映了AI驱动支出的强劲势头 公司预计随着数据中心建设持续制约内存供应 这一趋势将继续 已与客户签订多年期具有约束力的服务器内存供应合同[8] - **具体需求来源**:预计服务器内存需求将保持强劲 主要因Alphabet、Meta和亚马逊等超大型企业需满足企业采用大型语言模型的需求 以及自主运行的智能体AI将在今年下半年加速需求增长[9] - **行业价格与供应**:内存业务通过满足高附加值AI需求 克服了有限的供应可用性 创下季度销售纪录 行业范围内的内存价格上涨也是贡献因素[10] 美国主要科技公司持续的AI基础设施支出也强化了行业需求前景[10] 技术进展与竞争格局 - **HBM4量产**:公司已开始业界首批用于英伟达Vera Rubin AI加速器平台的HBM4芯片的量产销售 旨在进军数据中心和高性能计算市场[11] - **竞争态势**:此举标志着三星在努力缩小与SK海力士在高带宽内存领域竞争差距方面迈出重要一步[11] SK海力士上周也报告了创纪录的季度利润 并预测行业上升周期将延长[12] - **产品结构目标**:公司维持其目标 即超过一半的半导体收入将来自非内存产品 其晶圆代工业务有望在今年下半年恢复盈利[12] 其他业务挑战与展望 - **智能手机业务**:公司预计智能手机利润率将继续面临制造成本上升的压力 当前季度智能手机销量可能因旗舰机型发布带来的提振效应减弱而下降 但将维持其在中国市场中高个位数的市场份额[14] - **显示面板业务**:显示面板业务的利润率预计将走低[14] - **宏观环境**:公司指出 尽管AI行业增长将带动半导体需求增加 但IT产品成本上升将带来相互冲突的商业环境 并将继续监控中东冲突 该冲突因其对进口能源的高度依赖而对原材料和能源供应链构成风险[15]
Oil Price Forecast: Hormuz Crisis Keeps Brent and WTI in Breakout Mode
FX Empire· 2026-04-30 12:47
地缘政治与供应中断 - 美国总统与石油公司讨论如何最小化伊朗港口可能被长期封锁的影响 这加剧了市场对封锁时间将超过最初预期的担忧 [1] - 霍尔木兹海峡是核心问题 作为全球重要航运通道 其被封锁导致供应迅速恢复的可能性很小 [1] - 伊朗对大多数海湾航运以及美国对伊朗航运的封锁 共同阻碍了供应恢复 [1] 供应缺口与OPEC+行动 - OPEC+可能考虑在周日小幅增加配额18.8万桶/日 但这通常不足以缓解价格压力 [2] - 当前的供应缺口远大于此次配额增幅 如果海湾出口不增加 更多的“纸上”配额可能无法快速转化为实际供应 [2] - 阿联酋退出OPEC增加了长期不确定性 可能削弱OPEC对价格的影响力 [3] 生产恢复与价格前景 - 专家预计阿联酋退出事件不会影响今年的基本面 因为冲突已经影响了生产和出口 [3] - 海湾国家可能需要数月时间才能将产量恢复到战前水平 [3] - 这意味着在霍尔木兹海峡关闭和港口封锁问题解决之前 油价可能持续得到支撑 [3] 技术分析与价格走势 - 从技术角度看 布伦特原油在长期支撑位90美元获得支撑后 再次触及120美元 [4] - 短期价格走势依然非常看涨 很可能在未来几个交易日推动油价向130美元迈进 [4] - 下降扩散楔形形态的出现 随后在90美元上方突破并回撤至90美元附近 表明石油市场存在持续的看涨动能 [4]
BWX Technologies: Great Company But Priced To Perfection (NYSE:BWXT)
Seeking Alpha· 2026-04-30 12:45
公司概况与业务 - 公司BWX Technologies主要为美国海军提供核解决方案 [1] - 公司拥有高度差异化的生产工艺和竞争壁垒 [1] 股票表现与估值 - 公司股票年初至今表现强劲,涨幅近21% [1] - 股价上涨伴随着估值倍数的扩张 [1] 研究机构与方法论 - 研究机构Passage Research专注于通过基本面分析与另类数据结合来识别市场认知差异 [1] - 其研究过程结合了详细的财务模型与实时数据集,以评估盈利潜力、利润率的持续性以及未来预期 [1] - 研究覆盖范围通常包括消费、科技媒体电信、工业和特殊状况等领域,并侧重于非对称的风险回报和由催化剂驱动的机会 [1]
Caixabank's Q1 net profit rises 7%, unveils 500 mln eur buyback
Reuters· 2026-04-30 12:44
公司财务表现 - 公司第一季度净利润同比增长7% [1] - 净利润增长主要得益于保险业务和费用收入的增加 [1] - 保险业务和费用收入的增长抵消了银行业务的负面影响 [1]
Alaris Provides Clarifying Amendments to Unitholder Meeting Matters
Globenewswire· 2026-04-30 12:43
公司治理与股东会议案 - 公司宣布将于2026年5月7日举行的年度特别单位持有人会议前,修订其股权薪酬计划 [1] - 会议将提请单位持有人审议并批准多项决议,包括:批准截至2029年5月7日可依据RTU计划发行的所有未分配限制信托单位;批准对RTU计划的某些修订;以及批准信托总普通回报参与计划的库存股部分 [2] - 在与各相关方讨论后,公司决定对RTU计划和TCRP计划进行修订,以明确任何允许酌情引入或重新引入非雇员受托人、或提高先前对非雇员受托人参与限制的计划修订,均需获得单位持有人批准 [3] - 修订后的RTU计划修正案决议和TCRP计划决议的详细文本将在会议上提交给单位持有人审议批准 [4][5][6][12] - 显示拟议修订的RTU计划和TCRP计划修订重述版本将在公司的SEDAR+资料中公布 [7] - 公司董事会建议单位持有人对RTU再批准决议、RTU计划修正案决议和TCRP计划决议投赞成票,管理层代理人也计划如此投票 [8] - 多伦多证券交易所已对修订重述后的TCRP计划和RTU计划给予有条件批准,但需在会议上获得单位持有人的批准 [9] 股权薪酬计划具体修订内容 - 修订后RTU计划修正案决议规定:可依据限制信托单位计划从库存中预留发行的信托单位最大数量增加至已发行流通信托单位的**3.5%**;可依据所有基于证券的薪酬计划在任何时候向内部人士发行的信托单位最大数量增加至已发行流通信托单位的**4.5%**;在任何一年期间内向内部人士发行的信托单位最大数量增加至已发行流通信托单位的**4.5%** [5] - 修订后TCRP计划决议规定:根据TCRP计划可预留发行的信托单位最大数量在任何时候不得超过信托单位总流通量的**1%**;批准截至2029年5月7日可依据TCRP计划发行的所有未分配信托单位 [12] 公司业务概述 - 公司通过其子公司,主要采用结构性股权方式投资于一个不断增长且多元化的私营企业组合,旨在为单位持有人提供稳定、可预测的回报,并推动长期价值创造 [10] - 除了产生稳定的现金分派,公司旨在通过普通股头寸获取资本增值,该增长导向型策略使其利益与创始人利益一致,并能分享其持续成功的上行收益 [10]