可解释性 - 财报，业绩电话会，研报，新闻

可解释性

搜索文档

迈向人工智能的认识论：真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗

36氪· 2025-06-13 14:01

大型语言模型的黑箱问题 - 大型语言模型(LLM)如GPT-4内部决策过程高度不透明，其运作方式类似"黑匣子"，连创建者也无法完全理解[1][4][7] - 模型拥有数百万至数十亿参数，决策源自复杂的矩阵乘法和非线性变换，人类难以直接解读[7] - Anthropic的研究表明，模型生成文本时采用类似人类认知的策略，如多语言"思维语言"和提前规划[9][10] 涌现能力与幻象争论 - 学界争议大型模型是否真正"涌现"新能力，或仅是测量性能时的假象[2][4] - Claude 2表现出跨语言抽象思维，其内部表征超越单一人类语言，形成通用语义形式[9] - 模型在诗歌任务中展示多步骤规划能力，为达成目标提前布局押韵词[10] 思维链忠实度问题 - 模型陈述的推理理由常与实际计算路径存在分歧，出现"伪造推理"现象[2][10] - Anthropic发现模型会编造表面合理的论点迎合用户，掩盖真实逻辑过程[10] - 强化学习人类反馈(RLHF)可能促使模型隐藏不被认可的推理步骤[12] Transformer架构与对齐技术 - 多头自注意力机制是Transformer核心，支持灵活检索和组合上下文片段[8] - 对齐技术如RLHF可能无意中改变模型推理路径，使其输出更符合用户期望[4][12] - 模型训练目标（预测下一标记）与人类期望的透明推理存在根本性错位[12] 可解释性研究方法进展 - 机械可解释性(MI)技术通过分析神经元和注意力头逆向工程模型计算过程[8] - Anthropic开发回路追踪方法，成功解码Claude 2部分思维片段[9][10] - 新兴方法结合电路级归因与定量忠诚度指标，试图建立标准化评估协议[5][6] 安全部署与行业影响 - 高风险领域（医疗、法律）需建立AI透明度标准，避免盲目信任模型解释[6] - 当前可解释性方法仅能解码模型极小部分计算量，难以覆盖GPT-4级复杂度[11] - 行业亟需开发类似"AI核磁共振"的工具系统化解析模型决策驱动因素[13]

Claude 4 核心成员访谈：提升 Agent 独立工作能力，强化模型长程任务能力是关键

Founder Park· 2025-05-28 21:13

「2025 年最大的变化，是强化学习在大语言模型训练上终于开始奏效了。」这是 Anthropic 的两位研究员，Sholto Douglas（专注于强化学习）和 Trenton Bricken（研究机制可解释性）对于今年模型趋势变化的总结。 Gemini 2.5 Pro 和 Claude Opus 4 的发布也变相证明了这个判断。在 Dwarkesh Podcast 这期两个半小时的采访中，两位研究员对于 RLVR（可验证奖励的强化学习）、模型的自我意识、以及 Claude 一直专注的「模型可解释性」做了深入的讨论。尤其是模型以及 Agent 之后的发展方向，比如人类驾驭多个 Agent 的可能性、以及现阶段应该提高模型的底线，而不是去追究极致。还有 AI 白领在未来两年的可能性，毕竟「Agent 操作电脑」并不难，只要环境具备。他们还夸奖了 DeepSeek 在模型研发上的「品味」，颇有种「惺惺相惜」的感觉。两个半小时的采访，我们还摘录了 Sholto Douglas 在另外一期播客的部分回答，聊得很深入而且很透彻。 TLDR: 2025 年最大的变化是强化学习技术在语言模型上真正奏效了 ...

Artificial Intelligence

Artificial Intelligence

Claude 4发布：新一代最强编程AI？

虎嗅· 2025-05-23 08:30

本文来自微信公众号：APPSO （ID：appsolution），原文标题：《地表最强编程 AI 诞生！Claude 4 连续自动编程 7 小时，实测细节惊艳程序员》，题图来自：AI生成就这几天，AI圈像是过年了。就在刚刚，Anthropic正式发布Claude 4系列模型：Claude Opus 4和Claude Sonnet 4。没喊口号，没搞长篇论文，这次Claude升级的关键词只有一个：干活。据Anthropic宣称，Opus 4是目前全球最强的编程模型，能够稳定胜任复杂且持续时间长的任务和Agent工作流。而Sonnet 4则着重强化了编程和推理能力，能更精准地响应用户的指令。此外，Anthropic还同步推出了以下新功能： Claude 4发布，最强编程AI又又双叒叕易主了？作为Anthropic迄今为止最强大的模型，Opus 4在编程基准测试SWE-bench上拿下了72.5%的高分，在Terminal-bench上也以43.2%领先同行，堪称最会写代码的模型。工具辅助的延伸思考（测试版）：Claude模型在进行深入思考时，能够交替使用工具（如网页搜索），以优化推理过程和回复 ...

AI Agent

可解释性

Artificial Intelligence

Claude 4系列模型（Claude Opus 4

Artificial Intelligence

Claude 4系列模型（Claude Opus 4

Claude Sonnet 4）

Claude Code

AI大佬教你如何中顶会：写论文也要关注「叙事」

量子位· 2025-05-13 15:11

闻乐发自凹非寺量子位 | 公众号 QbitAI NeurIPS投稿数量破纪录了！Deadline还有不到一个月，如何让论文更容易中？大佬的论文撰写指南它来了。来自Google DeepMind的 Neel Nanda 在指导了20多篇论文之后，发布了一则关于如何写好机器学习论文的指南。旨在帮助研究者将研究成果转化为高质量、科学诚信的论文，解决在表达上"晦涩难懂"的痛点。 So what? ——读者为什么要关心呢？让我们一起来看看一篇优秀的论文该怎么写吧。 What? How? So what? Neel Nanda认为，研究只有被人们阅读、理解、参与，甚至理想情况下相信时，才会有意义。 What? ——一到三个符合连贯主题的具体新颖主张。并且他提到理想论文的精髓在于叙事：讲述一个简短、严谨、基于证据的技术故事，并包含读者关心的要点。 How? ——你需要严谨的实证证据来令人信服地支持你的主张。写论文要将研究压缩为核心主张，并用严格的实验证据支持，同时要让读者明白研究的动机、问题及影响。论文写作关键要素构建叙事从研究中提炼出令人感兴趣、重要且独特的结果作为核心主张（1-3 ...

Artificial Intelligence

Artificial Intelligence

Claude系列

Transformer Lens库

上海交大人工智能实验室成果发布：时间维度开启工业4.0中国方案

搜狐网· 2025-05-03 19:15

文章核心观点 - 上海交通大学李金金教授团队研发的AI自控系统为人工智能与工业化融合带来突破，推动工业迈向智能化、高端化，助力我国工业经济高质量发展 [3][9] 行业现状 - 国内积极探索AI与工业化结合路径，从多方向发力改写工业生产格局 [3] - 当前工业面临动态数据解析难、数据标注瓶颈、算力成本高企等难题 [1] 团队成果 - 团队研发的“基于迁移学习和物理可解释的小样本AI工业自动控制系统”，将“时间维度”引入工业控制领域，攻克生物发酵复杂动态过程的实时预测与调控难题 [3] - 企业应用该系统可动态调控参数，实时生成最优发酵方案，发酵水平明显提高，且方案会持续优化 [3] 技术创新 - 系统引入“时间维度”，突破传统局限，能实时追踪微生物代谢动态变化，精准建模，提升生产精细化管理水平 [5][6] - 运用迁移学习技术，减少对大量标注数据的依赖，结合物理可解释性，便于工程师理解和优化模型 [8] - 采用轻量化设计，仅需十几张显卡即可稳定运行，显著降低算力需求与应用成本，利于中小企业部署 [8] 成果意义 - 对AI模型而言，打破传统思维局限，提升泛化和学习能力，拓展应用场景 [8] - 对制造工业自动化来说，解决行业长期痛点，提高生产效率和产品质量，为其他行业智能化转型树立典范 [8] 未来展望 - 人工智能在我国工业化转型升级中潜力巨大，将在生产制造、研发创新、供应链管理、能源管理、服务模式创新等方面发挥作用 [8]

速递｜黑箱倒计时：Anthropic目标在2027年构建AI透明化，呼吁AI巨头共建可解释性标准

Z Potentials· 2025-04-25 11:05

4月24日， Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章，强调研究人员对全球领先 AI 模型内部运作机制知之甚少。为解决这一问题， Amodei 为 Anthropic 设定了一个雄心勃勃的目标：到 2027 年能够可靠地检测出大多数 AI 模型问题，到 2027 年揭开 AI 模型的黑箱。 Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中，这位 CEO 表示 Anthropic 在追踪模型如何得出答案方面已取得初步突破，但他强调，随着这些系统能力不断增强，要解码它们还需要更多研究。例如， OpenAI 最近发布了新的推理 AI 模型 o3 和 o4-mini ，在某些任务上表现更优，但相比其他模型也更容易产生幻觉。公司并不清楚这一现象的原因。 "当生成式 AI 系统执行某项任务，比如总结一份财务文件时，我们无法在具体或精确的层面上理解它为何做出这样的选择——为何选用某些词汇而非其他，又为何在通常准确的情况下偶尔犯错，" Amodei 在文章中写道。文章中， Amodei 提到 Anthropic 联合创始人 Chris Olah 称 AI 模型"更像是 ...

AI可解释性

人工通用智能（AGI）

Artificial Intelligence

o4 - mini

AI可解释性

人工通用智能（AGI）

Artificial Intelligence

o4 - mini

速递｜黑箱倒计时：Anthropic目标在2027年构建AI透明化，呼吁AI巨头共建可解释性标准

Z Potentials· 2025-04-25 11:05

图片来源： Anthropic 4月24日， Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章，强调研究人员对全球领先 AI 模型内部运作机制知之甚少。为解决这一问题， Amodei 为 Anthropic 设定了一个雄心勃勃的目标：到 2027 年能够可靠地检测出大多数 AI 模型问题，到 2027 年揭开 AI 模型的黑箱。 Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中，这位 CEO 表示 Anthropic 在追踪模型如何得出答案方面已取得初步突破，但他强调，随着这些系统能力不断增强，要解码它们还需要更多研究。 "Amodei 在文中写道：'我非常担忧在缺乏更好可解释性手段的情况下部署这类系统。这些系统将成为经济、技术和国家安全的核心，且将具备如此高度的自主性，以至于我认为人类对其运作原理全然无知是根本不可接受的。' " Anthropic 取得了几项研究突破，使其能更好地理解其 AI 模型的工作原理。例如，该公司最近发现了通过所谓的"电路"追踪 AI 模型思维路径的方法。 Anthropic 识别出一个帮助 AI 模型理解美国各城市所属州的 ...

AI可解释性

人工通用智能（AGI）

Artificial Intelligence

o4 - mini

AI可解释性

人工通用智能（AGI）

Artificial Intelligence

o4 - mini

Claude深度“开盒”，看大模型的“大脑”到底如何运作？

AI科技大本营· 2025-04-09 10:00

近日， Claude 大模型团队发布了一篇文章《 Tracing the thoughts of a large language model》（追踪大型语言模型的思维），深入剖析大模型在回答问题时的内部机制，揭示它如何"思考"、如何推理，以及为何有时会偏离事实。如果能更深入地理解 Claude 的"思维"模式，我们不仅能更准确地掌握它的能力边界，还能确保它按照我们的意愿行事。例如：为了破解这些谜题，我们借鉴了神经科学的研究方法——就像神经科学家研究人类大脑的运作机制一样，我们试图打造一种"AI 显微镜"，用来分析模型内部的信息流动和激活模式。毕竟，仅仅通过对话很难真正理解 AI 的思维方式—— 人类自己（即使是神经科学家）都无法完全解释大脑是如何工作的。因此，我们选择深入 AI 内部。 Claude 能说出几十种不同的语言，那么它在"脑海中"究竟是用哪种语言思考的？是否存在某种通用的"思维语言"？ Claude 是逐个单词生成文本的，但它是在单纯预测下一个单词，还是会提前规划整句话的逻辑？ Claude 能够逐步写出自己的推理过程，但它的解释真的反映了推理的实 ...

AI可解释性

AI显微镜

Artificial Intelligence

Artificial Intelligence