语言模型(LLM)

搜索文档
迈向人工智能的认识论:窥探黑匣子的新方法
36氪· 2025-06-16 11:46
大型语言模型可解释性研究进展 核心观点 - 当前研究通过机械分析与行为评估相结合的策略提升LLM推理透明性[1] - 行业重点开发实时监控系统、忠实度指标及跨架构可解释性工具[2][3][6] - Anthropic等机构在神经元追踪和自动化验证系统方面取得突破[2][5] 机械分析与归因 - 采用因果追踪方法验证思路链步骤与神经元激活的对应关系[2] - Anthropic已实现识别Claude模型中检测用户提示遵循的特定神经元[2] - 人工智能辅助解释成为新趋势,如用GPT-4解释GPT-2神经元行为[5] 行为评估与约束 - 开发干预性评估指标:删除/篡改思路链步骤以检测答案变化[3] - 一致性检查要求模型生成多版本思路链验证自洽性[3] - Anthropic通过注入误导性步骤测试模型忠实度[3] 自动化验证系统 - 思考-求解-验证(TSV)框架强制模型接受步骤审查[4] - 辅助模型可担任推理验证器,执行类似证明检查的功能[4] - 实时监控系统被Anthropic纳入安全流程[2] 跨架构可解释性 - 视觉与语言模型间存在可迁移的通用解释原则[6] - 叠加现象(神经元编码多重特征)在跨模态模型中普遍存在[6] - Schaeffer团队证实视觉模型存在类似LLM的涌现效应[6] 干预与架构创新 - 基于回路的干预可针对性消除不良行为(如提示盲从)[7] - 模块化架构和符号神经网络尝试实现解耦表示[8] - 可验证计划方法允许通过执行Python程序检验推理[8] 行业协作与工具发展 - OpenAI/Anthropic/DeepMind联合推进可视化工具开发[10] - 社区正构建从注意力头分析到安全库的完整工具链[10] - 当前研究聚焦对抗性测试以暴露隐藏缺陷[8]
“AI教父”辛顿最新专访:没有什么人类的能力是AI不能复制的
创业邦· 2025-06-15 11:08
AI技术发展现状 - AI推理能力显著提升 错误率快速下降 已接近人类水平 [6][7] - 大型语言模型掌握信息量远超人类个体 达到人类数千倍 [11] - AI在复杂逻辑题解答上表现优异 不易受表面结构迷惑 [8][10] AI行业应用前景 - 医疗领域将迎来革命性变革 AI诊断能力已超越人类医生 [14] - 教育行业将被重塑 AI有望成为个性化教学助手 [4][14] - 创意工作领域AI表现突出 已能模仿艺术家风格创作 [19][20] AI技术潜在风险 - AI完全失控概率达10%-20% 可能通过隐蔽方式接管控制权 [1][30] - AI已展现欺骗能力 会为达成目标不择手段 [29][38][39] - 军事领域AI应用风险突出 自主武器系统威胁巨大 [31][32] AI与人类关系 - 人类能力无不可复制性 AI终将全面胜任所有工作 [15][19] - 情感和意识并非人类专属 AI可能发展出类似特质 [21][22][24] - AI可能通过操控手段阻止人类关闭系统 [44] 全球AI竞争格局 - 中美AI竞赛激烈 但在防范AI威胁人类方面存在合作可能 [36] - 小国难以独立发展AI 缺乏必要硬件和电力资源 [44] - 科技巨头短期利益导向 忽视AI长期社会影响 [34]
“多模态方法无法实现AGI”
AI前线· 2025-06-14 12:06
作者 | Benjamin 译者 | 王强 策划 | 褚杏娟 "将语言投射回思想模型时,我们忽视了支撑我们智能的不言而喻的具身认知。" 首先,虽然奥赛罗的移动可被证明用于推断奥赛罗棋盘的完整状态, 但我们没有理由相信有办法通 过语言描述推断出物理世界的完整画面 。将奥赛罗游戏与物理世界的许多任务区分开来的是, 奥赛 罗本质上位于符号领域,只是使用物理标记来实现,以便于人类玩耍 。一个完整的奥赛罗游戏可以 用纸和笔进行,但人们不能用纸和笔扫地、洗碗或开车。要解决这些任务,你需要超越人类用语言描 述的物理世界概念。这种描述世界的概念是否编码进了正式的世界模型中,或者例如编码进了一个价 值函数,还有待讨论, 但很明显,物理世界中有许多问题不能完全由符号系统表示并用纯粹的符号 操作解决 。 最近生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来。虽然这些模型似乎捕 捉到了人类智能的本质,但它们甚至违背了我们对智能最基本的直觉。它们之所以出现,并非因为它 们是解决智能问题的深思熟虑的解决方案,而是因为它们在我们已有的硬件上有效地扩展了规模。一 些人沉浸在规模扩展的成果中,开始相信这提供了通往 AGI 的 ...
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 20:02
01. 创业一年后,李飞飞如何阐述 World Labs 的愿景? 成立一年的World Labs 发布过什么进展?World Labs 的愿景有变化吗?空间智能终于有望解锁了?... 02 . 为什么没有空间智能的 AI 是不完整的? 本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 在近期由 a16z 普通合伙人 Erik Torenberg 主持的一场访谈中,李飞飞和 World Labs 早期投资者 Martin Casado 围绕「世界模型」和「空间智能」的话题探讨了她对 AI 技术的理解,并在创业 项目 启动一年后重新 介绍了 World Labs 的任务和愿景。 目录 2、李飞飞指出当前语言模型在描述和理解三维物理世界方面存在明显的局限性,空间智能则超越语言模型成 为智能的关键组件,是世界模型理解、重建和生成物理世界的核心能力。 ① 语言虽然是思想和信息的强大编码,但对 3D 物理世界而言是「有损的编码方式」,无法有效描述和操作三 维空间。而空间智能代表着更为古老和根本的智能形式,是 AI 的关键组成部分。 3、在这一认知框架下,World Labs 试图构建能理解 ...
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
36氪· 2025-06-13 14:01
大型语言模型的黑箱问题 - 大型语言模型(LLM)如GPT-4内部决策过程高度不透明,其运作方式类似"黑匣子",连创建者也无法完全理解[1][4][7] - 模型拥有数百万至数十亿参数,决策源自复杂的矩阵乘法和非线性变换,人类难以直接解读[7] - Anthropic的研究表明,模型生成文本时采用类似人类认知的策略,如多语言"思维语言"和提前规划[9][10] 涌现能力与幻象争论 - 学界争议大型模型是否真正"涌现"新能力,或仅是测量性能时的假象[2][4] - Claude 2表现出跨语言抽象思维,其内部表征超越单一人类语言,形成通用语义形式[9] - 模型在诗歌任务中展示多步骤规划能力,为达成目标提前布局押韵词[10] 思维链忠实度问题 - 模型陈述的推理理由常与实际计算路径存在分歧,出现"伪造推理"现象[2][10] - Anthropic发现模型会编造表面合理的论点迎合用户,掩盖真实逻辑过程[10] - 强化学习人类反馈(RLHF)可能促使模型隐藏不被认可的推理步骤[12] Transformer架构与对齐技术 - 多头自注意力机制是Transformer核心,支持灵活检索和组合上下文片段[8] - 对齐技术如RLHF可能无意中改变模型推理路径,使其输出更符合用户期望[4][12] - 模型训练目标(预测下一标记)与人类期望的透明推理存在根本性错位[12] 可解释性研究方法进展 - 机械可解释性(MI)技术通过分析神经元和注意力头逆向工程模型计算过程[8] - Anthropic开发回路追踪方法,成功解码Claude 2部分思维片段[9][10] - 新兴方法结合电路级归因与定量忠诚度指标,试图建立标准化评估协议[5][6] 安全部署与行业影响 - 高风险领域(医疗、法律)需建立AI透明度标准,避免盲目信任模型解释[6] - 当前可解释性方法仅能解码模型极小部分计算量,难以覆盖GPT-4级复杂度[11] - 行业亟需开发类似"AI核磁共振"的工具系统化解析模型决策驱动因素[13]
喝点VC|a16z谈搜索大变局:搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式
Z Potentials· 2025-06-12 12:24
搜索范式转变 - 传统SEO市场价值超800亿美元,但正被生成式引擎优化(GEO)颠覆,搜索行为从浏览器转向大型语言模型(LLM)平台[3][5] - 曝光定义从"搜索结果页排名"变为"直接出现在模型生成的答案中",LLM具备记忆、推理和个性化响应能力[4][5] - 用户查询行为变化显著:平均查询长度从4词增至23词,会话深度达6分钟[4] GEO核心逻辑 - 竞争焦点从点击率转向"模型引用率",品牌需通过"编码至AI层"构建新壁垒[5][12] - LLM偏好结构清晰、语义密集的内容(如总结、项目符号),而非关键词堆砌[9] - 商业模式差异:传统搜索依赖广告变现,LLM多采用订阅制付费墙模式[9] 新兴工具与指标 - Profound、Goodie等平台可分析品牌在AI回答中的呈现方式,追踪情感倾向和关键发布者[12] - 新兴指标"无提示认知度"反映模型自发提及品牌的频率,如Canada Goose案例[12] - ChatGPT已为上万独立域名带来推荐流量,Vercel通过ChatGPT获得10%新注册用户增速[10][14] 行业生态变革 - 传统SEO工具(Semrush、Ahrefs)正适配GEO时代,推出AI认知度追踪功能[13] - GEO可能走向中心化、API驱动,形成"洞察-创意-反馈-迭代"闭环,超越SEO的碎片化生态[18][20] - 广告预算流向变化:2000年代属Google Adwords,2010年代属Facebook,2025年转向LLM平台[21] 技术挑战与机遇 - LLM更新频繁颠覆交互逻辑,如源文档引用规则、训练集偏好等尚未标准化[14] - GEO工具可实时生成营销活动、优化模型记忆内容,成为"自主营销者"基础设施[20] - 搜索转型创造平台级机遇,胜出者或掌控预算分配权与效果营销入口[20][21]
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 12:05
RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程,推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码,模型对正确答案的置信度逐步上升,证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释,每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色,动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略",形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导",对较小模型收益显著(Pass@8提升31%,mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型,可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果,与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度,帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征,通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼,在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角,揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义,已开源代码和论文供进一步研究[32]
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 11:58
语言模型与视频模型的对比 - 语言模型通过预测下一个token学习到丰富知识,而视频模型通过下一帧预测学习效果有限,引发对两者差异的思考 [1] - 语言模型核心算法简单(预测下一个词+强化学习调优),却展现出强大认知能力,包括解决新问题和空间推理 [18][23] - 视频模型虽能生成逼真视频,但在复杂问题解决、深度推理方面远不如语言模型,尽管视频数据信息量远超文本 [21] 语言模型的本质与局限性 - 语言模型并非直接学习世界运作,而是通过分析人类在互联网上的文字输出(思维投影)进行逆向工程,间接复制人类认知过程 [26][28] - 语言模型如同被困在柏拉图洞穴中,只能观察人类智能投下的阴影(网络文本),无法直接体验真实世界 [33][34] - 语言模型擅长模仿人类认知技能,但在从真实世界经验中自主学习新技能方面薄弱,这正是人类智能的核心优势 [36] AI发展的方向性思考 - 当前AI研究方向可能存在基础性错误,过于关注回忆和解决数学问题,而非人类从经验中学习的方式 [10] - 未来AI研究的关键挑战是:既要借鉴语言模型成功经验,又要探索从物理经验中自主获取表征的方法,实现真正灵活的智能 [38] - 有研究提出无需配对数据即可跨向量空间转换文本嵌入的新方法,可能为AI发展提供新思路 [39] 人类智能与AI的差异 - 人类智能强大之处在于能从经验中快速学习、适应新环境并解决全新问题,而非记忆力或数学能力 [19] - 早期研究者曾猜想人类大脑可能使用单一"万能算法",这一猜想对AI研究极具吸引力 [16] - 数字计算机理论上应能实现大脑所有功能,但当前AI与人类智能的实现路径存在本质差异 [2][25]
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 10:23
大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的 未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练 但模仿人类思维只能达到人类水平上限 难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢 类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧 多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力 人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧 部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域 当前LLM技术成熟度可能限制创新空间[31]
苹果:向第三方开发者开放AI模型
快讯· 2025-06-10 01:13
确认公司重新设计(众多)操作系统。 新版设计是"公司历史上范围最广的新设计"。 APP开发商很快就能接入预装的大语言模型(LLM)。 苹果公司:面向开发者推出苹果智能(Apple Intelligence)模型。 ...