Workflow
机制可解释性
icon
搜索文档
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
机器之心· 2025-10-15 15:33
大语言模型的技术路径争议 - 强化学习之父Rich Sutton认为大语言模型是死胡同,不符合《苦涩的教训》精神,因其无法从持续实际互动中学习[1][3] - Sutton主张智能应来自强化学习与环境的持续交互,奖励函数包含内在动机如好奇心,学习应是默认持续过程而非一次性训练[3] - 当前大语言模型依赖大规模预训练和人为监督微调,Sutton指出监督微调在自然界不存在,预训练方法被人类偏见污染[3] 强化学习实现的根本挑战 - 纯粹强化学习极难实现,因无法定义通用奖励函数,实践常退回模仿学习[7] - 理想系统应像松鼠被置于新环境后自主学习,而当前系统无法在未见过的场景中学习新事物[8] - 强化学习应是利用与探索的结合,但当前模型设计走向极端,仅在有限经验基础上进行纯粹利用[11] 大语言模型的设计缺陷与数据问题 - 模型依赖写作数据而非思维模式数据,但写作时的思考方式与现实世界不同,导致数据采样分布偏差[12] - 自回归机制更像神经网络的顺序展开路径,而非可随时间微调的目标函数,限制真正理解能力[11] - 模型缺乏强制探索行动与结果关系的机制,难以构建良好世界模型,仅在明确行动空间如围棋中表现较好[20] 技术路径的可行性质疑 - Sutton指出大语言模型的极端主张缺乏非凡证据,仅通过观察人类行为样本难以涌现真正推理能力[23] - 大语言模型可能无法兑现宏伟愿景,若15年内未实现价值,考虑到数百上千亿美元投入,可能引发市场崩溃或泡沫破裂[23] - 模型过度依赖人类知识和互联网数据,存在可扩展性边界,终将陷入过度依赖专家微调的困境[24] 行业发展的路径依赖与重构需求 - 行业陷入修补式迭代恶性循环,工程师优先修复而非系统重构,导致系统日益脆弱和过拟合[28] - 当模型遇到瓶颈时,市场商业化浪潮绑架既定路径,直到集体意识必须重构新系统[28] - 大语言模型领域已显现转变,从单纯依赖算力扩展正转向更注重推理能力的方法链和强化学习环境探索[28] 模型实际能力与公众期望的错位 - 需要区分模型被认为能做的事和实际能做的事,公众推断可能误导,但模型现有能力本身具有难以置信的价值和用途[32][33] - 纯粹模仿已产生非凡特性和涌现能力,这是重要学术问题,尽管不会达到真正智能,仍能找到很好用途[34] - 公共讨论应聚焦已发生的奇迹,而非过度期待智能水平,类似互联网泡沫期某些公司的期望过头现象[33][34]
2025年《麻省理工科技评论》“35岁以下科技创新35人”发布!
机器人圈· 2025-09-12 18:05
气候与能源领域创新 - 利用地下岩石热能生产氨以降低化学品生产能耗,减少全球1%-2%的二氧化碳排放[13] - 通过电解槽技术将一氧化碳和二氧化碳转化为乙烯,替代传统化石燃料加热方式,降低化工行业5%的全球碳排放[16] - 开发电化学直接空气捕获设备,无需热能仅用电力和水,单个工厂年捕获50-250吨二氧化碳用于喷气燃料和建筑材料[19][20] - 创建多语言多区域刻板印象数据集SeeGULL,涵盖178个国家20种语言,用于评估AI模型避免有害刻板印象的能力[54][55] - 从空气中提取二氧化碳制造纤维素纺织品,模仿植物行为替代传统木浆原料,减少时尚行业8%的全球碳排放[25][26] - 在船舶废气处理系统中利用海水和石灰石生成碳酸氢根离子,避免压缩储存二氧化碳的能耗,处理后的水可直接排入海洋[28][29] 人工智能技术突破 - 开发气候预测基础模型ClimaX,利用海量气候模拟和卫星数据预测天气事件,时间跨度从几天到几十年[22][23] - 通过机制可解释性研究分解AI模型内部运作,发布包含400+稀疏自编码器的Gemma Scope工具包提升模型透明度[34][35] - 调整Transformer架构处理图像数据,将像素编码为token序列,应用于ImageGPT和DALL·E系列模型[38] - 构建自主AI代理Manus,能独立完成任务并适应变化,发布一周内吸引200万申请用户,公司估值达5亿美元[41][42] - 整合多媒体信息感知框架,使AI系统从图像音频视频中推断事件因果关系,获DARPA等政府机构采用[44][45] - 开发视频生成模型Sora,采用创新信息片段分解方法生成长达一分钟高清视频,基于Transformer架构优化扩展性[47][48] - 提出Self-RAG框架让模型并行处理数据存储部分,使Meta Llama模型回答准确率提升10%-25%[51][52] - 训练专用小型模型协同优化金融研究工具,精准定位海量文档中的数据点,被摩根士丹利等金融机构采用[57][58] 生物技术医疗进展 - 开发人工卵巢技术使卵子在实验室成熟,减少IVF激素注射次数,首例试管婴儿于2024年12月在秘鲁诞生[62][63] - 创建长效水凝胶男性避孕产品ADAM,小型试验显示可阻断精子长达两年,计划2023年启动三期临床试验[64][65] - 通过96电极脑机接口实现瘫痪患者操控电子套筒,恢复手部运动能力并玩《吉他英雄》游戏[68] - 优化基因组测序流程,结合牛津纳米孔技术将诊断时间从7周缩短至8小时内,已应用于26名患者[71][72] - 发明芝麻粒大小可降解无线起搏器,通过生物可吸收金属和心脏液体导电,经动物和人类心脏测试[74][75] - 开发DNA损伤追踪技术,使用分子标记传感器解析基因组特定区域,应用于癌症治疗和珊瑚进化研究[77][78] - 发现血脑屏障渗透机制,证实上百种蛋白质可通过受体进入大脑,为靶向药物递送开辟新途径[80][81] 计算与硬件创新 - 采用端到端深度学习方案训练自动驾驶系统,仅需500小时训练即可适配新国家交通环境,获日产2027年商用订单[85][86] - 开发专用AI芯片Sohu,处理Transformer计算时吞吐量达英伟达H100的10倍,公司获1.2亿美元融资与台积电合作[88][89] - 发明微型硅基多色激光器替代数据中心铜线,单个"梳子"可取代16个激光器,传输速度与能效显著提升[91][92] - 构建包含527种机器人技能的数据集,通过iPhone采集家务动作视频,被英伟达微软Google用于训练家庭机器人[94][95] - 开发统一人体运动模型,结合跑步机传感器数据和能量消耗分析,推动外骨骼和康复设备发展[101][102] - 评估AI军事应用安全性,发现目标识别程序准确率低至25%,呼吁军方停止使用商业模型[104][105] - 建立政府算法公共数据库,披露72个法国政府项目,包括福利欺诈评估和心脏移植优先级系统[107][108] 材料科学应用 - 使用食品黄色色素使生物组织透明化,小鼠腹部涂抹后内脏器官在几分钟内可见,目标五年内应用于人类医学成像[113][114][115] - 开发智能感知织物直接编织传感器,心率呼吸监测准确率达99%,可制成太空服自动调节压力[117][118] - 改进双光子3D打印技术,通过元透镜阵列将打印速度提升1000倍,并能制造直径一英寸的量子计算机组件[120][121] - 实现核聚变燃料舱大规模生产,传统制造需数月而新工艺可日产量50万个舱体,加速惯性聚变能源发展[121][122]
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
机器之心· 2025-06-22 13:57
文章核心观点 - 稀疏自编码器是一种新兴的机制可解释性技术,能够将大语言模型内部的黑盒表示分解为一组稀疏且具备明确语义的激活特征,从而揭示模型的“思维”过程 [2][10] - SAE不仅是一个可解释性工具,更可用于控制模型输出、发现模型问题及提升模型安全性,实现了从“看得懂”到“改得动”的跨越 [11][23] - 该技术正受到包括OpenAI、Anthropic、Google DeepMind在内的领先机构的积极研究和推进 [11] SAE的技术框架 - SAE的基本结构包含编码器、解码器和稀疏性损失函数,编码器负责将LLM的高维向量分解为更高维的稀疏特征向量,解码器则尝试重建原始信息 [14] - 存在多种架构变体以改进SAE,例如解决收缩偏差的Gated SAE和通过直接选择Top-K激活来强制稀疏性的TopK SAE [15] SAE的可解释性分析 - SAE支持概念探测,能自动从模型中挖掘具有语义意义的特征,如时间感知、情绪倾向和语法结构 [16] - 通过模型操控功能,可以激活或抑制特定特征,从而定向引导模型输出,实现精细的行为控制 [16] - SAE可用于异常检测与安全分析,帮助识别模型中潜藏的高风险特征单元,发现潜在的偏见或安全隐患 [16] SAE的评估指标与方法 - 对SAE的评估分为结构性评估和功能性评估,结构性评估关注重建准确度和稀疏度等内部构造指标 [17][18] - 功能性评估则检验SAE在理解LLM方面的实际效果,以及所学特征的稳定性和泛化能力 [17][18] SAE在大语言模型中的应用 - SAE的应用案例广泛,涵盖模型操控、行为分析、拒答检测、幻觉控制和情绪操控等多个方面 [19] - 其“解释+操控”的结合使其在LLM可解释性研究中脱颖而出,具备实际操作的潜力 [11][19] SAE与Probing方法的对比 - 与传统Probing方法相比,SAE作为一种新兴的机制可解释性方法,在模型操纵和特征提取方面展现出独特潜力 [20] - 然而,在数据稀缺、类别不平衡等复杂场景下,SAE要提供一致优势仍面临挑战 [20] 当前研究挑战与未来方向 - SAE当前面临的挑战包括语义解释不稳定、特征字典不完整、重构误差不可忽视以及训练计算成本较高 [21] - 未来可能的突破方向包括跨模态扩展、自动解释生成和架构轻量化等 [21]