信息瓶颈
搜索文档
倒计时3周离职,LeCun最后警告:硅谷已陷入集体幻觉
36氪· 2025-12-16 15:11
对当前主流AI发展路径的批判 - 核心观点认为大语言模型路线是死路,无法通往人类水平的人工智能,硅谷对不断“堆大”LLM的痴迷是一条死路 [1][3] - 指出当前基于LLM的AI智能体在可靠性、数据效率、多模态处理上远远不足 [12] - 批评行业存在危险的“羊群效应”,科技巨头几乎都在做同一件事即疯狂堆叠LLM,形成了“单一的文化” [26][28] - 明确表示所谓的ASI路线——不断训练LLM、用更多合成数据、雇几千人做后训练、折腾RL新技巧——完全是胡说八道且永远不可能成功 [1][28] 提出的替代技术路线:“世界模型” - 主张“世界模型”才是实现人类水平AI的“正确方法”,其能够预测动作后果并用于规划,是智能的重要组成部分 [12][14] - “世界模型”在抽象表征空间中进行预测,而非像素级输出,旨在处理高维、连续和嘈杂的模态数据,这是LLM完全做不到的 [3][14][23] - 其技术基础是联合嵌入预测架构,旨在学习一个抽象的表示空间以消除输入的不可预测细节 [16] - 近20年来一直确信构建智能系统的正确途径是通过某种形式的“无监督学习”,JEPA的发展克服了早期孪生网络的模型坍塌问题 [17] 关于数据与智能的对比 - 训练一个性能不错的LLM需要互联网上约30万亿Token的文本数据,这仅相当于约15,000小时的视频 [21][22] - 一个4岁孩子醒着时看到的视觉信息大约是16,000小时,现实世界数据的结构比文本丰富得多,仅靠文本训练永远无法达到人类水平的AI [22] - 合成数据有用,但LLM并不真正理解通过经验习得的基本概念,只是被微调出来给出正确答案,更像是“反刍”而非真懂 [25] 创业公司AMI的创立与目标 - 决定在Meta外部创办Advanced Machine Intelligence,专注于“世界模型”并计划延续开放研究的传统 [4][5] - 创办AMI的动因之一是为了摆脱硅谷的单一文化,该公司是全球性的,总部将设在巴黎,并在纽约等地设立办公室 [30] - AMI的目标不仅是研究,还会打造与世界模型、规划相关的实际产品,并成为智能系统的核心供应商 [9] - 认为投资者现在愿意为这类基础研究创业公司买单是一种新现象,这在以往是不可能的 [4] 对AI行业现状与Meta的评论 - 指出行业风向正在转变,越来越多实验室选择闭源,这种趋势不利于真正突破性的研究 [4] - 透露Meta AI重组后重心完全放在了LLM,FAIR正被推向“更短期的项目”,较少强调发表论文,更多专注于协助GenAI Lab进行LLM研究,这是其选择出来创业的部分原因 [39][41] - 认为即使在硅谷的各家公司内部,也有不少人心里很清楚LLM这条路走不通 [28] - 点评了一些大模型公司,例如指出Ilya创立的SSI甚至包括他们的投资人都不知道这家公司要做什么 [41] 对AGI概念与发展时间线的看法 - 认为“通用人工智能”这个概念完全没有意义,完全是胡扯,因为人类智能是超级专业化的 [31] - 乐观预测如果在JEPA、世界模型、规划等方向未来两年取得重大进展,可能在5-10年内看到接近人类或狗智能水平的AI,但这已是极度乐观 [33] - 更现实的预测是,由于历史上多次出现未预见的障碍,实现超越可能需要20年甚至更久 [33] - 认为最难的部分不是从狗到人类,而是达到狗的水平,从灵长类动物到人类主要缺的是“语言” [35][36] 对研究文化与人才培养的建议 - 强调真正的研究需要发表论文,没有别的办法,这是目前很多行业正在遗忘的事情 [11] - 建议年轻人学习“保质期长”的知识以及能“学会如何学习”的东西,因为技术演变太快 [43] - 具体建议深入学习数学、电气工程、机械工程、物理学等基础学科,计算机科学只需学到能熟练编程的程度,这些基础能让人在AI快速变化中站稳脚跟 [45][46] - 认为“世界模型”所在的地方类似于大脑的前额叶皮层,而LLM在语言编码/解码上表现不错,或许能充当大脑的韦尼克区和布罗卡区 [36][38]
AAAI 2026 Oral:明略科技开创稀疏数据「信息瓶颈动态压缩」,精度+速度双SOTA
机器之心· 2025-12-02 14:47
文章核心观点 - 当前AI模型在机器人和具身智能领域面临计算和延迟过高的挑战,尤其是在处理稀疏数据时存在“双重冗余”问题[1][3] - 由东南大学、中南大学、明略科技联合提出的CompTrack框架创新性地解决了空间冗余和信息冗余问题,实现了更少算力、更高精度的效果[2][13] - CompTrack通过信息熵过滤空间冗余和信息瓶颈动态压缩信息冗余,在3D点云跟踪任务中达到80 FPS实时性能,计算量仅为0.94G FLOPs[8][10][15] - 该技术为高效AI提供了通用信息压缩范式,预示着从蛮力计算向信息效率的范式转变,适用于机器人传感器融合、多模态处理等多个领域[14] 技术挑战分析 - 当前AI模型普遍面临“双重冗余”挑战:空间冗余指海量无关背景点和空白区域浪费算力并污染特征[5] - 信息冗余指即便在前景目标上也存在大量重复和低价值信息,如车辆引擎盖上的100个点和500个点提供的有效几何信息几乎等价[5] - 现有方法大多只处理空间冗余问题,对前景信息冗余问题束手无策[7] CompTrack技术框架 - 空间前景预测器基于信息熵理论,通过高斯热图监督学习精准筛除信息含量低的背景噪声[8] - 信息瓶颈引导的动态令牌压缩模块基于信息瓶颈原理,只保留对最终预测有价值的信息[10] - 该模块利用在线奇异值分解实时分析输入数据的“内在秩”,实现数据依赖的动态压缩[11] - 通过可学习的Cross-Attention模块绕过SVD的不可微问题,实现端到端训练[12] 应用成效 - 在RTX 3090上达到80 FPS实时性能,相比SOTA方法的65 FPS实现1.3倍加速[15] - 计算量显著降低至0.94G FLOPs,IB-DTC模块是实现从48 FPS提升至75 FPS效率飞跃的核心[15] - 在nuScenes和Waymo两个大规模数据集上均刷新了SOTA性能[15]
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
量子位· 2025-03-31 12:35
研究背景与问题 - 视觉强化学习中的泛化问题受到广泛关注 旨在使智能体具备处理现实复杂任务的能力 在多样化环境中表现良好[7] - 现有方法如数据增广和对比学习仅聚焦于从视觉图像中提取鲁棒信息 忽略了下游关键的决策过程 导致难以捕捉序列数据中关键的长期信息[8] - 许多方法未考虑序列决策过程 导致所学表征缺乏关键的长期信息[1] 方法创新 - 研究人员在信息瓶颈框架下提出ROUSER方法 通过引入信息瓶颈学习能有效捕捉决策目标中长期信息的向量化表征[2][9] - ROUSER通过最大化表征与动作价值之间的互信息来保留长期信息 同时最小化表征与状态-动作对之间的互信息以滤除无关特征[4][10] - 由于动作价值未知 ROUSER将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征[5][10] 技术实现 - ROUSER包含两个核心模块:奖励模型学习仅包含单步奖励信息的表征 通过最大化奖励表征与单步奖励的互信息 同时最小化奖励表征与状态-动作对的互信息[14][15] - 鲁棒损失模块构建递归式损失函数 仅利用奖励模型编码的表征即可直接计算 该模块不更改批评家模型架构 最终学习的向量化表征为批评家模型的中间层嵌入[16] - 方法理论证明ROUSER能够利用学习到的向量化表征准确估计动作价值 可有效结合各类连续和离散控制的视觉强化学习算法[3][17] 实验效果 - 在12个连续控制任务中 ROUSER于11个任务上取得最优性能 实验包括背景干扰与颜色干扰两类任务[6][18] - 在物体动态颜色变化干扰的6个任务中 ROUSER展现出优越的泛化性能[19][25] - ROUSER可兼容离散控制任务 当与基于价值的VRL方法结合应用于非连续控制任务时 也能提升智能体的泛化性能[21][22]