Workflow
信息瓶颈
icon
搜索文档
LeCun离职前的吐槽太猛了
量子位· 2025-12-21 13:45
文章核心观点 - 人工智能领域知名学者Yann LeCun在离职Meta前,公开批评当前以大语言模型为主导的AI发展路线,认为其无法通往通用人工智能,并宣布将创办一家专注于开源世界模型研究的新公司[1][2][4][8] LeCun对当前AI发展路径的批判 - 严厉批评仅通过扩展大语言模型和合成数据训练来实现超级智能的路径,认为这“完全是胡说八道”且“根本行不通”[2] - 认为大语言模型擅长处理离散的文本数据,但在处理高维、连续且嘈杂的现实世界数据如图像或视频时表现“完全糟糕”[29] - 断言仅靠训练文本数据,AI永远不可能达到人类智能水平[31] - 指出当前AI领域最难的问题是达到狗的智能水平,而非人类的智能水平[7][88] LeCun的创业计划与新公司AMI - 宣布将创办新公司Advanced Machine Intelligence,专注于世界模型的研究,并坚持开源路线[8][9][10] - 新公司AMI的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[19] - 创业动机源于对Meta转向封闭和短期项目导向的不满,认为公开发表成果是做出有价值贡献的唯一途径[3][14][15][17] 世界模型的理论与优势 - 主张构建智能系统的正确方式是世界模型,其核心是预测和规划,让机器像婴儿一样通过观察世界来构建内在的可预测模型[20][35][37] - 世界模型的关键是在抽象的表示空间中进行预测,而非直接生成像素,这能消除不可预测的细节和噪声,实现更长期可靠的预测[38][41][42][43] - 提出通过联合嵌入预测架构在抽象表示空间中进行预测,并认为“LeJEPA+SIGReg”是训练抽象表示非常有前途的技术集合[44][77] - 通过数据对比强调现实世界数据的丰富性:LLM训练所需的约30万亿tokens文本数据,其信息量仅相当于约15000小时的视频,而这只是一个4岁孩子一生中接收的视觉信息总量,仅相当于YouTube半小时的上传量[32][33] 对Meta现状及FAIR未来的评价 - 指出Meta在领导层变更后正变得更加封闭,从开源先锋转向封闭,且FAIR更倾向于短期项目和为内部实验室提供支持[3][11][24] - 透露其离职后,FAIR将由Rob Fergus领导,内部减少了对论文发表的重视,标志着Meta长达十年的“学院派”研究黄金时代结束[24][26] - 澄清自己在Meta的继任者并非“亚历山大王”,后者职责更偏向整体运营管理[23] 对AGI及智能发展的看法 - 认为AGI的概念本身无意义,人类智能是高度专业化的,实现机器在人类擅长领域超越人类需要一个渐进的过程,而非突发事件[80][82][83] - 预测未来几年世界模型和规划能力可能取得概念性突破,为实现人类水平AI铺平道路,但仍需大量新的理论创新[84][85] - 强调实现狗的智能水平是比实现人类智能更难的挑战,因为那需要具备大量的基础理论,而在此基础上增加语言能力则相对容易[88][89] - 认为单靠LLM或单靠世界模型都无法实现真正的人类智能,需要多种研究的结合与长时间积累[90] LeCun的职业生涯与理念 - 其职业生涯的核心目标是提升人类智能,认为智能是世界上最稀缺的资源,因此拒绝退休并选择继续创业贡献[91][94][95] - 始终坚持开源的技术路径,认为科学的进步源于开放交流中思想的叠加延伸,如果不公开发表就算不上真正的研究[15][103] - 回顾职业生涯有遗憾,如曾想到反向传播算法的核心思路但未及发表,但认为好的想法是集体智慧的产物[99][102]
倒计时3周离职,LeCun最后警告:硅谷已陷入集体幻觉
36氪· 2025-12-16 15:11
对当前主流AI发展路径的批判 - 核心观点认为大语言模型路线是死路,无法通往人类水平的人工智能,硅谷对不断“堆大”LLM的痴迷是一条死路 [1][3] - 指出当前基于LLM的AI智能体在可靠性、数据效率、多模态处理上远远不足 [12] - 批评行业存在危险的“羊群效应”,科技巨头几乎都在做同一件事即疯狂堆叠LLM,形成了“单一的文化” [26][28] - 明确表示所谓的ASI路线——不断训练LLM、用更多合成数据、雇几千人做后训练、折腾RL新技巧——完全是胡说八道且永远不可能成功 [1][28] 提出的替代技术路线:“世界模型” - 主张“世界模型”才是实现人类水平AI的“正确方法”,其能够预测动作后果并用于规划,是智能的重要组成部分 [12][14] - “世界模型”在抽象表征空间中进行预测,而非像素级输出,旨在处理高维、连续和嘈杂的模态数据,这是LLM完全做不到的 [3][14][23] - 其技术基础是联合嵌入预测架构,旨在学习一个抽象的表示空间以消除输入的不可预测细节 [16] - 近20年来一直确信构建智能系统的正确途径是通过某种形式的“无监督学习”,JEPA的发展克服了早期孪生网络的模型坍塌问题 [17] 关于数据与智能的对比 - 训练一个性能不错的LLM需要互联网上约30万亿Token的文本数据,这仅相当于约15,000小时的视频 [21][22] - 一个4岁孩子醒着时看到的视觉信息大约是16,000小时,现实世界数据的结构比文本丰富得多,仅靠文本训练永远无法达到人类水平的AI [22] - 合成数据有用,但LLM并不真正理解通过经验习得的基本概念,只是被微调出来给出正确答案,更像是“反刍”而非真懂 [25] 创业公司AMI的创立与目标 - 决定在Meta外部创办Advanced Machine Intelligence,专注于“世界模型”并计划延续开放研究的传统 [4][5] - 创办AMI的动因之一是为了摆脱硅谷的单一文化,该公司是全球性的,总部将设在巴黎,并在纽约等地设立办公室 [30] - AMI的目标不仅是研究,还会打造与世界模型、规划相关的实际产品,并成为智能系统的核心供应商 [9] - 认为投资者现在愿意为这类基础研究创业公司买单是一种新现象,这在以往是不可能的 [4] 对AI行业现状与Meta的评论 - 指出行业风向正在转变,越来越多实验室选择闭源,这种趋势不利于真正突破性的研究 [4] - 透露Meta AI重组后重心完全放在了LLM,FAIR正被推向“更短期的项目”,较少强调发表论文,更多专注于协助GenAI Lab进行LLM研究,这是其选择出来创业的部分原因 [39][41] - 认为即使在硅谷的各家公司内部,也有不少人心里很清楚LLM这条路走不通 [28] - 点评了一些大模型公司,例如指出Ilya创立的SSI甚至包括他们的投资人都不知道这家公司要做什么 [41] 对AGI概念与发展时间线的看法 - 认为“通用人工智能”这个概念完全没有意义,完全是胡扯,因为人类智能是超级专业化的 [31] - 乐观预测如果在JEPA、世界模型、规划等方向未来两年取得重大进展,可能在5-10年内看到接近人类或狗智能水平的AI,但这已是极度乐观 [33] - 更现实的预测是,由于历史上多次出现未预见的障碍,实现超越可能需要20年甚至更久 [33] - 认为最难的部分不是从狗到人类,而是达到狗的水平,从灵长类动物到人类主要缺的是“语言” [35][36] 对研究文化与人才培养的建议 - 强调真正的研究需要发表论文,没有别的办法,这是目前很多行业正在遗忘的事情 [11] - 建议年轻人学习“保质期长”的知识以及能“学会如何学习”的东西,因为技术演变太快 [43] - 具体建议深入学习数学、电气工程、机械工程、物理学等基础学科,计算机科学只需学到能熟练编程的程度,这些基础能让人在AI快速变化中站稳脚跟 [45][46] - 认为“世界模型”所在的地方类似于大脑的前额叶皮层,而LLM在语言编码/解码上表现不错,或许能充当大脑的韦尼克区和布罗卡区 [36][38]
AAAI 2026 Oral:明略科技开创稀疏数据「信息瓶颈动态压缩」,精度+速度双SOTA
机器之心· 2025-12-02 14:47
文章核心观点 - 当前AI模型在机器人和具身智能领域面临计算和延迟过高的挑战,尤其是在处理稀疏数据时存在“双重冗余”问题[1][3] - 由东南大学、中南大学、明略科技联合提出的CompTrack框架创新性地解决了空间冗余和信息冗余问题,实现了更少算力、更高精度的效果[2][13] - CompTrack通过信息熵过滤空间冗余和信息瓶颈动态压缩信息冗余,在3D点云跟踪任务中达到80 FPS实时性能,计算量仅为0.94G FLOPs[8][10][15] - 该技术为高效AI提供了通用信息压缩范式,预示着从蛮力计算向信息效率的范式转变,适用于机器人传感器融合、多模态处理等多个领域[14] 技术挑战分析 - 当前AI模型普遍面临“双重冗余”挑战:空间冗余指海量无关背景点和空白区域浪费算力并污染特征[5] - 信息冗余指即便在前景目标上也存在大量重复和低价值信息,如车辆引擎盖上的100个点和500个点提供的有效几何信息几乎等价[5] - 现有方法大多只处理空间冗余问题,对前景信息冗余问题束手无策[7] CompTrack技术框架 - 空间前景预测器基于信息熵理论,通过高斯热图监督学习精准筛除信息含量低的背景噪声[8] - 信息瓶颈引导的动态令牌压缩模块基于信息瓶颈原理,只保留对最终预测有价值的信息[10] - 该模块利用在线奇异值分解实时分析输入数据的“内在秩”,实现数据依赖的动态压缩[11] - 通过可学习的Cross-Attention模块绕过SVD的不可微问题,实现端到端训练[12] 应用成效 - 在RTX 3090上达到80 FPS实时性能,相比SOTA方法的65 FPS实现1.3倍加速[15] - 计算量显著降低至0.94G FLOPs,IB-DTC模块是实现从48 FPS提升至75 FPS效率飞跃的核心[15] - 在nuScenes和Waymo两个大规模数据集上均刷新了SOTA性能[15]
中科大提出动作价值表征学习新方法,率先填补长期决策信息的缺失
量子位· 2025-03-31 12:35
研究背景与问题 - 视觉强化学习中的泛化问题受到广泛关注 旨在使智能体具备处理现实复杂任务的能力 在多样化环境中表现良好[7] - 现有方法如数据增广和对比学习仅聚焦于从视觉图像中提取鲁棒信息 忽略了下游关键的决策过程 导致难以捕捉序列数据中关键的长期信息[8] - 许多方法未考虑序列决策过程 导致所学表征缺乏关键的长期信息[1] 方法创新 - 研究人员在信息瓶颈框架下提出ROUSER方法 通过引入信息瓶颈学习能有效捕捉决策目标中长期信息的向量化表征[2][9] - ROUSER通过最大化表征与动作价值之间的互信息来保留长期信息 同时最小化表征与状态-动作对之间的互信息以滤除无关特征[4][10] - 由于动作价值未知 ROUSER将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征[5][10] 技术实现 - ROUSER包含两个核心模块:奖励模型学习仅包含单步奖励信息的表征 通过最大化奖励表征与单步奖励的互信息 同时最小化奖励表征与状态-动作对的互信息[14][15] - 鲁棒损失模块构建递归式损失函数 仅利用奖励模型编码的表征即可直接计算 该模块不更改批评家模型架构 最终学习的向量化表征为批评家模型的中间层嵌入[16] - 方法理论证明ROUSER能够利用学习到的向量化表征准确估计动作价值 可有效结合各类连续和离散控制的视觉强化学习算法[3][17] 实验效果 - 在12个连续控制任务中 ROUSER于11个任务上取得最优性能 实验包括背景干扰与颜色干扰两类任务[6][18] - 在物体动态颜色变化干扰的6个任务中 ROUSER展现出优越的泛化性能[19][25] - ROUSER可兼容离散控制任务 当与基于价值的VRL方法结合应用于非连续控制任务时 也能提升智能体的泛化性能[21][22]