流形假设
搜索文档
何恺明团队新作:扩散模型可能被用错了
36氪· 2025-11-19 19:22
何恺明又一次返璞归真。 最新论文直接推翻扩散模型的主流玩法——不让模型预测噪声,而是直接画干净图。 如果你熟悉何恺明的作品,会发现这正是他创新的典型路径,不提出更复杂的架构,而是把问题拆回最初的样子,让模型做它最擅长的那件事。 实际上,扩散模型火了这么多年,架构越做越复杂,比如预测噪声、预测速度、对齐latent、堆tokenizer、加VAE、加perceptual loss…… 但大家似乎忘了,扩散模型原本就是去噪模型。 现在这篇新论文把这件事重新摆上桌,既然叫denoising模型,那为什么不直接denoise? 于是,在ResNet、MAE等之后,何恺明团队又给出了一个"大道至简"的结论:扩散模型应该回到最初——直接预测图像。 扩散模型可能被用错了 当下的主流扩散模型,虽然设计思想以及名为"去噪",但在训练时,神经网络预测的目标往往并不是干净的图像,而是噪声, 或者是一个混合了图像与 噪声的速度场。 实际上,预测噪声和预测干净图差得很远。 根据流形假设,自然图像是分布在高维像素空间中的低维流形上的,是有规律可循的干净数据;而噪声则是均匀弥散在整个高维空间中的,不具备这种低 维结构。 简单理解就是,把高 ...
何恺明团队新作:扩散模型可能被用错了
量子位· 2025-11-19 17:01
文章核心观点 - 何恺明团队提出颠覆性观点,认为当前主流扩散模型的使用方法存在根本性问题,应回归去噪本质,直接预测干净图像而非噪声 [4][5][6] - 基于此观点提出极简架构JiT,仅使用纯Transformer直接处理高维像素,在多项指标上达到SOTA水平,证明了该方法的有效性和优越性 [10][11][18] 技术路径与理论依据 - 当前主流扩散模型架构复杂,通过预测噪声或速度场进行训练,但偏离了其作为去噪模型的初衷 [4][6] - 根据流形假设,自然图像存在于高维空间中的低维流形上,而有规律的干净数据更易被神经网络学习,无规律的噪声则难以拟合 [7][9] - 直接预测干净图像实质是让网络将噪点投影回低维流形,对模型容量要求更低,更符合神经网络设计本质 [9] JiT架构设计与优势 - JiT采用极简设计,仅为纯图像Transformer,无需VAE压缩、Tokenizer、CLIP/DINO对齐或额外损失函数 [11] - 直接处理原始像素,将其切分为大Patch输入,输出目标直接设定为预测干净的图像块 [12] - 在高维空间中优势显著,传统预测噪声模型FID指数级飙升至379.21,而JiT的x-pred方法FID仅为10.14,表现稳健 [14][15] - 模型扩展能力出色,即使Patch尺寸扩大至64x64,输入维度高达一万多维,仍能实现高质量生成 [15] 实验性能与成果 - 在ImageNet 256x256和512x512数据集上,JiT达到SOTA级FID分数,分别为1.82和1.78 [18] - 不同模型规模下性能持续提升,JiT-G/16在256x256任务上200-ep和600-ep的FID分别为2.15和1.82 [19] - 引入瓶颈层进行降维操作,非但未导致模型失效,反而因契合流形学习本质进一步提升了生成质量 [17]
何恺明重磅新作:Just image Transformers让去噪模型回归基本功
机器之心· 2025-11-19 10:09
文章核心观点 - 何恺明新论文指出,当前主流的去噪扩散模型并非直接预测干净图像,而是预测噪声或带噪量,这偏离了“去噪”的本意 [2][5] - 基于流形假设,论文主张让扩散模型回归本源,直接预测干净数据(x-prediction),这能使网络在极高维空间中有效运行 [6][7] - 论文提出“Just image Transformers (JiT)”架构,仅使用简单的像素级Transformer即可实现高质量图像生成,无需tokenizer、预训练或额外损失项 [8][11] 模型架构设计 - JiT架构遵循ViT核心理念,将图像划分为非重叠patch,通过线性嵌入和Transformer块处理,输出层将每个token投影回patch维度 [14] - 架构以时间t和类别标签为条件,使用adaLN-Zero进行条件化处理,相当于直接应用于像素patch的Diffusion Transformer [16] - 在256×256分辨率下使用JiT/16(p=16,patch维度768),在512×512分辨率下使用JiT/32(p=32,patch维度3072)[16] 预测目标与损失函数 - 实验比较了x-prediction(预测干净数据)、ϵ-prediction(预测噪声)和v-prediction(预测流速度)三种方式,以及对应的x-loss、ϵ-loss和v-loss [18][20] - 在高维设置(ImageNet 256×256)下,只有x-prediction表现良好,而ϵ-prediction和v-prediction出现灾难性失败 [21] - 在低维设置(ImageNet 64×64)下,所有预测方式都表现相当,说明高维信息传播是关键问题 [22] - 最终算法采用x-prediction和v-loss组合,对应表1(3)(a) [34] 模型性能与实验结果 - JiT-B/16在ImageNet 256×256分辨率下达到4.37 FID(200 epoch)和3.66 FID(600 epoch)[30] - JiT-G/32在ImageNet 512×512分辨率下达到2.11 FID(200 epoch)和1.78 FID(600 epoch)[30] - 模型在不同分辨率下参数量和计算成本相近,256×256的JiT-B/16为131M参数、25 Gflops,512×512的JiT-B/32为133M参数、26 Gflops [29][41] - 引入SwiGLU、RMSNorm、RoPE、qk-norm等Transformer改进技术后,JiT-B/16的FID从7.48提升至5.49 [38] 技术优势与应用潜力 - JiT方法避免了观测维度灾难,即使patch维度高达12288(1024×1024分辨率),模型仍能有效工作 [28][42] - 该方法无需特定领域设计,在蛋白质、分子或天气等自然数据领域具有潜在价值,因为这些领域的tokenizer通常难以设计 [12] - 与潜在扩散方法相比,JiT完全依赖朴素、通用型Transformer,计算友好且避免分辨率加倍时的二次成本增长 [46] - 该方法没有使用额外损失或预训练,这些可能会进一步带来性能提升 [49]
宇宙尺度压缩:Scaling Law的边界,柏拉图表征收敛于物质和信息交汇,解决P与NP问题,Simulation假说……
AI科技大本营· 2025-11-13 13:59
科学多任务学习的突破 - 超对称公司在BigBang-Proton项目中成功实现了跨尺度、跨结构的科学多任务学习,验证了高度异质的数据集(如夸克衰变、材料结构、DNA序列、股价等)可以在正确的表征和架构上收敛[1][4] - 该进展突破了传统观点,即认为多学科数据差异过大无法一起训练,预示了跨学科数据在高维潜在空间中可产生迁移学习,为将宇宙视为统一实体进行训练扫清了障碍[2][4] - 公司将算术运算能力作为科学多任务学习的核心,因为实验结果主要呈数值形式,这一科研范式融合了还原论和涌现论[4] Scaling Law的扩展与柏拉图表征 - BigBang-Proton的预训练能够平滑收敛,表明大语言模型的Scaling Law可超越语言范畴,延伸至物理世界[5] - 研究引用了柏拉图表征假说,认为不同AI模型的表征空间会收敛到一个对现实映射的相近统计结果,而物质世界构成了这一理想化现实[6] - 公司提出预训练的极限是宇宙本身的极限,在整个宇宙历史和人类文明数据上预训练的单一模型将收敛到大爆炸时刻的基本物理定律及信息与物质的交汇点[7] 宇宙尺度压缩的构想与理论基础 - 公司提出宇宙尺度压缩构想,旨在将宇宙作为一个完整整体进行预训练,其收敛目标为基本物理定律[1][9] - 理论指出,在人类文明完整数据上训练的模型倾向于收敛到基本自然定律,而在宇宙演化数据上训练的模型倾向于收敛到基本物理定律[9] - 热力学熵与信息熵的相互转换以及流形假设为理解跨领域表征迁移提供了框架,宇宙尺度预训练中的低维结构可能收敛到基本的宇宙流形,并与全息原理一致[10][14] 物理前沿理论与技术实践 - 理论基础包括约翰·惠勒的"It from Bit"、贝肯斯坦边界和全息原理,指出在普朗克尺度下时空维度可能减缩,物质与信息可互相转换[15] - 宇宙尺度压缩是对"计算宇宙"和"模拟假说"的一次实践,通过自回归LLM对物质世界进行压缩,为模拟戴森球或近地轨道工业等远期目标提供了可行性[16] - 根据计算,宇宙最多可容纳约10^90比特的信息,在施加完整物理定律约束后,条件柯尔莫哥洛夫复杂度会急剧降低,LLM预训练扩展至宇宙尺度可能匹配宇宙的复杂性[19][20][21][23][24] 技术路径与潜在应用 - 宇宙尺度压缩计划包括建立统一的时空框架、整合所有科学理论和实验数据、以及从重子组分中重建地球和人类文明[25] - BigBang-Proton的创新方法论为此提供了支持,包括二进制块编码、理论-实验学习范式和Monte Carlo Attention机制,后者可提供与宇宙中重子数量相当的上下文长度[25] - 公司提出假设,仅通过"下一个词预测"即可从微观粒子尺度重建宇宙中的任何物理结构,并计划在单一BigBang模型中模拟大爆炸核合成、量子材料、虚拟细胞系统乃至机器人技术和飞机等复杂物理结构[28] - 该方法有望将具身智能的高精度环境与决策能力整合在同一隐空间,并可从原子尺度加速复杂装备(如飞机、汽车)的设计、生产和迭代[28]