DiT(Diffusion Transformers)
搜索文档
LeCun三顾茅庐,谢赛宁终于入伙!新公司获投10亿美元
量子位· 2026-03-10 18:00
公司融资与估值 - 世界模型初创公司Advanced Machine Intelligence(AMI)完成10.3亿美元(约70.8亿人民币)种子轮融资,融资前估值达到35亿美元(约240亿人民币)[2] - 此轮融资由Cathay Innovation、Greycroft、Hiro Capital、HV Capital和Bezos Expeditions共同领投,知名个人投资者包括Mark Cuban、前Google CEO Eric Schmidt及Xavier Niel等[14][15] - 此次10.3亿美元融资刷新了世界模型初创公司的融资纪录,金额比此前李飞飞教授World Labs的10亿美元融资多出3000万美元[12][13] 核心团队构成 - 公司由深度学习三巨头之一、图灵奖得主Yann LeCun推动创立并担任董事长,其目标是将其AI理念商业化[1][24][44] - DiT(Diffusion Transformers)作者、纽约大学助理教授谢赛宁官宣加入,担任联合创始人兼首席科学官(CSO)[2][30] - 公司CEO由法国连续创业者、AI医疗公司Nabla创始人Alex Lebrun出任,COO Laurent Solly为前Meta欧洲副总裁[6][28] - 公司团队汇聚多位前Meta核心成员,包括前Meta副总裁、FAIR创始成员Michael Rabbat,其担任世界模型副总裁[36] - 香港科技大学教授Pascale Fung加入公司,出任首席研究与创新官[39] 公司背景与目标 - 公司全名Advanced Machine Intelligence(AMI),总部位于巴黎,成立于2023年12月,并在蒙特利尔、纽约和新加坡设有研究团队[41] - 公司的明确目标是打造能够理解现实世界、拥有持久记忆、具备推理与规划能力,同时保持可控与安全的新一代AI系统[43] - 公司技术方向被认为是LeCun在Meta时期提出的JEPA(Joint Embedding Predictive Architecture)框架的延续与落地,核心是开发能从传感器数据中学习并进行预测的世界模型[45][47] 技术路线与商业模式 - 公司坚持LeCun推崇的自监督学习范式,而非基于下一个token预测的监督学习范式,旨在探索不同于大语言模型(LLM)的通用智能路径[48][59] - 短期内公司没有明确的营收目标,但计划尽早与潜在客户合作,包括制造商、汽车厂商、航空航天、生物医药及制药集团[50][51] - 公司公开的首个合作伙伴将是CEO Alex Lebrun此前领导的AI医疗公司Nabla[52] - 公司计划延续开放研究理念,持续发表论文并尽可能开源代码,以构建围绕自身的研究社区和生态系统[54][55]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 15:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
机器之心· 2025-07-07 12:48
核心观点 - 研究提出基于能量的Transformer(EBT)模型,通过无监督学习实现系统2思维(慢速思维)能力,突破传统Transformer在复杂推理任务上的局限性 [9][10] - EBT在语言和图像任务中展现出显著优势:语言任务性能提升29%,图像去噪PSNR最高提升3.5,同时计算量减少99% [12][81][83] - 模型具备跨模态泛化能力,在分布外数据上表现尤为突出,预训练扩展速率比Transformer++最高提升35% [11][14][46] 技术原理 - EBT通过能量函数为输入-预测对分配能量值,采用梯度下降优化至最低能量状态模拟思考过程 [17][18][21] - 引入三种关键正则化技术:重放缓冲区、Langevin动力学变体、随机化梯度步长,确保能量曲面平滑性与凸性 [25][26][27][28] - 设计两种架构变体:解码器EBT(类似GPT)和双向EBT(支持掩码建模) [32][33] 性能表现 语言任务 - 扩展性全面超越Transformer++:数据效率提升35%,参数/FLOPs效率更高,预期千倍规模下优势更显著 [11][44][47] - 思考机制带来29%性能提升,自我验证增益从4-8%增至10-14%,且随训练规模扩大持续增强 [55][60][61] - 下游任务泛化能力更强,GSM8K困惑度降低6.3,BB Math QA降低7.2 [73][74] 视觉任务 - 图像去噪PSNR达27.25(比DiT高0.67),OOD噪声处理PSNR提升3.73,MSE降低413.5 [82][83] - 视频学习扩展速率快33%,SSV2数据集验证损失下降更显著 [76][78] - 仅需1%前向传播次数即可达到DiT同等去噪效果,PSNR提升速率更高 [86][88] 创新价值 - 首次实现无监督系统2思维建模,突破模态/问题依赖性限制,为AGI发展提供新范式 [8][10][15] - 能量机制自动捕捉预测不确定性(如文本token难度、视频帧可预测性) [63][65][80] - 计算效率革命性提升:图像任务减少99%计算量,语言任务优化多步推理 [83][88][92]