生成模型
搜索文档
AI为啥不懂物理世界?李飞飞、杨立昆:缺个「世界模型」,得学大脑新皮质工作
量子位· 2025-11-17 21:23
文章核心观点 - AI领域顶尖专家杨立昆和李飞飞均指出当前大语言模型的局限性,并强调发展“世界模型”是通往通用人工智能的关键路径[1][3][4] - “世界模型”的核心在于让AI系统具备理解物理世界、进行预测和规划的能力,其灵感来源于动物和人类大脑的智能行为学习机制[5][6][8] - 人类大脑新皮质的生成模型特性(如填补性、逐一性、无法忽视性)是实现模拟、想象和预测的基础,这为构建AI“世界模型”提供了神经科学依据[11][12][13][15][16][20][27][29][31][32] AI专家动态与研究转向 - 杨立昆计划离开Meta,筹备以“世界模型”为核心的AI公司[1] - 李飞飞提出AI未来应聚焦“空间智能”,而非单纯扩大语言模型规模[3] - 两位专家共同认为“世界模型”能弥补当前AI系统在物理理解、行为预测等方面的不足[4][6] 当前AI系统的局限性 - AI无法产出完全接近现实的视频,也未发明出能完成家务的实用机器人[5] - 系统缺乏对物理世界的理解,如距离、大小、远近等基本概念[5][6] - 过度依赖语言和符号,忽视了动物所展现的更基础、更早进化的智能行为[6] 人类感知特性与生成模型 - 人类感知具有三大属性:填补性(自动补全缺失信息)[12][13]、逐一性(一次只能选择一种解释)[15][17]、无法忽视性(一旦形成解读便难以推翻)[16][20] - 亥姆霍兹提出感知是“推断”过程,即大脑模拟现实而非直接感知输入[20][27] - 杰弗里·辛顿的“亥姆霍兹机器”通过生成与识别模式切换,实现了无监督学习手写数字识别与生成[21][22][25][26] - 生成模型能解释人类幻觉、做梦、睡眠及想象等机制,新皮质在生成模式下可模拟现实[27][28][29] “世界模型”的智能行为基础 - 大脑新皮质支持规划、情景记忆和因果推理等高级智能行为[33] - 想象力与感知共享同一系统,想象时瞳孔扩张,实际视觉处理暂停[30] - 预测能力依赖持续对比模拟数据与实际感觉,异常触发即时反应(如踩空警觉)[31][32] 行业应用与前沿探索 - 麦克斯·班尼特通过研究大脑进化史,著书《智能简史》架起神经科学与AI的桥梁[10][35] - 其创立的AI公司Alby致力于整合大语言模型至企业网站,提升智能化导购与搜索体验[37] - 班尼特曾联合创立的Bluecore估值突破10亿美元,为全球顶尖公司提供AI技术服务[37]
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
具身智能之心· 2025-10-23 08:03
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日揭晓年度奖项,该会议是全球计算机视觉三大顶会之一,每两年举办一次[2][5] - 本届会议共收到11,239份有效投稿,最终录用2,699篇论文,录用率为24%,论文数量相比上一届有大幅增长[5] 最佳论文奖:BrickGPT - 最佳论文奖由卡耐基梅隆大学获得,论文标题为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名学者朱俊彦带领团队完成[3][7][9] - 该论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[11] - 研究团队构建了包含47,000多个积木结构的大规模数据集StableText2Brick,并训练了自回归大型语言模型来预测下一块积木[13] - 方法引入了有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,平均积木稳定性为0.996,全面优于基线模型[20][22] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖,该研究突破了传统镜头成像规律,能够构建可任意调整景深的计算镜头[24][26] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》获得,该论文提出了一种无需反演的新型图像编辑方法[27][28][30] - FlowEdit通过构建常微分方程直接在源图像分布与目标图像分布间建立映射路径,实现了更低的传输成本和更高保真度的编辑,在Stable Diffusion 3和FLUX模型上取得SOTA效果[32][34] 最佳学生论文提名奖 - 德州大学奥斯汀分校的《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖,该模型在训练时无需任何3D监督信息即可学习3D感知能力[36][38] Helmholtz Prize(测试方法奖) - 该奖项表彰在计算机视觉基准测试中的贡献,获奖论文包括Ross Girshick的《Fast R-CNN》和何恺明等人的《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》[39][41] - 《Fast R-CNN》提出了用于目标检测的快速区域卷积网络,显著提升了训练和测试速度[39] - 何恺明等人的论文引入了PReLU激活函数和He初始化方法,并首次在ImageNet上达到超越人类水平的分类性能[41] Everingham Prize(严谨评估奖) - 该奖项表彰对社区有重大贡献的研究者,获奖团队包括人体3D模型SMPL的团队和VQA数据集团队[44][46] - SMPL模型以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人及生成式AI中[44] - VQA数据集结合了图像理解与自然语言问答,推动了多模态AI在视觉理解和语言推理方向的研究[46] 研究者个人奖项 - Significant Researcher Award授予David Forsyth和Michal Irani,表彰其研究显著推动了计算机视觉领域进展[48][53] - Azriel Rosenfeld终身成就奖授予Rama Chellappa,表彰其在人脸识别、运动分析、3D建模等领域的奠基性贡献[54][57]
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
机器之心· 2025-10-22 11:30
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日在美国夏威夷揭幕,是全球计算机视觉三大顶会之一,每两年举办一次[1][4] - 本届大会共收到11239份有效投稿,最终录用2699篇论文,录用率为24%,相比上一届论文数量大幅增长[4] 最佳论文奖 - 最佳论文奖由卡耐基梅隆大学获得,获奖论文为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名青年学者朱俊彦带领团队完成[2][5][6] - 论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[9] - 研究团队构建了大规模、物理稳定的积木结构数据集StableText2Brick,包含47000多个积木结构和超过28000个独特三维对象及其文本描述[11] - 该方法在自回归推理中引入有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,全面优于基线模型[18][20] - 生成的设计可由人类手动装配或机械臂自动组装,并开发了基于文本的积木贴图方法用于生成带颜色和纹理的设计[11] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖[21] - 该研究突破了传统镜头单一平面成像限制,构建了能够任意调整景深的计算镜头,实现了全场景清晰成像并保持最高空间分辨率[23] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院获得,获奖论文为《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》[2][24][25] - 论文提出FlowEdit方法,创新地绕开传统图像编辑路径,通过构建常微分方程直接在源图像分布与目标图像分布间建立直接映射路径[27][28] - 该方法实现了更低的传输成本,能最大程度保留原始图像结构和内容,在Stable Diffusion 3和FLUX流模型上取得SOTA效果[31] 最佳学生论文提名奖 - 德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖[32] - 该模型在训练时无需任何3D监督信息,仅需2D图像即可学习并展现出涌现的3D感知能力,在新视角合成任务上表现优异[35] Helmholtz Prize获奖论文 - 该奖项表彰计算机视觉基准测试贡献,有两篇获奖论文[36] - Ross Girshick的《Fast R-CNN》提出快速区域卷积网络,显著提升目标检测的训练、测试速度和检测精度[36] - 何恺明等人的论文《Delving Deep into Rectifiers》引入PReLU激活函数和He初始化方法,首次在ImageNet上达到超越人类水平的分类性能[38] Everingham Prize获奖团队 - 该奖项表彰对社区有重大贡献的研究者,有两个获奖团队[41] - SMPL团队开发了参数化三维可变形人体模型,精准表示人体姿态与形状,广泛应用于动画、虚拟人及生成式AI领域[41] - VQA数据集团队创建了结合图像理解与自然语言问答的大规模基准数据集,推动多模态AI在视觉理解和语言推理方向的研究[43] Significant Researcher Award获奖者 - 该奖项表彰显著推动计算机视觉领域进展的研究人员,颁给David Forsyth和Michal Irani[45][50] - David Forsyth在颜色恒常性方法、人体动作识别与追踪技术方面作出贡献,影响物体识别和动作分析研究[50] - Michal Irani开创图像内部自相似性与空间-时间视频形状研究范式,通过无监督方法解决超分辨和视频结构分析等核心问题[50] Azriel Rosenfeld Award获奖者 - 该终身成就奖表彰在学术界和工业界具有持续影响力的研究者,颁给Rama Chellappa[51][54] - Rama Chellappa作为计算机视觉与模式识别领域先驱,在人脸识别、运动分析、3D建模和生成式视觉理解等方面作出奠基性贡献[54]
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 16:24
技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器(RAE),旨在替代存在10多年的变分自编码器(VAE),作为扩散模型(如DiT)的潜空间基础[1][2] - RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与训练好的解码器,实现高质量重建和语义丰富的潜空间,同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势,应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs,而简单的ViT-B编码器仅需约22 GFLOPs,过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩(仅4个通道),限制了可存储的信息量,其压缩作用有限,几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练,学到的特征很弱(线性探针精度约8%),导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量(rFID)上一致优于SD-VAE,例如使用MAE-B/16的RAE达到0.16的rFID,明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码,重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID,从ViT-B的0.58提升到ViT-XL的0.49,且ViT-B性能已超过SD-VAE,其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力,线性探测精度远高于SD-VAE的8%,例如DINOv2-B达84.5%,SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间,研究者提出新的DiT变体DiT^DH,引入浅层但宽度较大的头部结构,使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快,在计算效率(FLOPs)方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势,例如在使用DINOv2-L时,将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果:在256×256分辨率下,无引导条件FID为1.51;在256×256和512×512分辨率下,有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型,在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时,DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型;在5×10¹¹ GFLOPs时实现全场最佳FID,所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当,冻结表征编码器可作为扩散潜在空间的强大编码器,挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成,模型宽度必须匹配或超过RAE的Token维度,否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移,通过缩放因子调整噪声时间步长,在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案,向干净潜变量注入高斯噪声,增强解码器对扩散模型输出空间的泛化能力,改善生成指标(gFID)[29]
吴恩达执教的深度学习课程CS230秋季上新,新增GPT-5专题
机器之心· 2025-10-04 11:38
课程概述与更新 - 斯坦福大学CS230深度学习旗舰课程已更新至2025年秋季版,由吴恩达执教 [1] - 课程采用翻转课堂模式,学生需提前在Coursera上观看deeplearning.ai专项课程视频,再参加线下课程 [3] - 课程核心框架与往年相似,但针对最新AI发展进行了更新,最大变化是新增了GPT-5专题章节 [4] 2025秋季版核心更新 - 新增深入探讨OpenAI于2025年8月发布的GPT-5模型的专题章节,内容覆盖其特性、过度拒绝问题、安全行为机制、微调技术及创新的agentic workflows [4] - 增强了对生成模型的讲解,并整合了最新的RAG和AI Agents等热门技术,结合GPT-5进行案例分析 [6] - 更注重AI项目开发全生命周期,强调从科学、工程到决策的完整项目技能,推荐使用Workera等前沿评估工具 [6] 课程结构与师资 - 课程从9月底开始,持续约10周,包含编程作业、测验和最终的大型项目 [15][16] - 师资包括人工智能领域顶尖专家吴恩达(斯坦福大学客座教授,Coursera和DeepLearning.AI创始人)以及Kian Katanforoosh(斯坦福大学讲师,Workera创始人兼CEO) [15] 课程核心主题 - 覆盖从基础理论到前沿应用的完整知识体系,包括神经网络与深度学习基础、神经网络优化技术、机器学习项目构建策略 [18][20] - 深入讲解卷积神经网络(CNN)在图像分类等领域的应用,以及循环神经网络(RNN)在自然语言处理等序列任务中的应用 [20] - 探索前沿高级主题,如生成对抗网络(GANs)、深度强化学习、对抗性攻击,并提供行业与学术洞见及AI职业发展建议 [20]
OpenAI宋飏被Meta挖跑了,扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
36氪· 2025-09-26 11:19
核心事件 - Meta从OpenAI成功招募关键研究人员宋飏,其原为OpenAI战略探索团队负责人[1][6] - 此次人才变动在业内引起震动,许多OpenAI员工对其离开感到惊讶[6] 人物背景与研究专长 - 宋飏为16岁考入清华的少年天才,拥有清华大学数学与物理学士学位及斯坦福大学计算机博士学位[1][20][22] - 其核心研究方向是提升模型处理大规模、复杂、多模态数据集的能力,以及探索跨模态(图像、文本、代码)的高效智能交互[9] - 在斯坦福大学攻读博士期间,其研究为扩散模型的早期发展做出了关键贡献[17] 主要技术成就 - 在OpenAI期间,宋飏是比扩散模型更快、性能更好的一致性模型的主要贡献者之一[10] - 2023年4月开源的一致性模型仅需约3.5秒即可生成64张256×256分辨率的图像[10] - 2023年10月提出的改进版连续时间一致性模型,仅用两步采样即可实现与扩散模型相媲美的生成质量,速度是扩散模型的50倍[11] - 该改进版模型参数规模达15亿,在单张A100 GPU上可在0.11秒内生成一个512×512分辨率的样本[11] - 其研究成果被大量引用,被认为是可能“终结扩散模型”的新方向[13] 团队与汇报关系 - 宋飏在Meta将加入MSL团队,并向首席科学家赵晟佳汇报[6] - 宋飏与赵晟佳存在多重关联,包括同为清华校友、同在斯坦福师从Stefano Ermon教授,以及曾同在OpenAI工作[24]
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
量子位· 2025-09-25 21:00
核心事件概述 - Meta从OpenAI成功挖角关键研究人员宋飏,其于本月初加入Meta的MSL团队,向首席科学家赵晟佳汇报[1][6] - 此次人才流动在业内引起震动,被描述为Meta从OpenAI挖来的最强大脑之一,许多OpenAI同事对其离开感到惊讶[7] 宋飏的专业背景与成就 - 宋飏是扩散模型崛起及后续一致性模型发展的关键贡献者,其研究聚焦于提升模型处理多模态数据的能力及跨模态智能交互[10][11] - 在OpenAI任职3年零2个月期间,作为战略探索团队负责人,其核心成果一致性模型仅需3.5秒即可生成约64张256×256图像[12] - 后续提出的连续时间一致性模型将图像生成速度提升至扩散模型的50倍,并在15亿参数规模上实现512×512分辨率训练[13][14][15] - 该模型在单张A100 GPU上仅用0.11秒即可生成一个样本,其研究成果被大量引用,被视为可能终结扩散模型的新方向[16][17][18] 早期学术贡献 - 宋飏在斯坦福攻读博士期间的研究(估计数据分布梯度的方法)在CIFAR-10无条件生成任务中取得8.87的Inception分数,超越当时主流GAN模型[31][32] - 这项早期工作后来被认识到与扩散模型有紧密联系,为扩散模型的后续发展奠定了基础[25][34][35] 教育背景与人才流动模式 - 宋飏具有突出的学术背景,16岁以裸分425分考入清华大学数理基础科学班,后于斯坦福大学获得博士学位[36][40][45] - 其与Meta MSL首席科学家赵晟佳存在多重关联,均为清华校友、同师从Stefano Ermon教授且曾共事于OpenAI,形成紧密的技术人才网络[50][51][52] - 行业观察指出,对于在OpenAI工作3年以上的顶尖研究人员,职业决策的驱动因素可能超越纯粹金钱利益,更侧重于研究挑战与愿景[9]
速递| Runway跨界机器人领域,获超5亿美元融资,AI世界模型成模拟现实训练新引擎
Z Potentials· 2025-09-02 11:58
公司业务发展 - Runway过去七年致力于为创意行业开发视觉生成工具 现发现机器人领域技术应用新机遇 [3] - 公司已从英伟达、谷歌和General Atlantic等投资者处融资超5亿美元 估值达30亿美元 [3] - 总部位于纽约 以视频和图片生成AI世界模型闻名 3月发布视频生成模型Gen-4 7月推出视频编辑模型Runway Aleph [3] 技术应用拓展 - 世界模型不断改进且越来越逼真 开始收到机器人和自动驾驶汽车公司合作意向 [3] - 机器人公司利用Runway技术进行训练模拟 相比现实场景训练更具成本效益和可扩展性 [4] - 通过模型能实现精细化测试 轻松测试特定变量和情境而无需改变场景中其他因素 [5] 行业竞争格局 - 英伟达本月早些发布Cosmos世界模型最新版本及其他机器人训练基础设施 [5] - 公司不打算为机器人技术和自动驾驶汽车客户开发完全独立产品线 [5] - 将通过微调现有模型服务这些行业 正在组建专门机器人技术团队 [5] 战略定位 - 公司建立在模拟概念核心理念之上 能够构建越来越精确的世界表征 [6] - 强大模型可应用于各种不同市场和行业 预期行业将随生成模型能力提升发生深刻变革 [6]
简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
机器之心· 2025-08-16 13:02
生成模型技术发展 - 当前主流基础生成模型包括五大类:Energy-Based Models (Diffusion)、GAN、Autoregressive、VAE 和 Flow-Based Models [3] - 提出全新生成模型离散分布网络(DDN),采用单次前向传播同时生成K个输出构成离散分布,通过优化样本点位置逼近真实数据分布 [4][5][6][7] - DDN具备三大特性:零样本条件生成、树状结构一维离散潜变量、完全端到端可微分 [8] DDN核心原理 - 重建机制:通过层级化生成设计(默认L=3层,K=3个输出/层)逐步逼近目标图像,每层选择最相似输出作为下一层条件,形成整数数组latent(如"3-1-2") [14][15] - 网络结构:由L层Discrete Distribution Layer(DDL)组成,支持single shot generator(默认)和recurrence iteration两种形式 [17][19] - 训练方式:每层对选中output与target计算L2损失,总loss取各层平均,采用Split-and-Prune算法优化节点匹配均匀性 [21] 零样本条件生成能力 - 无需训练阶段接触condition信号,仅需在生成时通过黑盒判别模型(如CLIP)引导采样过程,支持文本提示/低分辨率图像等多模态条件输入 [24][26] - 实现判别模型与生成模型统一,成为首个支持纯判别模型引导采样的生成模型,在超分辨率/风格迁移等任务中展现潜力 [27][28][29] - 条件训练扩展:可直接将condition特征输入网络学习P(X|Y),与ZSCG结合增强可控性(如保持引导图像色调) [30][32] 技术特性优势 - 端到端可微分:主干feature梯度高效反传,采样过程不阻断梯度,优于diffusion模型的噪声空间转换机制 [33][34] - 数据压缩能力:latent为高度压缩的离散表征(如K=512,L=128时单样本仅需1152 bits),支持树状结构可视化(MNIST实验K=8,L=3) [36][38][39] - 生成质量优化:通过层次化生成设计,每层输出逐步细化(首层类似聚类平均图像,末层接近target) [14][15] 应用前景展望 - 规模化应用:探索ImageNet级别Scaling up,打造以零样本生成为特色的实用模型 [42] - 垂直领域适配:适用于图像上色/去噪、机器人学习中的Diffusion Policy等生成空间有限场景 [42] - 跨模型融合:将DDN设计思想与传统生成模型结合,或应用于LLM序列建模任务 [42]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-30 08:02
具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据(图像/机器人/导航数据)实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练(零样本迁移至现实)[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性,推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练(DAgger-DPO算法)[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码(无需真实数据)[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型(支持40+动作生成)[22] - 在Household领域成功求解48项复杂规划任务 [23]