生成模型 - 财报，业绩电话会，研报，新闻

生成模型

搜索文档

速递｜ Runway跨界机器人领域，获超5亿美元融资，AI世界模型成模拟现实训练新引擎

Z Potentials· 2025-09-02 11:58

公司业务发展 - Runway过去七年致力于为创意行业开发视觉生成工具现发现机器人领域技术应用新机遇 [3] - 公司已从英伟达、谷歌和General Atlantic等投资者处融资超5亿美元估值达30亿美元 [3] - 总部位于纽约以视频和图片生成AI世界模型闻名 3月发布视频生成模型Gen-4 7月推出视频编辑模型Runway Aleph [3] 技术应用拓展 - 世界模型不断改进且越来越逼真开始收到机器人和自动驾驶汽车公司合作意向 [3] - 机器人公司利用Runway技术进行训练模拟相比现实场景训练更具成本效益和可扩展性 [4] - 通过模型能实现精细化测试轻松测试特定变量和情境而无需改变场景中其他因素 [5] 行业竞争格局 - 英伟达本月早些发布Cosmos世界模型最新版本及其他机器人训练基础设施 [5] - 公司不打算为机器人技术和自动驾驶汽车客户开发完全独立产品线 [5] - 将通过微调现有模型服务这些行业正在组建专门机器人技术团队 [5] 战略定位 - 公司建立在模拟概念核心理念之上能够构建越来越精确的世界表征 [6] - 强大模型可应用于各种不同市场和行业预期行业将随生成模型能力提升发生深刻变革 [6]

简单即强大：全新生成模型「离散分布网络DDN」是如何做到原理简单，性质独特？

机器之心· 2025-08-16 13:02

生成模型技术发展 - 当前主流基础生成模型包括五大类：Energy-Based Models (Diffusion)、GAN、Autoregressive、VAE 和 Flow-Based Models [3] - 提出全新生成模型离散分布网络（DDN），采用单次前向传播同时生成K个输出构成离散分布，通过优化样本点位置逼近真实数据分布 [4][5][6][7] - DDN具备三大特性：零样本条件生成、树状结构一维离散潜变量、完全端到端可微分 [8] DDN核心原理 - 重建机制：通过层级化生成设计（默认L=3层，K=3个输出/层）逐步逼近目标图像，每层选择最相似输出作为下一层条件，形成整数数组latent（如"3-1-2"） [14][15] - 网络结构：由L层Discrete Distribution Layer（DDL）组成，支持single shot generator（默认）和recurrence iteration两种形式 [17][19] - 训练方式：每层对选中output与target计算L2损失，总loss取各层平均，采用Split-and-Prune算法优化节点匹配均匀性 [21] 零样本条件生成能力 - 无需训练阶段接触condition信号，仅需在生成时通过黑盒判别模型（如CLIP）引导采样过程，支持文本提示/低分辨率图像等多模态条件输入 [24][26] - 实现判别模型与生成模型统一，成为首个支持纯判别模型引导采样的生成模型，在超分辨率/风格迁移等任务中展现潜力 [27][28][29] - 条件训练扩展：可直接将condition特征输入网络学习P(X|Y)，与ZSCG结合增强可控性（如保持引导图像色调） [30][32] 技术特性优势 - 端到端可微分：主干feature梯度高效反传，采样过程不阻断梯度，优于diffusion模型的噪声空间转换机制 [33][34] - 数据压缩能力：latent为高度压缩的离散表征（如K=512,L=128时单样本仅需1152 bits），支持树状结构可视化（MNIST实验K=8,L=3） [36][38][39] - 生成质量优化：通过层次化生成设计，每层输出逐步细化（首层类似聚类平均图像，末层接近target） [14][15] 应用前景展望 - 规模化应用：探索ImageNet级别Scaling up，打造以零样本生成为特色的实用模型 [42] - 垂直领域适配：适用于图像上色/去噪、机器人学习中的Diffusion Policy等生成空间有限场景 [42] - 跨模型融合：将DDN设计思想与传统生成模型结合，或应用于LLM序列建模任务 [42]

具身领域LLM结合强化学习与世界模型工作汇总

具身智能之心· 2025-07-30 08:02

具身智能领域最新研究进展 1 UniSim通用现实世界交互模拟器 - 通过生成式建模整合多源数据（图像/机器人/导航数据）实现高层级指令和低层级控制的视觉结果模拟 [3] - 应用场景覆盖游戏/电影内容生成和具身智能体纯模拟训练（零样本迁移至现实）[3] - 实验证明可同时训练视觉语言策略和强化学习策略 [3] 2 因果世界模型与鲁棒智能体 - 首次证实最优智能体必须学习真实因果模型以实现跨领域泛化 [5] - 研究结论对迁移学习和因果推断领域产生深远影响 [5] 3 MAMBA元强化学习框架 - 结合模型方法与元强化学习技术实现15倍样本效率提升 [8] - 在高维任务场景验证有效性，推动现实世界泛化能力突破 [8] 4 EMMA多模态具身智能体 - 通过文本世界LLM指导视觉世界VLM训练（DAgger-DPO算法）[10] - ALFWorld基准测试成功率提升20%-70% [10] 5 Text2Reward自动奖励生成 - 基于LLM生成可执行密集奖励代码（无需真实数据）[13] - 17项操作任务中13项超越专家编写奖励 [14] 6 在线持续学习智能体 - 提出Behavior-IL/Environment-IL框架解决现实场景持续学习问题 [17] - CAMA机制无需任务边界信息即实现参数更新 [18] 7 AMAGO情境强化学习 - 通过并行化Transformer训练解决长期记忆和元学习挑战 [21] - 可攻克开放世界多指令完成难题 [21] 8 LLM世界模型构建 - 创新性采用PDDL构建显式世界模型（支持40+动作生成）[22] - 在Household领域成功求解48项复杂规划任务 [23]

Artificial Intelligence

Artificial Intelligence

上海期智&清华！BEV-VAE：首个自监督BEV视角的VAE，从图像到场景生成跃迁~

自动驾驶之心· 2025-07-08 20:45

核心观点 - BEV-VAE通过结构化BEV隐变量空间实现多视角图像生成与操控，显著提升自动驾驶场景生成的空间一致性与可控性 [2][4][5] - 该方法突破传统以图像为单位的生成范式，直接以三维场景为单位建模，支持任意相机配置下的新视角合成与对象编辑 [5][6][13] - 在nuScenes和AV2数据集上验证显示，隐变量维度提升至32时PSNR达26.32/26.68，SSIM达0.7455/0.8004，优于SD-VAE基准 [22][23] 技术架构双阶段设计 - **重建阶段**：通过Transformer编码器将多视角图像压缩为BEV隐变量，解码器重建时保持空间一致性，隐变量维度从4到32逐步提升信息容量 [7][10][12] - **生成阶段**：采用Diffusion Transformer在BEV空间去噪，通过Classifier-Free Guidance实现可控生成，支持15°视角旋转调整 [8][11][13] 关键组件 - 编码器包含图像/场景/状态三模块，解码器通过对抗损失优化生成质量，联合训练KL散度/重建/对抗损失 [7][8] - 判别器采用StyleGAN结构，确保生成图像真实度，消融实验显示隐变量维度32时FID降至13.72/3.02 [22][25] 性能表现数据集对比 - **nuScenes**：155K×6视图训练，隐变量32维时MVSC+指标达0.9291，接近SD-VAE水平但训练数据量仅0.1% [22][23] - **AV2**：224K×7视图训练，同参数下PSNR提升3.19，验证数据规模规律（Scale Law）的有效性 [22][28] 基准测试 - 在零额外先验条件下，BEV-VAE w/DiT的FID为21.14，显著缩小与基于Stable Diffusion微调方法的差距（DriveWM为12.99） [25] - 对象编辑实验中，移除特定车辆后生成图像无空洞，证明三维结构建模能力 [18][19][20] 应用优势 - **跨平台兼容**：解耦空间建模与生成过程，适配不同相机数量/位姿配置，实现零成本算法迁移 [5][28] - **效率提升**：相比传统数据采集，可低成本生成场景变体（如车辆增减），加速端到端模型训练 [4][18] - **扩展性**：BEV隐变量天然支持NeRF、Occupancy等三维任务，降低世界模型构建门槛 [28][31]

何恺明CVPR 2025报告深度解读：生成模型如何迈向端到端？

自动驾驶之心· 2025-06-28 21:34

生成模型技术演进 - 何恺明在CVPR 2025提出《Towards End-to-End Generative Modeling》，揭示生成模型可能面临类似识别模型"前AlexNet时代"的困境，并提出MeanFlow方法将ImageNet生成从250步迭代压缩到1步完成，FID指标逼近传统多步模型天花板 [1][7][24] - 识别模型经历从逐层训练（如DBN、DAE）到端到端训练（AlexNet）的范式革命，当前生成模型（扩散模型、自回归模型）的多步推理模式与识别模型的逐层训练存在相似性 [2][3][7] - MeanFlow核心创新在于用平均速度替代复杂积分运算，采样公式简化为一步生成，ImageNet 256x256任务中MeanFlow-XL/2在1-NFE设置下FID达3.43，显著优于iCT-XL/2的34.24和Shortcut-XL/2的10.60 [27][31][32] 识别与生成的对偶关系 - 识别是数据到语义的抽象流（具体→抽象），生成是噪声到实例的具象流（抽象→具体），两者构成数据流动的双向过程 [13][15][16] - 本质区别在于识别具有确定映射（如猫图片对应固定标签），而生成需从简单噪声映射到无限可能的数据分布，存在高度非线性 [18][20] 流匹配技术突破 - 流匹配通过构建数据分布的流场实现生成，核心公式建立数据与噪声的连续映射关系，涉及条件速度与边缘速度两个关键概念 [22] - MeanFlow推导出MeanFlow恒等式，直接参数化平均速度并定义损失函数，避免复杂积分运算，训练效率显著提升 [27][29] 前沿研究方向 - 当前研究包括Consistency Models系列（iCT/ECT/sCM）、Two-time-variable Models（CTM/Shortcut Models）、Revisiting Normalizing Flows（TarFlow）等方向 [34] - 开放性问题聚焦如何构建真正适用于端到端生成的公式，MeanFlow虽突破但仍受限于迭代框架，需探索更本质的生成建模方法 [34][35] 生成模型应用进展 - CVPR 2025涌现多模态生成突破：DiffSensei桥接多模态LLM与扩散模型实现定制漫画生成，EX-4D通过深度水密网格合成极端视角4D视频 [36][43] - 视频生成领域出现测试时训练实现的1分钟视频生成（One-Minute Video Generation）、VideoMAR基于连续token的自回归视频生成等技术 [39][48]

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

机器之心· 2025-06-28 10:54

研究背景 - 能量引导技术通过在生成模型的向量场中加入引导向量场，使生成的样本分布从训练集分布改变为被某个能量函数加权后的分布，从而实现可控生成 [7] - 现有能量引导算法主要针对扩散模型，而流匹配模型与扩散模型有本质区别，导致现有算法无法直接通用 [7] - 流匹配模型比扩散模型更一般化，允许从几乎任意源分布和耦合分布中生成样本，这使得能量引导的实现更加复杂 [1][9] 方法创新 - 首次提出流匹配能量引导理论框架，填补了该领域空白 [3] - 提出三大类无需训练的实用流匹配能量引导算法，包括蒙特卡洛估计、梯度近似和高斯近似方法 [3][13][14][17] - 该框架可将经典扩散模型能量引导算法包含为特例，具有更广泛的适用性 [3] 技术细节 - 推导出一般流匹配能量引导向量场公式，通过重要性采样技术实现精确计算 [11][13] - 梯度近似方法通过泰勒展开简化计算，在特定条件下可简化为经典的DPS算法 [15] - 高斯近似方法针对特定任务形式（如含高斯噪声的线性逆问题）可得到解析表达式 [18] 实验结果 - 在合成数据实验中，蒙特卡洛采样引导算法取得最接近真实分布的结果，验证了框架正确性 [21] - 离线强化学习任务中蒙特卡洛采样引导表现最佳，因其能产生稳定的引导采样样本 [23] - 图片逆问题中，针对问题特性设计的高斯近似引导和GDM方法表现最优 [25] 应用价值 - 为流匹配引导采样提供了理论基础，推动了生成模型的进一步应用 [27] - 通过理论分析和实验比较，为不同任务场景下的算法选择提供了实用指导 [3][27] - 代码已开源，有助于促进相关技术在实际应用中的推广 [5]

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

机器之心· 2025-06-19 17:30

CVPR 2024视觉生成建模前沿进展核心观点 - 生成模型可能重现识别模型从逐层训练到端到端训练的历史演进路径，当前主流方法（如扩散模型）仍处于"AlexNet前时代"的多步迭代阶段[36][81] - 何恺明团队提出的MeanFlow框架在单步生成任务上实现突破，1-NFE生成FID达3.43，较之前最佳方法提升50%-70%[101][107][108] - 视觉生成建模正朝着端到端、前馈式方向演进，流匹配（Flow Matching）技术成为关键突破口[59][81] 技术演进路径历史对照 - 识别模型在AlexNet后全面转向端到端训练，取代了DBN/DAE等逐层训练方法[10][15] - 当前生成模型（扩散/自回归）仍依赖多步推理，类似识别模型的"前AlexNet时代"[36] 方法论创新 - 提出平均速度场（Average Velocity）概念替代瞬时速度场，建立MeanFlow Identity理论框架[83][90] - 通过Jacobian-vector product计算时间导数，避免直接积分带来的计算复杂度[92] - 训练损失函数设计包含停止梯度（stopgrad）机制，防止高阶梯度干扰[93][96] 性能突破 ImageNet 256x256实验结果 - MeanFlow-XL/2模型： - 1-NFE生成FID 3.43，较Shortcut-XL/2的10.60提升67%[107] - 2-NFE生成FID 2.20，较iMM-XL/2的7.77提升71%[108] - 参数量与性能呈正相关： - 131M参数版本FID 6.17 → 676M参数版本FID 3.43[103][107] 横向对比 - 显著超越GANs（BigGAN FID 6.43）和自回归模型（MaskGIT FID 6.18）[109] - 接近多步扩散模型性能（DiT-XL/2 250步FID 2.10），但推理步数减少两个数量级[109] 行业研究方向前沿技术路线 - 一致性模型（Consistency Models）系列：iCT/ECT/sCM等改进版本[110] - 双时间变量模型：CTM/Flow Map Matching/Shortcut Models[111] - 归一化流重构：TarFlow等新型架构[113] 开放性问题 - 如何构建不依赖迭代框架的真正端到端生成公式[113] - 神经网络在捕捉隐式轨迹与简化生成过程间的平衡优化[113] - 生成模型的"AlexNet时刻"尚未到来，存在范式创新空间[81][113]