扩散模型
搜索文档
世界模型,是否正在逼近自己的「ChatGPT时刻」?
新浪财经· 2025-12-02 19:22
世界模型的定义与前景 - 世界模型本质是预测模型,给定当前状态及动作序列,预测下一个状态 [3] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量状态模拟 [3] - 终极目标是对世界进行1:1建模,可能达到原子级别,但实际需根据不同任务目的进行建模 [3] - 三大应用前景包括:为自动驾驶、具身智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分 [3] 世界模型的构建与数据挑战 - 构建面临核心悖论:先有模型还是先有数据,自动驾驶公司积累上亿公里数据但99%为晴天道路数据,缺乏危险场景数据 [5] - 可行路径为先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强世界模型 [5] - 有公司构建世界模型时数据采集成本达千万级,研究团队难以承担,需通过特定高质量数据提升模型效果 [5] - 提出循环过程:先有0.1版本模型生成0.1版本数据,再进一步训练模型,采用生成数据与真实数据混合模式 [5] 技术实现路径与架构分歧 - 技术路径存在分歧,有研究团队偏向融入物理信息保持视觉模型与物理世界一致性如重力 [6] - 模型构建与需求相关,面向影视游戏方向视频生成更合适,面向通用任务可能不需严格保持物理规律 [6] - 随着生成能力增强,模型最终形态可能是纯生成式,无需重建 [6] - 架构存在扩散模型与自回归模型之争,扩散模型从随机噪声还原内容更接近物理世界生成方式 [7] - 观察到技术融合趋势,包括OpenAI正探索将不同架构在特定阶段统一,如使用token化扩散 [7] - 已有扩散和自回归结合工作,扩散擅长捕捉现实世界分布,自回归补足时序与逻辑连贯性 [7] 发展时间表与商业化前景 - 世界模型的ChatGPT时刻可能需要三年左右出现,目前最困难是缺乏高质量长视频数据 [8] - 视频生成时长大多在5到10秒,大厂演示仅达一分钟量级,因此ChatGPT时刻可能需更长时间 [8] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟需开拓新研究方向 [8] - 存在ToB和ToC商业化挑战,如ToB端按token收费时如何定义视频生成数据价值,ToC端如何提升token [8] - 未来需训练强化学习Agent并将视觉-语言-动作技术进化为世界-语言-动作技术 [8]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 08:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
机器之心· 2025-11-29 09:49
世界模型的定义与愿景 - 世界模型本质上是预测模型,给定当前状态及动作序列,预测下一个状态 [4] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量3A大作级的虚拟环境模拟 [4] - 终极目标是将世界1:1建模,可能到原子级别,但实际只需依照不同任务目的进行建模 [4] 世界模型的应用前景 - 为自动驾驶、具身智能等多模态任务提供更多数据 [4] - 建立模型与世界的结合以替代传统模拟器 [4] - 最终成为端到端系统的一部分 [4] 数据瓶颈与构建路径 - 自动驾驶公司积累上亿公里数据,但99%都是晴天道路数据,真正危险场景数据稀缺 [5] - 构建世界模型时采集数据的成本在千万级,非研究团队能直接承担 [5] - 可行路径为:先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强模型 [5] - 采用“生成数据 + 真实数据”的混合模式,通过模型、产品、数据的循环推动发展 [5] 技术路径与架构分歧 - 技术路径分歧明显:有团队偏向融入物理信息以保持一致性(如重力),而面向影视、游戏等创意领域则视频生成可能更合适,甚至不需要严格遵守物理规律 [7] - 模型最终形态可能是纯生成的,但随着生成能力增强,对物理规律的掌握会越来越好 [7] - 在架构上,扩散模型从随机噪声中逐步还原内容,更接近物理世界生成方式及人脑解码机制,被认为更适合世界模型 [8] - 观察到技术融合趋势,如OpenAI正探索将不同架构(如token化的扩散)统一 [9] - 扩散模型擅长捕捉现实世界真实分布,但需自回归模型补足时序与逻辑连贯性,已有扩散和自回归结合的工作 [9] 商业化挑战与发展时间表 - 世界模型存在ToB和ToC两方面的商业化挑战:ToB端需定义视频生成数据对用户的价值,ToC端需提升token价值 [10] - 业内人士估计世界模型的“ChatGPT时刻”可能需要三年左右出现 [10] - 目前最困难的是缺乏高质量长视频数据,视频生成时长大多在5到10秒,大厂演示也只能做到一分钟量级 [10] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟,需开拓新研究方向推动AI进步 [10] 未来技术演进方向 - 未来世界模型可能更需要训练强化学习Agent,以及如何将VLA(视觉-语言-动作)进化为WLA(世界-语言-动作) [11]
NeurIPS 2025奖项出炉,Qwen获最佳论文
具身智能之心· 2025-11-28 08:04
会议概况 - NeurIPS 2025会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] 最佳论文奖 - **论文1:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)** - 研究核心为解决大语言模型生成内容同质化问题,提出了Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [7] - 提出了首个用于刻画语言模型面对开放式提示的综合分类体系,包含6个顶层类别和17个子类别 [7] - 基于该数据集的研究揭示了语言模型在开放式生成中存在显著的“人工蜂群思维”效应,包括模型内重复和模型间同质化 [8][14] - 该数据集包含31,250条人工标注,每个样本由25位独立标注者参与 [9] - **论文2:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free** - 论文首次系统性分析了门控机制对大语言模型的有效性,证明其通过增强注意力机制的非线性和提供输入相关的稀疏性来提升性能 [13] - 研究显示,在SDPA之后进行门控取得了最佳效果,在15B MoE模型上提升了测试集PPL和MMLU性能 [17] - 门控机制实现了更低的最终训练损失,并大幅增强了训练稳定性,有效缓解了损失尖峰,允许使用更高学习率 [17] - 该技术已成功应用于Qwen3-Next模型,显著提升了模型性能与鲁棒性 [13][18] - **论文3:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities** - 论文证明将网络深度增加到1024层可显著提升自监督强化学习性能,在模拟任务上性能提升了2倍至50倍 [20] - 该方法在无监督的目标条件设定下进行,智能体从零开始探索,增加模型深度不仅提升了成功率,还改变了学到的行为 [20] - **论文4:Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training** - 研究揭示了扩散模型训练动力学中的隐式正则化机制,识别出模型开始生成高质量样本的时间点t_g和出现记忆化的时间点t_m [22] - 关键发现是t_m随训练集大小N线性增长,而t_g基本不变,随着数据集变大,会出现一个越来越宽的泛化训练时间窗口 [22] 最佳论文亚军 - **论文1:Reinforcement Learning with Verifiable Rewards is Insufficient for Novel Reasoning in LLMs** - 论文给出了关键否定性结论,挑战了“带可验证奖励的强化学习能够激发LLM全新推理能力”这一广泛接受的假设 [28] - **论文2:Optimal Mistake Bounds for Transductive Online Learning** - 该研究解决了传导式在线学习领域一个长达30年的公开难题,精确刻画了最优错误上界为Ω(√d),并给出了与之匹配的O(√d)上界 [32] - **论文3:Superposition Yields Robust Neural Scaling** - 论文论证表征叠加是支配神经网络缩放定律的主要机制,超越了现象性描述,为缩放定律提供了机制性解释 [35] 时间检验奖 - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》获奖 [2][38] - 该论文是计算机视觉领域里程碑工作,奠定了现代目标检测框架的核心范式,截至现在已被引用超过56,700次 [38][42] - 论文实现了第一个完全可学习的两阶段目标检测pipeline,取代了selective search和手工设计候选框的方法 [43] Sejnowski-Hinton奖 - 获奖论文为2016年发表的《Random synaptic feedback weights support error backpropagation for deep learning》 [45] - 该论文提出了著名的反馈对齐机制,证明多层网络可在无需对称反馈权重下有效学习,推动了生物可行学习规则的研究方向 [48]
NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖
36氪· 2025-11-27 15:27
NeurIPS 2025奖项概览 - NeurIPS 2025共评选出4篇最佳论文和3篇亚军论文(Runners Up)[1][2] - 本届会议是首个双城会议,分别于12月2日-7日在圣地亚哥和11月30日-12月5日在墨西哥城举办[3] - 时间检验奖(Test of Time Paper Awards)授予了10年前发表的Faster R-CNN论文,该论文已被引用超过56,700次[49][50] 最佳论文一:大语言模型多样性评估 - 研究核心是评估大语言模型(LLM)在开放式生成任务中的输出多样性,并提出了“人工蜂群思维效应”(Artificial Hivemind effect)的概念,指出现有模型存在显著的输出同质化问题[5][6][10] - 为解决评估方法不足的问题,研究团队推出了大规模数据集Infinity-Chat,该数据集包含2.6万条真实世界开放式用户查询以及31,250条人类标注,每个示例均由25位标注者独立评判[6][12] - 研究首次提出了针对LM开放式提示的完整分类体系,包含6大顶层类别及其下17个子类别,发现最先进的LM、奖励模型与LM评判器较难校准人类评分[8][12] 最佳论文二:门控注意力机制 - 论文由阿里千问团队等机构合作完成,核心发现是在缩放点积注意力(SDPA)后引入头部特异性Sigmoid门控这一简单修改,可持续提升模型性能[14][15][17] - 该改进在3.5万亿词元数据集上训练的15B混合专家模型(30种变体)与1.7B稠密模型上得到验证,能增强训练稳定性、允许更大学习率,并改善缩放特性[15][17] - 门控机制的有效性归因于两个关键因素:在Softmax注意力的低秩映射中引入非线性变换,以及采用查询依赖的稀疏门控分数调控SDPA输出,该技术已应用于Qwen3-Next模型系列[18] 最佳论文三:自监督强化学习的深度缩放 - 研究聚焦于自监督强化学习(RL)的网络深度缩放,证明将网络深度提升至1024层可带来显著性能突破,而近年多数RL研究采用的浅层架构仅约2-5层[21][24] - 在无监督目标条件设定下,新方法在模拟运动与操控任务上将自监督对比强化学习算法的性能提升了2至50倍,显著超越其他目标条件基线模型[24][26] - 网络深度的增加不仅提升了任务成功率,更引发了智能体学习行为的质性转变,实现了可扩展性的质的飞跃[24][26] 最佳论文四:扩散模型的隐式正则化 - 研究旨在理解扩散模型避免训练数据记忆并实现泛化的内在机制,发现了两个关键时间尺度:早期阶段τgen(模型开始生成高质量样本)和后期阶段τmem(记忆现象显现)[28][29] - 关键规律是τmem随训练数据量n呈线性增长,而τgen保持恒定,形成了随n扩大的有效训练时间窗口,揭示了训练动态中存在的隐式动态正则化机制[29][31] - 结论通过基于标准U-Net架构在真实与合成数据集上的数值实验,以及采用高维极限可解析随机特征模型的理论分析得到验证[31] 亚军论文核心发现 - 论文一系统评估了强化学习(RLVR)对大语言模型推理力的真实增益,结果显示RLVR主要提升采样效率,在小k(如k=1)更易命中正确路径,但在大k时基座模型表现更好,当前RL训练并未诱发全新的推理模式[33][34][37] - 论文二解决了“无标签数据在在线学习中的力量”这一开放问题,对任意Littlestone维度为d的概念类,传导式在线学习的最小错误次数精确为Θ(√d),与标准在线学习的Θ(d)形成严格的二次差距[38][39][41] - 论文三提出“表征叠加”是神经缩放律(Neural Scaling)的关键机制,指出LLM用少量维度承载超量特征,由此产生向量几何重叠并决定损失的Scaling形态,该发现与Chinchilla Scaling Law一致[42][46][48] 时间检验奖获奖工作 - 获奖论文《Faster R-CNN》由任少卿、何恺明、Ross Gisshick和孙剑合著,对计算机视觉领域产生了深远影响,成为众多后续研究工作的基石[50] - 该论文在实现极高检测精度的同时,达到了接近实时的检测速度(每秒5帧),使基于神经网络的目标检测模型得以应用于现实世界的各种场景[50] - 这是首个用完全可学习的两阶段流程(包括区域建议网络RPN和检测网络)取代传统选择性搜索和人工设计候选框方法的工作[50]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 11:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
即将开课!面向量产的端到端小班课,上岸高阶算法岗位~
自动驾驶之心· 2025-11-27 08:04
课程核心定位 - 课程聚焦于自动驾驶领域端到端技术的量产化实战应用,旨在解决行业量产人才稀缺的问题 [1] - 课程设计历时三个月,内容涵盖从模型优化、场景优化、数据优化到下游规划兜底的全栈技能 [1] - 课程由自动驾驶之心联合工业界算法专家开设,重点为面向就业直击落地,目前仅剩35个招生名额 [3][5] 核心算法与技术内容 - 课程涉及的核心算法包括一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习等 [3] - 技术组合涵盖扩散模型+强化学习、自回归+强化学习、时空联合规划等前沿方法 [3] - 课程最后将分享实际的量产经验,帮助学员构建完整的量产优化知识体系 [3] 讲师背景 - 讲师王路拥有C9本科和QS50 PhD学历,已发表多篇CCF-A和CCF-B论文 [6] - 现任国内顶级tier1公司算法专家,从事大模型、世界模型等前沿算法的预研和量产工作 [6] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [6] 课程大纲详解 - 第一章介绍主流感知模型一体化架构和经典规控learning化方案,以及开源数据集和评测方式 [9] - 第二章讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递,并通过PLUTO算法实战 [10] - 第三章深入一段式端到端框架,涵盖基于VLA和diffusion的方法,重点学习VAD系列 [11] - 第四章专注导航信息的量产应用,包括导航地图格式、编码嵌入方式及能力发挥 [12] - 第五章从模仿学习过渡到强化学习,重点介绍RL算法及其训练策略以解决corner-case场景 [13] - 第六章进行nn planner项目实战,结合模仿学习与强化学习,重点讲解扩散模型和自回归算法 [14] - 第七章介绍时空联合规划等轨迹平滑优化算法,作为模型直出的兜底方案确保轨迹稳定可靠 [15] - 第八章从数据、模型、场景、规则多视角分享量产经验,提升系统能力边界 [16] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学加VIP群答疑模式 [17] - 学员需自备GPU,推荐算力在4090及以上,并具备BEV感知、视觉Transformer等算法基础 [18] - 要求掌握强化学习、扩散模型理论基础,熟悉Python、PyTorch及mmdet3d算法框架 [18] - 需要一定的高等数学、线性代数和矩阵论基础,课程按周解锁章节,持续至次年2月底 [19]
浙大一篇中稿AAAI'26的工作DiffRefiner:两阶段轨迹预测框架,创下NAVSIM新纪录!
自动驾驶之心· 2025-11-25 08:03
文章核心观点 - 提出一种名为DiffRefiner的全新两阶段轨迹预测框架,该框架融合了判别式轨迹提议与生成式扩散精炼,旨在解决端到端自动驾驶规划中的多模态挑战 [3][9] - 该框架通过基于Transformer的提议解码器生成粗粒度轨迹预测,再通过扩散精炼器进行迭代优化,显著提升了规划性能 [3][9] - 在NAVSIM v2和Bench2Drive两个公开基准测试中均达到当前最优性能,EPDMS分数为87.4,驾驶分数为87.1,成功率为71.4% [3][11][41][42] 技术背景与动机 - 传统单阶段回归方法在处理轨迹预测任务的多模态特性方面存在局限,易导致预测效果欠佳和泛化能力差 [7] - 基于扩散模型的生成式方法能学习未来运动的潜在分布,生成多样化轨迹,但依赖无结构噪声或固定锚点初始化,存在计算延迟和场景适应性不足的问题 [2][8] - 离散化解空间的方法(如基于评分的方法)随着锚点集规模增大会导致计算复杂度显著增加,限制其在延迟敏感系统中的应用 [7] DiffRefiner框架设计 - 采用粗到细的两阶段架构:第一阶段使用基于Transformer的提议解码器回归预定义轨迹锚点,生成粗粒度轨迹提议 [9][14][20] - 第二阶段引入条件扩散精炼器,对初始提议进行迭代去噪与优化,并设计了细粒度去噪解码器以增强场景适应性 [9][14][22] - 框架整合三个关键组件:以BEV为中心的感知模块、粗轨迹提议解码器和基于扩散的轨迹精炼器 [14] 关键技术创新 - 提出细粒度语义交互模块,通过交叉注意力和可变形注意力分层整合全局场景上下文与局部几何细节,实现轨迹与环境的精准对齐 [10][27][30] - 采用自适应门控网络动态融合全局场景表征与局部语义信息,平衡粗粒度上下文理解与精准空间对齐 [10][32] - 通过两阶段训练方案优化模型,采用赢者通吃策略选择最接近真实轨迹的预测进行损失计算 [34][36] 实验验证与性能 - 在NAVSIM v2开环基准测试中,EPDMS分数达到87.4,使用ResNet34骨干网络时相比之前最佳方法提升3.7%,使用V2-99骨干网络时提升1.6% [3][41] - 在Bench2Drive闭环基准测试中,驾驶分数达到87.1,成功率达到71.4%,相比之前最佳方法驾驶分数提升0.3,成功率提升2.3 [3][42] - 消融实验证实了各组件有效性,引入精炼器使EPDMS提升1.2,仅需一次去噪步骤即可实现接近最优性能,表明框架适用于实时系统 [43][50] 性能优势体现 - 在复杂交互场景中,该方法能更好地关注细粒度场景细节,减少与周围智能体的碰撞,并更严格地遵守地图约束 [51] - 该混合范式在大多数多能力指标上均取得持续提升,证明了其在多样化交互式驾驶场景中的鲁棒性和有效性 [42]
为啥机器人集体放弃“跑酷” 全去“叠衣服”了?
机器人大讲堂· 2025-11-24 23:00
行业风向转变 - 机器人行业从展示跑酷、跳舞等极限动作转向专注于叠衣服等家务任务[1][3] - 企业减少概念炒作,开始关注市场需求,技术演示更务实[7] 技术演示案例 - Figure 03使用五指手叠毛巾,但边角容易卷起[5] - Weave Robotics的半自动叠衣视频采用2倍快进,实际速度偏慢[5][20] - 谷歌ALOHA挂衣演示未剪帧,动作缓慢且对齐衣架有困难,但因真实感获得认可[8] - Dyna Robotics让机器人连续18小时叠餐巾,展示单一任务的执着[8] 技术突破驱动 - 十年前PR2机器人需固定绿色背景才能叠简单衬衫,动作缓慢且环境适应性差[9] - 扩散模型和零样本学习成熟后,机器人无需逐步骤编程,仅凭几千条人类演示数据即可学会叠衣[13] - 谷歌ALOHA仅用6000条系鞋带演示数据就让机械臂学会精细操作,叠衣服容错率更高且数据收集更简单[13] - HuggingFace、LeRobot等生态系统降低技术门槛,初创团队可借助预训练模型快速开发演示[13] 市场需求匹配 - 叠衣服是刚性需求,许多用户愿意为此付费,家庭场景价值感知度高[15] - 相比工业场景,家用叠衣落地路径更清晰,容错率高,试错成本低[15] - 任务失败仅需重新摆放衣物,不易损坏设备,适合资金有限的初创团队打磨技术[15] 当前技术局限 - Figure 03叠衣时放得太快,边角卷翘,机器人无法感知衣物材质和受力情况[18] - 1X Technologies的Neo机器人动作僵硬,缺乏人类灵活调整的能力[20] - 演示多在实验室固定环境中进行,桌面纯色平整,衣物单一,背景无干扰[22] - 真实家庭环境复杂,衣物可能混搭,桌面杂乱,光线变化,机器人对齐衣架困难[22] - 企业关注“能否做到”,用户更关心“能否做好”,如是否损坏真丝衬衫、5分钟内叠完一篮衣物等[24] - 当前演示仅完成“折叠”动作,未涉及取衣、整理、收纳等关键步骤[24] 行业发展逻辑 - 早期跑酷、跳舞演示旨在秀肌肉,吸引资本和行业热度[27] - 叠衣赛道爆发标志行业从“我能做什么”转向“用户需要什么”[27] - 工业机器人巨头如发那科、安川的成功在于围绕真实需求研发,如焊接精度和搬运效率[27] - 人形机器人需先解决用户刚需痛点,再拓展复杂功能,遵循市场需求导向的发展逻辑[27] 未来技术方向 - 需优化算法和升级硬件,解决感知精度不足、操作不灵活等问题[29] - 《Science Robotics》论文提出机械臂24小时学会1000项任务的方向,通过高效算法减少数据依赖,提升环境适应性[29] - 技术成熟后,机器人可能从叠衣服拓展到洗碗、擦窗、整理衣柜等更多场景,但需始终围绕用户需求[29] 行业价值回归 - 技术价值在于解决日常真实问题,而非突破极限[30] - 企业应聚焦用户诉求,提升折叠速度、操作精度和场景适配性,实现从取衣到收纳的全流程自动化[30] - 当家务机器人成为日常,人形机器人才能真正实现商业价值[30]
NeurIPS 2025 | UniLumos: 引入物理反馈的统一图像视频重打光框架,实现20倍加速的真实光影重塑!
机器之心· 2025-11-24 17:30
研究背景与现有方案的局限性 - 重光照技术旨在编辑图像或视频中的光照效果,在电影、游戏、虚拟现实和增强现实等领域具有重要应用价值[11] - 当前基于扩散模型的方法存在物理一致性缺失的问题,常导致阴影错位、高光过曝和遮挡关系错误等不合理现象[11][15] - 现有评估体系不完善,通用图像评价指标无法针对性衡量光照属性的准确性,制约了模型在光照可控性方面的优化[12] UniLumos框架的核心创新 - 引入来自RGB空间的几何反馈机制,采用深度图与表面法线图作为监督信号,强制模型学习光影与三维场景结构的对齐关系,显著提升物理一致性[22] - 采用路径一致性学习,在少步训练条件下保持有效监督,使推理速度较现有SOTA方法提升达20倍[3][22][33] - 构建了细粒度光影评估基准LumosBench,基于视觉语言模型实现自动化、可解释的评估,覆盖方向、光源类型、强度等六个光照维度[4][22] 高质量训练数据构建 - 构建了高质量光影训练数据集LumosData,包含11万视频样本与120万图像样本的大规模高质量光影数据对[23] - 数据构建流程包含四个阶段,用于从真实场景数据生成多样化的重光照样本对,并引入结构化的六维光照标注协议[20][21][22] 模型架构与训练策略 - 模型基于视频生成模型Wan 2.1构建,将对齐后的视频输入经由Wan-VAE编码器处理得到语义潜表示[24] - 训练目标融合了流匹配损失、路径一致性损失和物理引导损失三种互补的损失函数,以权衡外观保真度、几何一致性与推理速度[24] - 采用选择性优化策略,在每轮训练迭代中按80/20比例划分批次,平衡物理监督与训练效率[24] 实验结果与性能表现 - 在定量结果中,UniLumos在所有关键指标上均取得最优性能,PSNR达26.719(图像)和25.031(视频),SSIM达0.913(图像)和0.891(视频)[27][28] - 在LumosBench细粒度可控性评估中,UniLumos平均可控性得分达0.773,显著高于其他专有重光照模型和通用视频生成模型[29][30] - 在生成49帧480p视频的任务中,UniLumos仅需12秒,而IC-Light需277秒,Light-A-Video需756秒,实现了显著的推理效率提升[33] 消融实验与模块分析 - 物理引导反馈模块对性能至关重要,移除深度与法向反馈会导致图像质量与物理一致性显著下降,其中法向监督的作用尤为关键[35] - 路径一致性模块在几乎不牺牲生成性能的前提下,为少步生成场景带来了可观的效率优势[35] - 统一训练方法在图像和视频两类输入上均取得了高质量的重光照结果,实现了最优的时序一致性平衡[35]