Sim2Real Gap

搜索文档
提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题
量子位· 2025-07-20 10:49
研究背景 - 光线与环境交互是具身智能体感知数字和现实世界的基础方式 [4] - 现实环境数据采集成本高昂 仿真环境数据受算力限制导致视觉真实性损失 [4] - 生成式模型可对视频数据重渲染 增加真实数据多样性并弥合Sim2Real Gap [4] 技术挑战 - 训练视频伴随复杂运动、物体频繁进出、长序列高分辨率 导致算法面临三大问题:数据分布受限、计算开销巨大、时序一致性差 [5] TC-Light算法创新 - 零样本时序模型扩展:基于IC-Light和VidToMe架构 引入Decayed Multi-Axis Denoising模块增强一致性 [8][9] - 两阶段优化策略:第一阶段通过Appearance Embedding和光流对齐全局光照(A100上300帧540p视频耗时数十秒) 第二阶段基于时空码本压缩优化细节(同规格视频耗时约2分钟) [13][14] - 计算效率优势:相比NeRF/3DGS方案训练时间从10-30分钟缩短至分钟级 显存占用优化 [14] 性能表现 - 定量指标:WarpSSIM达91.75%(优于Slicedit的85.37%) 用户偏好度23.96%(超COSMOS-Transfer1的16.06%) [16] - 定性对比:避免Slicedit的不自然渲染、IC-Light的时序不一致等问题 [19] - 硬件效率:A100处理300帧540p视频总耗时约1255秒 显存占用14.37GB [16] 应用价值 - 有效减少Sim2Real Gap 实现Real2Real数据增强 降低具身模型迁移的微调成本 [2][4] - 开源属性:论文、Demo代码均已公开 提供新的视频编辑范式 [3][20]