GenVE

搜索文档
智象未来两项研究入选ICCV 2025,发布两项视觉生成突破性成果
格隆汇· 2025-07-18 10:54
图像生成技术突破 - 公司提出全新去噪掩码自回归生成范式De-MAR,解决自回归模型在视觉生成中的细节表现力不足和推理速度慢等关键瓶颈 [1] - De-MAR框架采用双重令牌优化机制,创新性引入扩散头与去噪头模块,扩散头利用交叉注意力提升掩码区域预测精度,去噪头动态优化已知区域令牌减少误差累积 [1] - 实验数据显示,De-MAR在ImageNet和MS-COCO数据集上FID指标分别达到1.47和5.27的顶尖水平,生成速度较DiT-XL/2快45%,实现高质量与高效率的平衡 [1] 视频增强技术创新 - 公司推出生成式视频画质增强框架GenVE,通过双重对齐机制攻克传统方法细节缺失难题,图像扩散模型生成语义参考确保全局布局一致,局部感知交叉注意力模块精准迁移纹理细节 [2] - GenVE采用多重增强策略提升模型鲁棒性,包括噪声增强平衡质量与保真度,时间增强强化帧间连贯性,掩码策略提升特征利用率 [2] - 在YouHQ40、VideoLQ等数据集上,GenVE的MUSIQ、DOVER等指标全面领先,能生动还原毛发、衣物褶皱等细节,使视频画面更自然流畅 [2] 学术影响与行业应用 - 两项成果分别发表于ICCV 2025论文《Denoising Token Prediction in Masked Autoregressive Models》和《Aligning Global Semantics and Local Textures in Generative Video Enhancement》,为视觉生成技术开辟新路径 [2] - 技术突破推动高质量、高效率的多模态内容生成迈向实用化,未来有望在创意设计、影视制作等领域广泛应用 [2]