Workflow
foveated视觉计算
icon
搜索文档
CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割
机器之心· 2025-06-02 13:22
核心观点 - 文章介绍了一种结合眼动追踪信息的实例分割新方法Foveated Instance Segmentation,该方法通过聚焦用户注视区域显著降低计算延迟,实现实时交互需求 [2][6] - 该方法由纽约大学和Meta Reality Labs联合开发,已被CVPR 2025接收,相关代码和论文已公开 [1][4] - 技术核心是通过人眼"凝视-扫视"特性优化计算资源分配,在保持精度的同时将延迟从300ms降至84ms,FLOPs降至传统方法的1/75 [6][18][20] 从算力瓶颈谈起 - 当前AR/VR头显的高分辨率画面实例分割延迟高达数百毫秒,远超50-100ms的舒适阈值 [6] - 研究发现用户仅关注画面极小区域(如卧室场景中的床或衣柜),整图分割造成算力浪费 [6] - 实验显示输入分辨率从640×640降至64×64时,延迟可从300ms级骤降至十毫秒级 [6] 人眼注视模式带来的灵感 - XR用户视线呈"凝视-扫视"交替模式:每秒1-3次扫视(20-200ms/次),凝视期仅注视点周围有高敏锐度 [10] - 统计数据显示注视点位移低于0.1阈值时可直接复用上一帧分割结果,为跨帧掩码复用提供依据 [10] - 通过像素差分可将视频切分为"视段",段内帧间差异极小,支持区域限定分割策略 [10] 系统总览:FovealSeg框架 - 系统通过120Hz眼动追踪(5-10ms延迟)获取注视坐标,结合前向摄像头采集画面 [13] - 采用双重检测机制:扫视检测(阈值α)和场景突变检测(阈值β),未触发则限定分割区域并复用历史掩码 [13] - 流程图显示系统能动态调整计算资源分配,优先处理注视点附近IOI区域 [13] 算法核心:FSNet - 显著性自适应下采样:将注视坐标编码为距离图,与原图拼接成四通道张量,按需放大IOI区域 [15] - 双分支结构:分割分支输出二值IOI掩码,分类分支输出类别向量,通过外积生成最终掩码 [15] - 阶段式训练:先固定分割网络训练Saliency DNN,再微调分割/分类分支,采用Dice Loss+面积加权Focal Loss解决小目标问题 [15] 效果验证:速度与精度双赢 - 在ADE20K等数据集测试显示端到端延迟仅84ms,满足实时交互要求 [18] - 64×64输入下IoU达0.36以上,比统一下采样基线高≥0.14 [20] - 最优参数设置下FLOPs降至无下采样基线的1/75,比无帧复用基线降低近两倍 [20] 消融与讨论 - 实验验证下采样倍率、Gaussian Kernel大小对精度的影响,显示人因驱动设计的必要性 [22] - 注视坐标替换为随机噪声会导致IoU下降至少0.3,证明注视信息的关键作用 [24] - Kernel越大显著区域权重越高,精度随之提升,但需平衡计算开销 [24] 小结与展望 - 该技术为当前XR终端有限算力下的毫秒级IOI分割提供可行方案 [24] - 随着高精度眼动传感器普及,foveated视觉计算或成XR生态默认范式 [24] - 方法论可扩展至实时计算密集型任务(如场景理解、三维重建),提供能效平衡新思路 [24]