foveated视觉计算

搜索文档

CVPR 2025 | 解决XR算力瓶颈，FovealSeg框架实现毫秒级IOI分割

机器之心· 2025-06-02 13:22

核心观点 - 文章介绍了一种结合眼动追踪信息的实例分割新方法Foveated Instance Segmentation，该方法通过聚焦用户注视区域显著降低计算延迟，实现实时交互需求 [2][6] - 该方法由纽约大学和Meta Reality Labs联合开发，已被CVPR 2025接收，相关代码和论文已公开 [1][4] - 技术核心是通过人眼"凝视-扫视"特性优化计算资源分配，在保持精度的同时将延迟从300ms降至84ms，FLOPs降至传统方法的1/75 [6][18][20] 从算力瓶颈谈起 - 当前AR/VR头显的高分辨率画面实例分割延迟高达数百毫秒，远超50-100ms的舒适阈值 [6] - 研究发现用户仅关注画面极小区域（如卧室场景中的床或衣柜），整图分割造成算力浪费 [6] - 实验显示输入分辨率从640×640降至64×64时，延迟可从300ms级骤降至十毫秒级 [6] 人眼注视模式带来的灵感 - XR用户视线呈"凝视-扫视"交替模式：每秒1-3次扫视（20-200ms/次），凝视期仅注视点周围有高敏锐度 [10] - 统计数据显示注视点位移低于0.1阈值时可直接复用上一帧分割结果，为跨帧掩码复用提供依据 [10] - 通过像素差分可将视频切分为"视段"，段内帧间差异极小，支持区域限定分割策略 [10] 系统总览：FovealSeg框架 - 系统通过120Hz眼动追踪（5-10ms延迟）获取注视坐标，结合前向摄像头采集画面 [13] - 采用双重检测机制：扫视检测（阈值α）和场景突变检测（阈值β），未触发则限定分割区域并复用历史掩码 [13] - 流程图显示系统能动态调整计算资源分配，优先处理注视点附近IOI区域 [13] 算法核心：FSNet - 显著性自适应下采样：将注视坐标编码为距离图，与原图拼接成四通道张量，按需放大IOI区域 [15] - 双分支结构：分割分支输出二值IOI掩码，分类分支输出类别向量，通过外积生成最终掩码 [15] - 阶段式训练：先固定分割网络训练Saliency DNN，再微调分割/分类分支，采用Dice Loss+面积加权Focal Loss解决小目标问题 [15] 效果验证：速度与精度双赢 - 在ADE20K等数据集测试显示端到端延迟仅84ms，满足实时交互要求 [18] - 64×64输入下IoU达0.36以上，比统一下采样基线高≥0.14 [20] - 最优参数设置下FLOPs降至无下采样基线的1/75，比无帧复用基线降低近两倍 [20] 消融与讨论 - 实验验证下采样倍率、Gaussian Kernel大小对精度的影响，显示人因驱动设计的必要性 [22] - 注视坐标替换为随机噪声会导致IoU下降至少0.3，证明注视信息的关键作用 [24] - Kernel越大显著区域权重越高，精度随之提升，但需平衡计算开销 [24] 小结与展望 - 该技术为当前XR终端有限算力下的毫秒级IOI分割提供可行方案 [24] - 随着高精度眼动传感器普及，foveated视觉计算或成XR生态默认范式 [24] - 方法论可扩展至实时计算密集型任务（如场景理解、三维重建），提供能效平衡新思路 [24]

foveated视觉计算

Artificial Intelligence

FovealSeg框架

FSNet

foveated视觉计算

Artificial Intelligence

FovealSeg框架

FSNet