Workflow
ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体
机器之心·2025-10-16 12:51

研究背景与核心创新 - 研究团队提出第一人称联合预测智能体EgoAgent,其核心创新在于首次让模型在统一的潜空间中同时学习视觉表征、人体行动和世界预测三大核心任务,打破了传统AI中感知、控制和预测分离的壁垒[2] - 该模型受人类认知学习机制和共同编码理论启发,旨在模拟人类大脑、身体和环境之间的持续互动,使AI能够通过亲身经历世界去预测未来、采取行动并理解行动如何改变环境[5] - 与以往将感知-行动-预测循环拆解为三个独立任务分别训练的AI模型不同,EgoAgent在大规模第一人称视角视频与同步采集的三维人体运动数据上实现了三项任务的联合学习[6] 技术架构与设计 - 研究团队设计了名为JEAP的核心架构,该架构基于联合嵌入预测架构世界模型进行扩展,引入了对世界状态和三维人体动作的多模态自回归预测,使模型能够在一个统一的Transformer框架内同时学习三项任务[6] - EgoAgent采用状态-动作交错式联合预测,将第一人称视频帧和三维人体动作交替编码为统一的序列,并通过Transformer的因果自注意力机制进行建模,使其能同时捕捉感知如何驱动动作以及动作如何影响未来世界两种关系[8] - 模型内部包含预测器和观察器两个分支,预测器从过去的状态-动作序列中预测未来的世界状态和人体动作,而观察器则仅对未来帧进行编码生成目标表征用于监督预测器的学习,这一机制拓展了传统学习框架在时间序列上的自监督学习能力[8] - 在两个分支中引入了Query Tokens作为可学习的提示词,用于在共享的潜空间中调度不同任务的注意力,这些query tokens可以主动提问模型的潜在空间,从而分别抽取与视觉表征或动作生成相关的特征,并在反向传播中解耦各任务的梯度流[10] - 与以往依赖像素重建的方法不同,EgoAgent在连续语义嵌入空间中进行学习,使其学习方式更接近人类的认知方式,并提升了模型在未来状态预测方面的性能[10] 性能表现与实验成果 - 在第一视角世界状态预测任务中,3亿参数的EgoAgent较最新的第一视角视觉表征模型DoRA在Top1准确率上提升了12.86%,在mAP指标上提升了13.05%[13] - 扩展至10亿参数规模后,EgoAgent的性能实现了持续提升[13] - 在三维人体动作预测任务上,EgoAgent相比Diffusion Policy以及专用的人体运动预测模型,在MPJPE上达到最低误差,在MPJVE指标上也表现出高度竞争力[15] - 在视觉表征任务中,EgoAgent-1B在ImageNet-1K上的Top-1准确率比DoRA提高了1.32%[17] - 在TriFinger机器人操作模拟器中,EgoAgent使用100段演示数据通过3层MLP微调,在抓取方块和移动方块两项任务中分别超越DoRA 3.32%和3.9%[17] 消融实验与任务协同 - 消融实验表明,视觉表征、动作预测与世界预测三项任务相互支撑、缺一不可,当去掉其中任意一项任务时,其余任务的性能都会下降[18] - 当三项任务在统一框架下联合优化时,模型在各项评估指标上均获得最优结果,表明多任务的联合学习能够形成正向反馈机制[18] - 进一步的消融结果表明,在语义特征空间中进行学习的模型,在世界预测的准确性和视觉表征的有效性方面均显著优于基于像素级重建的潜空间建模[18] 应用前景与行业影响 - EgoAgent代表了一种新的AI学习范式,其应用前景广阔,有望提升机器人的场景感知和操作能力,在复杂环境中精准预判物体动态和自身动作对环境的影响,实现更自然的交互和协作[21] - 基于第一人称视角的学习机制,可能帮助AR/VR系统更好地理解用户的动作语义与环境动态,增强体验的沉浸感[21]