AI 为什么不会规划？Yann LeCun团队：问题出在「时间是弯的」

文章核心观点 - 文章围绕Yann LeCun倡导的“世界模型”研究路线展开，指出当前生成式AI缺乏对现实世界进行建模和预测未来的能力[1][2] - 介绍了一项由Meta与New York University等机构研究者完成的新研究，该研究旨在解决世界模型中“潜在空间规划”的基础问题，核心是让AI在潜在空间中的时间轨迹“变直”，以提升规划效率[2][33][35] 研究背景与问题 - 当前预训练视觉编码器（如DINO）学到的潜在表示，其时间轨迹通常具有较高的曲率，这增加了在该空间中进行预测和规划的难度[5][6] - 高曲率轨迹导致两个关键问题：1）简单的欧几里得距离无法准确反映到达目标状态的真实难度（测地距离）；2）基于梯度的规划算法容易陷入局部最优，导致规划不稳定[11] 核心方法与理论 - 研究灵感来源于神经科学的“感知直道化”假设，即人类视觉系统倾向于将复杂视觉输入转化为大脑皮层中更平直的表征以预测运动[4] - 研究团队引入了“曲率正则化器”这一几何约束，旨在“拉直”潜在空间中的时间轨迹[8][12] - 直道化的核心数学定义是要求潜在空间中相邻时间步的位移向量尽可能一致，以实现接近匀速直线运动的轨迹[13][14] - 为此设计了曲率损失函数，用以惩罚轨迹的弯曲程度，强制编码器将视觉输入映射到更平滑的线性演化空间[15][17] 技术实现与效果 - 模型在训练过程中，共同学习一个更平滑的编码器和一个更直觉的预测器[19][20] - “拉直”操作产生两大效应：1）在拉直后的空间里，两点间的欧几里得距离能精准代表状态转移成本；2）规划目标对路径的引导变得更线性稳定[22] - 在PushT和UMaze任务上的可视化对比显示，直道化产生了更少弯曲、更平滑的轨迹，使欧几里得距离能更真实地反映通往目标的实际步数进展[23] 实验验证 - 研究设计了一个极具挑战性的“Teleport-PointMaze”（带传送门的点迷宫）实验环境，其中智能体触碰右侧墙壁会瞬间传送到左侧[25][26] - 实验结果表明，经过时间直道化训练的编码器（如ResNet），其潜在空间距离热力图梯度平滑，完美契合迷宫的地标真值，能精准指导智能体穿过传送门[31][36] - 相比之下，DINOv2编码器的热力图支离破碎，无法反映迷宫物理拓扑；未经直道化微调的投影器热力图也严重扭曲[36] - 数据对比显示，在编码器类型相同的情况下，潜在曲率的降低（以更高的余弦相似度表示）通常会导致基于梯度的开环规划成功率提升[28] 研究意义与展望 - 该研究为“什么样的表示才真正适合规划”这一问题提供了一个简单而具启发性的答案：在一个好的潜在空间中，时间轨迹应尽可能笔直[33] - 这种“时间直道化”的设计不仅能提高规划效率，还可能影响机器人控制、视频世界模型、自动驾驶等多个未来研究方向[34] - 研究被认为是构建能够理解并预测世界的“世界模型”、实现真正智能的重要一步[34][35]