伯克利&Meta面向具身智能的世界模型：让AI通过全身动作「看见」未来

本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。几十年来，人工智能领域一直在思考一个看似简单但非常根本的问题：如果一个智能体要在真实世界中行动、规划，并且和环境互动，它需要一个怎样的「世界模型」？在很多早期研究中，世界模型就是一个预测引擎：只要给它一个抽象的控制指令，比如「向前走一米」或者「向左转 30 度」，它就能模拟出未来的图像。这类方式在实验室环境里已经发挥过很大作用，但一旦放到真正复杂的人类生活环境，就常常捉襟见肘。毕竟，人并不是一个漂浮在空中的摄像头。人有四肢、有关节、有骨骼，也有着非常具体的物理限制：这种「预演」能力让人类能及时修正动作并避免失误。也就是说，我们并不是光靠看到的画面做出决策，而是一直在用大脑里的「想象」，预测动作的结果。如果未来的 AI 想在真实环境中做到和人一样自然地计划，就需要拥有同样的预测机制：「我如果这样动，接下来会看到什么？」世界模型的老思路和新思路这些物理约束决定了：并不是所有动作都能被执行，很多计划只能在可达、可平衡、可承受的 ...