Workflow
阿里新研究:统一了VLA和世界模型
量子位·2025-10-29 17:30

时令 发自 凹非寺 量子位 | 公众号 QbitAI 如果说视觉让AI看见世界,动作让AI改变世界,那么—— WorldVLA正在让AI理解世界。 在该框架下, 实验结果表明,WorldVLA的表现显著优于独立的动作模型与世界模型,充分体现了二者之间的相互增强效应。 | Model Type | Discrete | Continous | Input | Output | | --- | --- | --- | --- | --- | | Action Model | OpenVLA (Kim et al., 2024) | TO (Black et al., 2024) | T + V | A | | Video Prediction Model | | MAGVIT (Yu et al., 2023) SVD (Blattmann et al., 2023) | T + V | V | | World Model | iVideoGPT (Wu et al., 2025) | DWS (He et al., 2025) | T + V + A V | | | Action World Model | W ...