Workflow
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪·2025-10-30 19:56

最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。 第一视角漫游动态3D世界: 要知道,现在AI迭代的速度,正在刷新所有人的认知。 尤其是在文生视频这条赛道上,几乎每个月都有新技术出来"搞事情"。 肉眼可见,AI视频一个比一个真,一个比一个长。 but,先别急着鼓掌—— 真正的赛点,早已不是"像不像",而是"懂不懂"。 它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过是"高级的 GIF"。 现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。 从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI模拟动态物理世界的能力又双叒增强了。 它能让你以第一人称视角进入它所构建的虚拟世界。你的每一次移动、每一次转身,它都能动态构建出你下一步应该看到的场景,全程保持空间一致性。 除了上面展示的探索3D游戏世界, ...