Workflow
Sora2甚至可以预测ChatGPT的输出
量子位·2025-10-02 13:30

文章核心观点 - Sora2展现出超越视频生成的多模态能力,包括预测大语言模型输出、渲染HTML代码、理解物理现象和精准还原游戏细节,模糊了视频生成与交互式AI的边界 [6][13][26] 多模态交互能力 - Sora2能够模拟与ChatGPT的交互过程,生成包含问题提问和语音回答的完整视频,例如根据提示生成关于猫的俳句并配以机械女声回答 [4][5] - 该模型展现出理解并执行复杂指令的能力,其生成的俳句音节严丝合缝,体现了对语言结构的把握 [5] 代码渲染与浏览器模拟功能 - Sora2具备渲染HTML代码的能力,根据粘贴的HTML代码生成的视觉效果与真实浏览器渲染效果高度相似 [7][8][10][12] - 该功能表明模型可能超越了传统视频生成器的范畴,展现出类似浏览器的渲染能力 [13] 物理现象理解能力 - 在未明确提示的情况下,Sora2能够准确模拟玻璃折射的物理现象,如通过装满水的玻璃杯展现箭头图像的翻转效果 [14][15][16][18] - 这种对物理世界的深入理解能力获得了行业观察者的高度评价 [19] 游戏内容还原精度 - 根据《赛博朋克2077》支线任务的提示词,Sora2能够精准还原游戏中的关键要素,包括地图位置、生物群落、地形、车辆设计和帮派名称 [21][22][24] - 尽管在巨蜥坦克移动方式和帕纳姆位置两个细节上存在微小误差,但从海量信息中准确提取并整合支线任务要素的能力反映了模型较强的信息处理智能 [25]