Workflow
自动化前端开发
icon
搜索文档
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
量子位· 2025-10-19 12:10
IWR-Bench团队投稿 量子位 | 公众号 QbitAI 多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这 些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。 为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了 IWR-Bench ——一个旨在更真实地评估LVLM交互式网 页重建能力的评测基准。 IWR-Bench的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资 源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则 的2048、订机票等应用。 这项任务的难度远超预期。在对28个主流模型的全面测试中,即便是表现最好的模型 GPT-5 ,其综合得分也仅有 36.35 分。这一结果清晰 地指出了当前模型的核心短板,IWR-Bench不仅为领 ...