Workflow
用AI把一段视频变成可视化网页,Google的新模型又卷飞了。
数字生命卡兹克·2025-05-07 05:04

模型发布与命名 - Google在I/O大会前约两周提前发布了Gemini 2.5 Pro的新版本,版本号为Gemini 2.5 Pro (I/O版),在后台模型调用中命名为Gemini 2.5 Pro Preview 05-06 [3][5][6] - 新模型虽已上线,但Google产品官网的显示仍为原来的"2.5 Pro (experimental)",暴露出产品入口和命名存在混乱的问题 [6][23] 模型性能提升 - 新版本模型在WebDev Arena盲测竞技场中登顶,Arena Score达到1419.95分,力压排名第二的Claude 3.7 Sonnet(得分1357.10)[7][9] - 相较于3月份的Gemini-2.5-Pro-Exp-03-25版本(得分1272.86),新版本的Arena Score大幅提升了147分,显示出代码能力的显著进步 [9][14][15] - 在VideoMME基准测试中,新模型的视频理解能力得分达到84.8%,并结合其多模态能力,实现了根据参考视频生成代码的全球独家功能 [7][16] 技术特点与应用场景 - 新版本专注于提升代码能力,其升级路径与DeepSeek V3 03-24版本类似,将代码能力提升作为核心优先级 [7] - 模型支持通过YouTube在线链接进行视频内容理解,并可根据视频内容生成对应的可视化网页代码,为开发和学习提供了新的范式 [19][20][21][22] - LMArena旗下的WebDev Arena是一个专为评测网页前端开发任务设立的盲测平台,采用用户盲测二选一的模式,通过Bradley-Terry模型计算Arena Score,其机制类似于国际象棋和电竞游戏中的Elo评分系统 [10][11][14] 产品现状与行业地位 - 尽管模型能力显著提升,但产品层面仍存在bug,例如在AI Studio中上传视频文件时常会报错,目前仅支持通过YouTube链接稳定使用 [16][18] - 此次更新表明Google的Gemini模型已从主要依靠论文和PPT展示阶段,进入到了实质性的能力提升和产品化阶段 [23][24]