Workflow
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
量子位·2025-05-21 04:33

谷歌AI技术升级 - 谷歌最新版Project Astra展示终极AI助手能力 实时观察环境 指导修自行车并自动电话询问周边商店库存 [1] - Gemini 2.5 Pro和Gemini 2.5 Flash预览版霸榜竞技场前两名 [3] - 视频生成模型Veo 3实现视频与音频原生集成 支持角色对话语音生成及口型同步 [4] 产品AI化重构 - 谷歌搜索增加端到端AI搜索模式 整合推理和多模态分析能力 将问题分解为子问题并发多个查询 [8] - Google Meet支持实时双语翻译配音 保留对话双方音色 首批支持英语-西班牙语 [9] - Chrome浏览器集成Gemini模型 可快速总结内容或根据网页上下文完成任务 [10] 新型AI产品矩阵 - 裸眼3D视频通话Project Starline升级为AI驱动的Google Beam 头部追踪精度达毫米级 帧率60fps [12][13] - AI眼镜与Gentle Monster等合作 配备摄像头和麦克风 通过Gemini模型实现全天候环境感知与辅助 [17][18] - AI电影制作工具Flow集成多模态模型 支持角色场景连贯复用 美国Pro/Ultra订阅用户已可用 [19][72] Gemini模型性能突破 - Gemini 2.5 Pro以1415分ELO领先WebDev Arena编码榜 较前版提升142分 [22] - 2.5 Pro在USAMO数学测试和MMMU多模态基准分别表现惊艳 后者得分84.0% [28] - 2.5 Flash推理效率提升 token使用减少20-30% 已在Google AI Studio等平台开放预览 [30][31] 多模态生成技术 - Veo 3实现原生音画同步生成 支持物理效果模拟与口型同步 美国Ultra用户已可访问 [61][64] - Imagen 4生成速度比前代快10倍 支持2K分辨率与复杂细节刻画 已登陆Gemini app等平台 [65][69] - Flow工具集成Veo/Imagen/Gemini 支持语言描述生成电影级画面 允许素材跨场景复用 [70][71] 商业化应用进展 - 谷歌搜索AI Mode采用query fan-out技术 未来将推出Deep Search百次跨领域搜索功能 [47][48] - 智能购物整合5亿+商品数据 支持虚拟试穿与自动比价结账 [54][56][58] - 公司AI处理量一年增长50倍 达每月480T+ tokens [74][75]