Workflow
谷歌I/O超全总结:AI搜索大变样,AR眼镜复活,大模型全家桶升级,史上最贵订阅费1800元
36氪·2025-05-21 08:48

谷歌I/O开发者大会核心亮点 - 谷歌CEO桑达尔·皮查伊在主题演讲中高频提及"Gemini"(95次)和"AI"(92次),凸显战略重心 [1] - 公司推出Gemini订阅计划:AI Pro(19.99美元/月)含基础功能,AI Ultra(249.99美元/月)开放高级权限 [1] - 终极目标是构建通用AI助手,Gemini被定位为"世界模型",已展示自行车维修等场景的主动服务能力 [3] 模型升级与技术突破 Gemini系列进展 - Gemini 2.5 Pro新增音频输出、深度思考模式,编程能力显著提升(Cursor平台年度增速最快) [9][15] - Gemini 2.5 Flash推理/编程指标优化,生成速度比扩散语言模型慢5倍,6月全面开放 [17][18] - 模型处理能力跃升:月处理token数从9.7万亿增至480万亿(50倍增长),开发者超700万(5倍增长) [12] 多模态模型创新 - 视频模型Veo 3实现有声视频直接生成,支持物理模拟和口型同步 [25] - 图像模型Imagen 4支持2K分辨率,织物/动物毛发渲染逼真,文字排版能力增强 [21] - 音乐生成平台Lyria Realtime支持交互创作,SynthID水印已标记100亿份AI生成内容 [24] 产品生态整合 搜索与购物革新 - AI Mode美国上线:动态生成图表/店铺列表,购物场景支持虚拟试穿、代理结账 [5][36] - 视觉搜索年增65%,累计完成1000亿次搜索,AI Overviews月活达15亿 [34][36] - 查询扇出技术可并发数百次搜索,几分钟生成专业报告,金融分析功能今夏推出 [36][38] 硬件与平台合作 - 安卓XR智能眼镜原型亮相:支持翻译/消息回复/图像检索,与三星/高通深度合作 [7][28][30] - Project Aura智能眼镜采用骁龙XR芯片,视野70度,含OST/VST显示技术 [33] - Google Beam将2D视频转为3D体验(60帧/秒),惠普设备年内推出 [44] 研究项目突破 - Project Astra实现多模态交互:盲人音乐家辅助案例展示实时视觉/语音能力 [48] - Project Marina可监管10项并行任务,计算机使用能力今夏开放 [49][50] - Gemini Live API开放音视频输入控制,支持语调/口音定制 [48] 开发者生态与基础设施 - 第七代TPU Ironwood计算能力达42.5 exaFLOPS,性能提升10倍 [10] - Gemini SDK兼容MCP工具,编程助手Jules处理GitHub任务效率提升至分钟级 [17][50] - Gemini应用月活超4亿,2.5 Pro版本使用量增长45% [8][14]