Workflow
四点速读2025谷歌开发者大会
第一财经·2025-05-21 11:06

Gemini模型升级 - 核心亮点是Gemini 2 5 Pro和Flash模型全面支持视听输入和原生音频输出对话开发者可通过Live API预览版构建和微调对话体验的音调口音和说话风格等 [2] - Gemini可作为Chatbot登录Chrome浏览器帮助用户快速理解页面上下文并完成任务 [2] - Deep Think模式引入增强型推理机制在处理数学编程和多模态任务时显著提升模型的推理能力 [2] 生成式内容工具升级 - Veo 3视频生成模型支持原生音频生成能够生成高清视频并添加背景音乐音效甚至对白极大提升AI视频质量和真实感 [3] - Imagen 4图像生成模型在图像细节和文本输出质量上有质的飞跃能够渲染织物水滴和动物皮毛等精细细节支持照片级写实和抽象等多种风格 [3] - Imagen 4可创建各种纵横比高达2K分辨率的图像为创作者提供更强大的图像生成工具 [3] AI代理与视频通话平台 - 实验性AI代理工具Project Mariner可一次承担近十几项任务例如购买棒球比赛门票或在线购买杂货极大便利用户日常生活 [4] - 全新视频通话平台Google Beam硬件包括六摄像头阵列和定制的光场显示器软件上AI模型将不同角度摄像头视频转换为3D渲染 [4] - Beam可实现毫米级头部跟踪和60fps视频流与Google Meet一起使用时提供实时语音翻译功能保留说话者的声音语调和表情 [4] XR智能眼镜与订阅计划 - 集成AI助手功能的Android XR智能眼镜支持实时翻译导航和信息提示等功能是公司在可穿戴设备领域的新尝试 [5] - 推出每月249 99美元的AI Ultra订阅计划提供Gemini 2 5 Pro的Deep Think模式Veo 3视频生成工具等高级AI功能的访问权限 [5] - AI Ultra订阅计划还提供更高的使用限制和额外存储空间 [5]