Workflow
Google Docs Live
icon
搜索文档
These Are a Few of My Favorite Things From Google I/O 2026
CNET· 2026-05-20 05:46
谷歌I/O 2026开发者大会核心观点 - 谷歌2026年开发者大会的核心主题是“智能体”,其所有AI工具主要围绕Gemini聊天机器人及相关技术展开 [1] - 大会分为两部分,分别针对Android、Googlebooks等移动操作系统和谷歌的其他平台 [1] - 尽管大会发布众多内容,但部分新功能与技术脱颖而出,包括Google Docs Live、Ask YouTube、Google Flow与Flow Music的增强功能以及智能眼镜 [1] 产品与服务更新 Google Docs Live - 谷歌宣布为AI服务订阅用户推出名为Docs Live的语音听写与整理工具,将于今年夏季在Google Docs中上线 [5] - 该工具可将语音转录并整理成笔记,被CEO Sundar Pichai称为“口头思维倾泻” [5] - 该服务并非免费,仅面向Google AI订阅用户提供,具体为AI Pro(每月20美元)或Ultra(每月100或200美元)等级用户 [7] - 使用该工具理论上无需授权其访问用户的其他谷歌账户或网络历史记录,但若授权可能获得更好效果 [6] 谷歌搜索与Ask YouTube - 谷歌延续近年趋势,将AI更深融入搜索引擎,统一其AI驱动的搜索工具以增强智能体能力,并纳入更多上下文如上传的照片、PDF及打开的Chrome标签页 [8] - 新的智能搜索框支持复杂的自然语言查询及对回复的后续追问,并能通过多模态智能体执行操作和构建可视化结果(如示例模拟) [10] - 用户可通过一种“氛围智能体”创建自定义智能小组件,用于保存复杂、重复的搜索和操作 [10] - Ask YouTube功能允许用户通过自然语言查询获取视频结果,并可直接跳转至视频中的特定相关片段 [11][12] - YouTube本身已是一个重要的搜索引擎,尤其针对操作指南类内容,Ask YouTube现已在YouTube高级订阅用户中提供 [12][14] - 谷歌将SynthID技术扩展至Chrome,该技术通过读取图像中的编码元数据来报告图像是否由AI生成或修改,但其有效性依赖于合作伙伴,可能无法识别由小众模型生成的内容 [9] Google Flow 与 Flow Music - 新的Omni模型驱动了谷歌最新的创意生成式AI功能,这是一个可从文本、音频、其他视频和图像等任何输入生成视频的多模态模型 [15] - 该模型的更快版本Omni Flash驱动了Flow和Flow Music等产品中的工具,这是谷歌用于视频和音乐生成的软件 [15] - 现在Flow融入了对话式智能体,用户可带入当前及过往项目的上下文,用于头脑风暴和创建模板,且理论上在模拟物理效果方面更佳 [16] - Flow Music扩展至支持编辑作品的组成部分,例如替换或编辑歌词而不影响曲目的节拍 [16] - Flow和Flow Music的原生移动应用程序对所有AI计划订阅用户开放 [17] 智能眼镜 - 谷歌将其智能眼镜产品统称为“智能眼镜”,涵盖从XR眼镜到仅音频型号 [18] - Project Aura项目已开发一段时间,将于今年晚些时候成为可购买产品,它看起来像轻量级VR竞争者,包含一副Xreal眼镜和一个运行于高通骁龙处理器上的Android XR系统模块,可连接手机、笔记本电脑或Steam Deck等其他设备工作 [20] - 谷歌与Warby Parker和Gentle Monster等眼镜提供商建立合作,部分产品将于今年秋季上市 [20] - 部分智能眼镜将支持iOS,使其与iPhone兼容,苹果即将与Gemini集成以弥补Siri的不足,并预示macOS将在夏季支持Gemini Spark和Gemini Voice [21] 行业影响与潜在问题 - Ask YouTube等功能可能极具争议,因为它可能大幅削减创作者的收入流,这些收入通常依赖于观众的观看时长和广告观看量 [12] - 对于许多创作者而言,该功能可能导致净损失,因为用户可能更倾向于使用此功能快速定位信息,而非观看完整视频 [13] - 谷歌的许多智能体功能似乎是“为寻找受众而设计的功能”,并且与竞争对手一样,谷歌似乎对这类“无人要求的智能”功能带来的负面影响充耳不闻 [23] - 例如,Chrome中友好、利于零售商的智能购物平台引发了常见问题,如智能体链中出现故障时由谁负责退款,购物交易中的摩擦对消费者而言未必是坏事,但却是卖家的禁忌 [24]