Workflow
Ask YouTube
icon
搜索文档
Google's Content Revenue Reaper Is Coming for Video Creators on YouTube
CNET· 2026-05-20 08:02
At a briefing ahead of Google I/O 2026, I watched company execs unveil a list of AI-powered features aimed at solving pain points across its software ecosystem. One tool promises to radically improve the quality of video searches: Ask YouTube, as it's called, scours the platform's catalog of long-form videos and Shorts to surface content relevant to more complex queries. At first glance, that sounds like a win for both YouTube viewers and creators. Ask YouTube, however, takes an extra step -- it directs sea ...
帮大家总结了一下凌晨的Google I/O 2026开发者大会。
数字生命卡兹克· 2026-05-20 06:38
文章核心观点 Google在I/O大会上发布了一系列AI模型、产品、Agent系统和基础设施的重大更新,标志着其AI战略从模型竞争转向全面构建以Agent为核心、深度整合其庞大生态系统的下一代AI平台和用户体验[1][49][121] 一. AI模型 - **Gemini 3.5 Flash**:作为轻量快速版模型,在多项关键能力上超越上一代旗舰模型Gemini 3.1 Pro[5] - 在Terminal-bench 2.1编码测试中得分为76.2%,高于3.1 Pro的70.3%[6] - 在衡量经济价值任务的GDPval-AA基准测试中Elo评分为1656,显著高于3.1 Pro的1314分[6] - 在Humanity's Last Exam(40.2%)和ARC-AGI-2(72.1%)等侧重世界知识和抽象推理的测试中表现略逊于3.1 Pro(分别为44.4%和77.1%)[7] - 输出速度比其他前沿模型快4倍[8] - 定价为输入每百万token $1.50,输出每百万token $9.00,比3.1 Pro便宜40%[9] - 上下文窗口为100万token,知识截止日期至2025年1月[11] - 已成为Gemini App和AI Mode in Search的默认模型并全球上线[14] - **Gemini Omni Flash**:全新的多模态模型,被描述为“能根据任何输入创造出任何东西”[13] - 支持保持视频中特定片段不变并修改其他部分[16] - 被定位为Omni家族的首个模型,Omni Pro版本即将发布[18] 二. Gemini产品 - **Gemini App全新设计**:采用名为“Neural Expressive”的新设计语言,界面改为蓝色渐变背景[19][21] - 工具栏合并,模型选择器新增“思维水平”选项(标准/扩展)[23] - 设置中引入使用情况进度条和每周限额[24] - 新设计已在Android、iOS、Web平台全球上线[24] - **Ask Maps**:Google Maps十年来最大升级,增加自然语言对话功能[25] - 用户可直接用自然语言与地图交互,处理复杂、情境化查询[27] - **Ask YouTube**:用户可通过自然语言提问获取视频概览、相关片段并可直接跳转,支持上下文记忆[28][29] - 目前在美国向Premium订阅者开放,将于今年夏天在全美推广[31] - **Docs Live**:允许用户通过语音指令让Gemini协助创建和编辑文档,无需打字,支持实时修改和整理[32][33][35][36] - 计划于今年夏天向Pro和Ultra订阅者开放,后续将接入Gmail Live和Google Keep[38] - **Gemini Live升级**:语音功能新增多种口音,包括利物浦腔英语、印度哈里亚纳方言、巴西里约葡萄牙语等[40][41] - **Daily Brief**:Gemini App新功能,可自动整理邮箱、日历、任务,生成个性化每日摘要并提供行动建议[42][43] - 已面向美国Plus、Pro、Ultra用户开放[45] - **NotebookLM升级**:新增电影级视频概览生成功能,信息图风格增至10种,学习工具升级[46] - 与Gemini App打通,笔记本可双向同步[46] - 支持上传EPUB电子书,幻灯片可导出为PPTX格式,聊天记录自动保存[46] - 已集成至Google Classroom[48] 三. Agent系统 - **Antigravity 2.0**:Google的Agent开发平台重大更新[50] - 推出全新独立桌面应用[52] - 上线Antigravity CLI并将在2026年6月18日后取代Gemini CLI[53][55] - 发布Antigravity SDK,允许开发者部署自有Agent[56] - 增加原生语音支持,整合Gemini音频模型[57] - 演示中配合Gemini 3.5 Flash,使用93个子Agent并行,在12小时内处理26亿token,以不到$1000的成本从零构建了一个可运行的操作系统[58][60] - 在Antigravity中优化后,Gemini 3.5 Flash速度比其他模型快12倍[60] - Antigravity 2.0已全球开放[62] - **Gemini Spark**:个人AI Agent,对标OpenAI的Claw,运行于Google Cloud专属虚拟机,可7x24小时处理长链路任务[63][64][66] - 深度集成Google Workspace,可自动处理邮件、表格更新、文档起草等任务[66][67][68][70] - 本周起对测试人员开放,下周起向美国Google AI Ultra订阅者开放Beta测试[73] - **订阅体系调整**:伴随Spark发布,Google AI订阅价格体系重组[73] - 新增$100/月档位(Ultra),提供5倍于Pro的用量、20TB存储、YouTube Premium及Antigravity优先使用权[74] - 原$250/月Ultra计划降价至$200/月[74] - Spark在$100和$200两档均可使用[74] - **Android Halo**:Android系统中为Agent设计的专用界面,在状态栏显示Agent任务状态,代表UI逻辑从以App为中心转向以Agent为中心[76][77][79] 四. 视觉生成 - **Google Pics**:Workspace中新图像创作编辑工具,支持目标分割、元素单独编辑、文字编辑与翻译[80][82] - 所有输出自动添加SynthID水印[84] - 将于今年夏天先面向美国Ultra订阅者推出[84] - **Stitch**:UI设计工具,过去一年用户生成了超过1亿张UI画面[85] - 新增实时语音协作、代码导出、发布至Netlify、与Antigravity打通等功能[87][89] - **Google Flow**:AI创意工作室更新[90] - 集成Gemini Omni,支持保留原始视频表演仅修改环境特效[92] - 新增Agent功能,可单图生成16段不同机位视频[93] - 支持大规模场景一致性修改(如昼夜转换)[93] - 推出Flow Music功能,可根据音频提示生成编曲[95][98] - 推出Flow Tools,允许用户创建自定义创意工具[96] - **SynthID**:AI生成内容水印技术,已为超过1000亿张图片和视频及累计6万年时长的音频添加水印[100][102] - 现可通过Chrome右键或圈选搜索识别图片是否AI生成[102] - OpenAI、Kakao、ElevenLabs宣布加入SynthID联盟,Nvidia、Sony Pictures、Reuters、TikTok也将加入[105][108][110] 五. Google搜索 - **AI Mode月活用户突破10亿**,查询量每个季度翻倍[111] - **底层模型升级为Gemini 3.5**[111] - **搜索框25年来最大升级**:支持输入图片、文件、视频,并具备问题补全与梳理功能[112][113] - **AI Overviews与AI Mode合并**,实现搜索结果到对话式追问的自然过渡[115] - **引入Search Agents**:用户可在搜索中创建多个7x24小时运行的后台Agent[116] - **Agentic Coding进入搜索**:可根据查询实时生成定制化交互界面(如可视化工具),由Antigravity驱动,Gemini 3.5 Flash实时编写并运行代码[118][121] - 该功能将于今年夏天向所有用户免费开放[121] 六. Agent电商 - **Universal Commerce Protocol (UCP)**:为Agent电商设计的开源协议,定位为“Agent电商时代的HTTP”[122][123] - Amazon、Meta、Microsoft、Salesforce、Stripe已官宣加入其技术委员会[123] - 从美国扩展至加拿大、澳大利亚,英国紧随其后[125] - **Agent Payments Protocol (AP2)**:为Agent付款设计的授权协议,可设置品牌、商品、金额上限三道护栏,交易具备防篡改数字授权书[126][127][129] - 将率先在Gemini Spark上线[129] - **Universal Cart**:跨商家、跨服务的智能购物车,可集成于Search、Gemini、YouTube、Gmail[130][132] - 具备自动比价、查折扣、检查商品兼容性(如电脑配件)等功能[134] - 将于今年夏天在美国率先于Search和Gemini App上线[134] 七. 其他 - **Android XR智能眼镜**:分显示眼镜和音频眼镜两条路线[135][137][139] - 音频眼镜由Gentle Monster和Warby Parker设计,三星制造,支持iOS与Android,具备导航、购物、拍照、图像编辑等交互演示[141][143] - **TPU更新**:第八代TPU首次采用双芯片路线[145] - **TPU 8t**(训练芯片):原始算力接近上一代的3倍,可通过Jackson Pathways基础设施跨全球超100万颗TPU进行扩展训练[146] - **TPU 8i**(推理芯片):重点优化延迟和生成速度[148] - **AI科研**:发布**Gemini for Science**工具集,包含假设生成器、计算发现引擎、科学技能包三个原型[150][151][154] - **Weather Next**:AI天气预报模型,在梅丽莎飓风案例中提前3天预警,比传统模型更准确[154] - **AI制药**:Isomorphic Labs利用AI加速新药研发,多个项目已进入临床前阶段[156] - **Code Mender**:能自动查找并修复代码安全漏洞,已向小批专家开放API测试[158][160]
Everything Announced At Google I/O
Youtube· 2026-05-20 05:51
谷歌AI生态系统与产品升级 - 谷歌在2026年开发者大会上全面展示了以Gemini为核心的人工智能未来愿景,其核心观点是全方位推进Gemini AI的整合与应用 [1] - 谷歌搜索获得AI升级,能够预测用户意图并帮助形成问题,同时支持通过文件、视频、图像和Chrome标签页进行搜索 [1][2] - 谷歌Anti-gravity功能被集成到搜索中,可为付费的AI Pro和Ultra用户生成自定义用户界面、图表、模拟以及健身追踪器等迷你应用 [2] Gemini系列模型与功能 - 推出了名为Flash的代理与编码模型,谷歌称其为迄今最强的模型,随后将在6月推出Gemini 3.5% Pro [3] - 推出基于云的AI代理Gemini Spark,可帮助管理生活,如监控银行对账单、追踪邮件、将Gmail笔记整理成文档,并在获得许可后联动Canva、Open Table和Instacart等合作伙伴应用执行操作 [3] - 推出生成式AI模型Gemini Omni,目前专注于视频功能,可改变视频的环境、风格、角度等细节,并能创建具有用户声音和外貌的化身 [4] - Gemini Omni Flash功能将向Google AI Plus Pro和Ultra订阅用户推出,其他用户可通过YouTube Shorts和YouTube Create应用免费试用,AI生成内容将带有AI标签和Synth ID水印 [5] 产品与平台AI功能扩展 - 为YouTube Premium会员推出“Ask YouTube”,提供更对话式的搜索体验,类似功能也正出现在Google Play、Gmail、Docs等平台 [6] - 更新购物功能,推出“Universal Cart”,允许用户从搜索、Gemini、YouTube、Gmail等多处添加商品到购物车,该工具会同时寻找优惠、价格历史和补货信息 [7] - 为每月200美元的AI Ultra计划订阅者提供Project Genie工具,用于创建自定义的3D交互世界,例如利用谷歌街景生成世界并应用新风格,甚至生成探索角色 [8] 硬件合作与新设备 - 谷歌与三星合作,首次展示了与Gentle Monster和Warby Parker共同开发的两款智能眼镜模型 [8] - 这些智能眼镜如同谷歌生态系统的其他部分,旨在让用户通过语音与Gemini对话、获得实时翻译甚至拍摄照片 [9]
These Are a Few of My Favorite Things From Google I/O 2026
CNET· 2026-05-20 05:46
谷歌I/O 2026开发者大会核心观点 - 谷歌2026年开发者大会的核心主题是“智能体”,其所有AI工具主要围绕Gemini聊天机器人及相关技术展开 [1] - 大会分为两部分,分别针对Android、Googlebooks等移动操作系统和谷歌的其他平台 [1] - 尽管大会发布众多内容,但部分新功能与技术脱颖而出,包括Google Docs Live、Ask YouTube、Google Flow与Flow Music的增强功能以及智能眼镜 [1] 产品与服务更新 Google Docs Live - 谷歌宣布为AI服务订阅用户推出名为Docs Live的语音听写与整理工具,将于今年夏季在Google Docs中上线 [5] - 该工具可将语音转录并整理成笔记,被CEO Sundar Pichai称为“口头思维倾泻” [5] - 该服务并非免费,仅面向Google AI订阅用户提供,具体为AI Pro(每月20美元)或Ultra(每月100或200美元)等级用户 [7] - 使用该工具理论上无需授权其访问用户的其他谷歌账户或网络历史记录,但若授权可能获得更好效果 [6] 谷歌搜索与Ask YouTube - 谷歌延续近年趋势,将AI更深融入搜索引擎,统一其AI驱动的搜索工具以增强智能体能力,并纳入更多上下文如上传的照片、PDF及打开的Chrome标签页 [8] - 新的智能搜索框支持复杂的自然语言查询及对回复的后续追问,并能通过多模态智能体执行操作和构建可视化结果(如示例模拟) [10] - 用户可通过一种“氛围智能体”创建自定义智能小组件,用于保存复杂、重复的搜索和操作 [10] - Ask YouTube功能允许用户通过自然语言查询获取视频结果,并可直接跳转至视频中的特定相关片段 [11][12] - YouTube本身已是一个重要的搜索引擎,尤其针对操作指南类内容,Ask YouTube现已在YouTube高级订阅用户中提供 [12][14] - 谷歌将SynthID技术扩展至Chrome,该技术通过读取图像中的编码元数据来报告图像是否由AI生成或修改,但其有效性依赖于合作伙伴,可能无法识别由小众模型生成的内容 [9] Google Flow 与 Flow Music - 新的Omni模型驱动了谷歌最新的创意生成式AI功能,这是一个可从文本、音频、其他视频和图像等任何输入生成视频的多模态模型 [15] - 该模型的更快版本Omni Flash驱动了Flow和Flow Music等产品中的工具,这是谷歌用于视频和音乐生成的软件 [15] - 现在Flow融入了对话式智能体,用户可带入当前及过往项目的上下文,用于头脑风暴和创建模板,且理论上在模拟物理效果方面更佳 [16] - Flow Music扩展至支持编辑作品的组成部分,例如替换或编辑歌词而不影响曲目的节拍 [16] - Flow和Flow Music的原生移动应用程序对所有AI计划订阅用户开放 [17] 智能眼镜 - 谷歌将其智能眼镜产品统称为“智能眼镜”,涵盖从XR眼镜到仅音频型号 [18] - Project Aura项目已开发一段时间,将于今年晚些时候成为可购买产品,它看起来像轻量级VR竞争者,包含一副Xreal眼镜和一个运行于高通骁龙处理器上的Android XR系统模块,可连接手机、笔记本电脑或Steam Deck等其他设备工作 [20] - 谷歌与Warby Parker和Gentle Monster等眼镜提供商建立合作,部分产品将于今年秋季上市 [20] - 部分智能眼镜将支持iOS,使其与iPhone兼容,苹果即将与Gemini集成以弥补Siri的不足,并预示macOS将在夏季支持Gemini Spark和Gemini Voice [21] 行业影响与潜在问题 - Ask YouTube等功能可能极具争议,因为它可能大幅削减创作者的收入流,这些收入通常依赖于观众的观看时长和广告观看量 [12] - 对于许多创作者而言,该功能可能导致净损失,因为用户可能更倾向于使用此功能快速定位信息,而非观看完整视频 [13] - 谷歌的许多智能体功能似乎是“为寻找受众而设计的功能”,并且与竞争对手一样,谷歌似乎对这类“无人要求的智能”功能带来的负面影响充耳不闻 [23] - 例如,Chrome中友好、利于零售商的智能购物平台引发了常见问题,如智能体链中出现故障时由谁负责退款,购物交易中的摩擦对消费者而言未必是坏事,但却是卖家的禁忌 [24]
Google's 'Ask YouTube' Finds the Exact Part of a Video That Answers Your Question
CNET· 2026-05-20 02:44
产品功能更新 - 谷歌旗下YouTube平台即将推出一项名为“Ask YouTube”的新功能,该功能将增强平台的搜索能力,允许用户提出更复杂的对话式问题[1][2] - 新功能将利用谷歌的人工智能技术,直接跳转到视频中最相关的部分,使用户无需自行寻找信息,旨在让信息“更易于消化和导航”[3] - “Ask YouTube”将专门聚焦于视频内容,针对复杂查询显示详细的视频结果列表(包括Shorts短视频),并允许用户提出后续问题以进一步精确查找目标[2][3] 发布与可用性 - “Ask YouTube”功能目前仅面向美国18岁及以上的YouTube Premium会员开放,并计划在不久后更广泛地推出[3] 行业影响与潜在挑战 - 新功能可能对内容创作者构成冲击,因其依赖观看时长和观众留存率,若用户仅观看视频片段,可能侵蚀创作者收入并影响视频整体表现[5] - 该功能可能导致观众错过视频中未被高亮显示的其他重要上下文内容[5] - 此功能反映了行业向仅提取最有用信息片段的大趋势转变,可能对创作者产生负面的连锁反应[7] - 谷歌现有的“AI概览”功能因阻止用户点击来源链接、将信息汇总(有时不准确)而受到批评,导致发布商等平台失去页面浏览量和收入流[6] - 其他生成式AI平台(如ChatGPT)同样被指控在未适当署名的情况下利用来源[6]
Google's new AI search for YouTube
Youtube· 2026-05-20 01:37
产品发布与功能革新 - YouTube正在测试一项名为“Ask YouTube”的全新功能,旨在彻底重新构想用户的视频搜索与信息获取体验[1] - 该功能允许用户直接提出问题,系统将提供易于消化和导航的搜索结果,例如当用户询问“如何教三岁孩子骑脚踏车”时,会直接匹配相关视频[1] - 功能提供信息概览和实用建议,并直接跳转到视频中最相关的部分,以提升信息获取效率[2] 用户体验与交互设计 - “Ask YouTube”能够根据用户兴趣精准匹配最佳视频,如果用户想尝试特定教学方法,可以深入探索相关内容[2] - 该功能具备上下文记忆能力,支持用户进行后续追问,例如在学车话题后可继续询问“应该购买带手刹还是脚刹的自行车”,使互动成为持续的对话[2] - 功能甚至以表格形式呈现信息,方便用户进行比较和决策[3] 测试与推广计划 - “Ask YouTube”目前正处于测试阶段[3] - 计划于今年夏季在美国市场进行广泛推广[3]