Imagen
搜索文档
Disney Blasts Google As “Virtual Vending Machine” For IP, Accuses YouTube Parent Of Copyright Infringement On “Massive Scale”
Deadline· 2025-12-12 00:17
核心观点 - 迪士尼公司向谷歌发出律师函 指控其大规模侵犯版权 用于训练AI模型并在其生态系统中分发侵权内容 同时宣布向OpenAI投资10亿美元以建立合法使用其IP的框架 [1][4] 迪士尼对谷歌的指控与行动 - 指控谷歌未经授权复制大量迪士尼受版权保护的作品 用于训练和开发生成式人工智能模型和服务 [5] - 指控谷歌利用AI模型和服务 商业性利用并分发迪士尼受保护作品的副本 侵犯其版权 [5] - 要求谷歌必须从其AI服务创建的YouTube和YouTube Shorts上移除所有侵权迪士尼内容 [2] - 指出谷歌的故意侵权行为尤其令人担忧 因其利用在生成式AI和多个其他市场的主导地位 将侵权AI服务尽可能广泛地提供 包括集成到Google Workspace和YouTube移动应用等产品中 [5] - 指控谷歌用侵权作品充斥市场 并从其对迪士尼版权作品非法、有害的利用中获取巨大利润和其他价值 [5] 迪士尼在AI领域的整体战略与行动 - 宣布与OpenAI达成一项重大协议 投资10亿美元 旨在驾驭新格局 [1][4] - 此项投资旨在与OpenAI建立框架 为其新合作伙伴提供合法访问其角色和IP的途径 [4] - 此前已向Meta和Character.AI发出停止并终止函 [3] - 已与NBC环球和华纳兄弟探索公司共同对Midjourney和Minimax提起诉讼 [3] - 好莱坞正试图控制其IP的广泛盗版行为 在人工智能时代 这些IP可通过一个作品或一次按键在几秒钟内被复制 [3] 行业竞争格局 - 谷歌和OpenAI在该领域是激烈的竞争对手 OpenAI首席执行官萨姆·阿尔特曼最近因谷歌的进展而发出“红色代码”警报 [4] - 迪士尼投资OpenAI被视为对谷歌竞争对手的支持 [1]
Disney Fires Off Cease-And-Desist Letter To Google Claiming Its AI Services Infringe On Copyright On A “Massive Scale”
Deadline· 2025-12-11 23:36
核心观点 - 华特迪士尼公司向谷歌发出禁止函 指控谷歌的人工智能训练模型和服务大规模侵犯其版权 同时宣布已与谷歌的竞争对手OpenAI达成协议 授权其角色和知识产权用于后者的服务 [1] 迪士尼的指控与行动 - 指控谷歌故意侵权 并利用其在生成式AI和多个市场的主导地位 使侵权服务尽可能广泛地普及 [2] - 指控谷歌通过众多渠道向大量消费者提供侵权服务 用侵权作品淹没市场 并从非法利用迪士尼版权作品中获取巨额利润和其他价值 [2] - 声称谷歌拒绝实施任何技术措施来减轻或防止版权侵权 尽管这些措施已可用且被谷歌的竞争对手使用 [4] - 声称已尝试与谷歌接触数月 但谷歌毫无作为 且在此期间对其版权作品的使用有增无减 [4] - 指控谷歌不仅未经授权在AI服务中分发迪士尼知识产权 还在训练模型中复制了大量受版权保护的作品 提及的模型包括Veo、Imagen和Nano Banana [5] - 指出用户可通过文本提示生成涉及迪士尼IP的图像和视频 包括星球大战角色、漫威角色、皮克斯作品、经典动画角色和辛普森一家等 [5] - 将谷歌的服务比作虚拟自动贩卖机 能够大规模复制、呈现和分发迪士尼宝贵的版权角色库和其他作品 [6] - 指出许多由谷歌AI服务生成的侵权图像都带有谷歌Gemini标识 错误地暗示谷歌对迪士尼知识产权的利用已获授权和认可 [6] - 指控谷歌将其主要品牌Gemini用于侵权 将迪士尼宝贵的版权角色视为己有 并向订阅者收费提供 并附上了据称由简单提示生成的《狮子王》中辛巴和娜拉以及达斯·维德的图像作为例证 [6] - 此前已向Meta和Character.AI发出过禁止函 并与NBC环球和华纳兄弟探索公司共同对Midjourney和Minimax提起诉讼 [3] 行业动态与协议 - 在向谷歌发出禁止函前夕 宣布已与OpenAI达成协议 将向其提供角色和IP用于后者的服务 [1]
谷歌CEO皮查伊确认:下一代AI模型Gemini 3今年发布
搜狐财经· 2025-11-03 12:32
下一代AI模型Gemini 3 - 谷歌CEO确认下一代AI模型Gemini 3将于2025年发布 [1] - Gemini 3旨在缩小与OpenAI GPT-5的性能差距,并更强调智能代理能力以处理复杂多模态任务 [3] - 公司CEO表示模型迭代速度振奋,但前沿模型的显著改进需要更多时间,某些更新可能会稍晚 [3] Gemini模型当前表现与竞争格局 - Gemini应用的月活跃用户数已超过6.5亿,查询量较上一季度增长两倍 [3] - 尽管如此,Gemini仍落后于ChatGPT,后者周活跃用户已达8亿 [3] - Gemini已成为谷歌人工智能战略的核心支柱 [3] AI驱动搜索与云业务增长 - 谷歌搜索业务因AI功能(如AI概览和AI模式)加持实现显著增长,尤其受年轻用户青睐 [4] - AI模式支持40种语言,日活用户达7500万,美国市场第三季度AI模式查询量同比翻倍 [4] - 谷歌云成为AI增长重要动力,基于生成式AI模型的产品收入同比增长超过200% [4] - 新增云客户数量同比增长近34%,订单积压量达1550亿美元,较上一季度增长46% [4] AI工具采用与企业服务拓展 - 目前超过70%的现有谷歌云客户正在使用其AI工具套件,包括Gemini、Imagen和Veo等 [4] - 今年10月推出的Gemini Enterprise(企业版)已覆盖全球700家企业,订阅用户超200万 [4] AI基础设施与研发进展 - 公司致力于打造端到端垂直整合的AI技术栈,通过自研芯片、大模型和软件平台提升利润率与客户粘性 [5] - AI基础设施需求激增,AI初创公司Anthropic计划接入高达100万台谷歌TPU,所有可用TPU已全部预订完毕 [5] - 新一代Ironwood TPU即将上线,并将推出基于NVIDIA GB300芯片的新云服务产品 [6] - 在研发层面,公司正推进多个新型生成式模型开发,包括视频生成模型Veo 3和“世界模型”Genie 3 [6] - Veo已生成超过2.3亿段视频,全球有超过1300万名开发者正在使用谷歌的生成式AI工具 [6] 自动驾驶业务Waymo扩张 - Alphabet旗下Waymo加速扩张,计划于2026年前进入伦敦和东京市场,并扩大美国运营网络至达拉斯、丹佛、西雅图和纳什维尔 [6] - Waymo已在旧金山和圣何塞获得完全无人驾驶机场接送服务许可,纽约市测试范围不断扩大 [6] - 为拓展新用户群体,Waymo推出了“Waymo for Business”和“Waymo Teens”等新项目 [6]
Alphabet's Q3 Earnings Beat Estimates, Revenues Increase Y/Y
ZACKS· 2025-10-31 02:01
财务业绩概览 - 第三季度每股收益为2.87美元,超出市场预期26.99%,同比增长35.4% [1] - 总收入达1023.5亿美元,同比增长16%(按固定汇率计算增长15%) [2] - 剔除流量获取成本后的净收入为874.7亿美元,超出市场预期3%,同比增长17.3% [2] 收入分部表现 - Google服务收入同比增长13.8%至870.5亿美元,占总收入的85.1%,超出市场预期2.43% [3] - Google云收入同比大幅增长33.5%至151.6亿美元,占总收入的14.8%,超出市场预期3.25% [3] - Google广告收入同比增长12.6%至741.8亿美元,占总收入的85.2%,超出市场预期2.3% [6] - Google订阅、平台和设备收入为128.7亿美元,同比增长20.8%,超出市场预期3.23% [7] - 其他押注收入为3.44亿美元,同比下降11.3%,未达到市场预期19.98% [7] 核心业务驱动因素 - 搜索及其他收入同比增长14.5%至565.7亿美元,超出市场预期2.58%,占总收入的55.3% [4] - YouTube广告收入同比增长15%至102.6亿美元,超出市场预期2.31% [5] - Google付费订阅用户数已超过3亿,由Google One和YouTube Premium引领 [5] - YouTube Shorts的每观看小时收入已超过传统信息流广告 [5] 人工智能与云业务增长 - 基于生成式AI模型(Gemini, Imagen等)的产品收入在第三季度同比增长超过200% [10] - Google云期末待履行合同金额达1550亿美元,环比增长46% [8] - Google云平台新客户数量同比增长约34%,70%的云客户使用AI产品 [8] - 2025年前三季度,价值超过10亿美元的交易签署数量超过前两年总和 [9] - 全球前10大AI实验室中有9家使用Google云 [9] 运营效率与资本状况 - 第三季度成本与运营费用为711.2亿美元,同比增长19%,占收入比例上升180个基点至69.5% [11] - 运营利润率为30.5%,同比下降180个基点,但剔除欧盟罚款后的非GAAP运营利润率扩张160个基点 [11] - Google云运营收入为35.9亿美元,显著高于去年同期的19.5亿美元 [12] - 截至2025年9月30日,现金及有价证券为985亿美元,长期债务为216.1亿美元 [13] - 第三季度运营现金流为484.1亿美元,资本支出为239.5亿美元,自由现金流为244.6亿美元 [14] 未来资本支出指引 - 2025年资本支出预期上调至910亿-930亿美元,此前预期为850亿美元 [15] - 公司预计2026年资本支出将显著增加 [15]
Adobe and Google Cloud Expand Strategic Partnership to Advance the Future of Creative AI
Businesswire· 2025-10-29 00:00
合作概述 - Adobe与谷歌云宣布扩大战略合作伙伴关系,共同开发下一代AI驱动的创意技术[1] - 合作将Adobe数十年的创意专业知识与谷歌的先进AI模型(包括Gemini、Veo和Imagen)相结合[1] - 此次合作旨在变革全球的创作方式,迎来创意表达的新时代[1][4] 合作内容与客户价值 - Adobe客户(包括商业专业人士、创作者、创意专业人士和企业)将能在Adobe应用程序中直接使用谷歌的最新AI模型[2] - 集成的应用程序包括Adobe Firefly、Photoshop、Adobe Express、Premiere等[2][5] - 企业客户可通过Adobe GenStudio访问模型,未来可通过Adobe Firefly Foundry定制和部署品牌专属AI模型,以大规模生成符合品牌形象的内容[2][4][5] - 企业客户将能在谷歌云的Vertex AI平台上使用谷歌AI模型,并通过Adobe Firefly Foundry应用其专有数据进行定制,生成大规模的高质量品牌内容体验[5] - 谷歌Vertex AI上的模型提供强有力的数据承诺,确保客户数据不会被用于训练其基础模型[5] 市场与创新策略 - Adobe与谷歌云将共同制定联合上市策略,通过协调的上市活动向全球客户推广这些AI创新[5] - 两家公司将继续作为创新合作伙伴进行协作[5] - 此次合作扩展了Adobe的合作伙伴模型策略,为用户提供在Adobe可信创意生态内使用行业顶级AI模型的灵活性和选择[5]
Bug变奖励:AI的小失误,揭开创造力真相
36氪· 2025-10-13 08:31
文章核心观点 - AI的创造力并非主动设计的能力,而是其模型架构(局部性和平移等变性)在运行中产生的副作用[6][12][18] - 这种由“不完美”架构导致的“即兴重组”能力,使得AI能生成前所未见的图像,而非简单的复制品[2][12][23] - 研究通过构建纯数学系统“ELS方程机”验证了该观点,其与真实扩散模型输出平均重合度高达90%[16] - AI的创造力机制与生物胚胎发育中的自组织过程具有相似性,表明人类创造力可能也源于类似的“不完美”拼接过程[19][21] 扩散模型的悖论与现象 - 扩散模型的核心任务是去噪,即将数字噪声还原成训练过的图像,理论上应只生成复制品[2] - 但实际应用中,如DALL·E 2、Imagen、Stable Diffusion等模型能生成全新组合的图像,例如“金鱼在海滩上啜饮可口可乐”[4] - 模型会产出如“多手指人像”等怪异但结构完整的图像,这种现象被称为“扩散模型的悖论”[4][6] 创造力的产生机制 - 机制一为局部性:模型生成图像时并非通盘考虑,而是每次只关注一个小的像素“拼块”[8] - 机制二为平移等变性:输入图像移动时,模型生成的画面必须同步移动以保持结构连贯[9] - 这两条机制本是模型限制条件,却使其无法完全依赖记忆,必须在局部进行即兴重组,从而意外产生新意[10][12] 数学验证与类比延伸 - 研究者构建了不依赖训练数据的纯数学系统“ELS方程机”,仅基于局部性和等变性规则进行图像预测[13][16] - ELS方程机与真实扩散模型的输出平均重合度达到90%,证明了创造力的产生可归因于这两条数学规则[16][18] - 该机制与胚胎发育中的形态发生过程类似,细胞根据局部信号自组织,偶尔出错(如多长手指)与AI图像生成错误高度相似[19] - 研究提出人类创造力可能同样源于对经验和记忆的不完整拼接与补全,创新往往生长于偏差之中[21][23]
SemiAnalysis创始人Dylan最新访谈--AI、半导体和中美
傅里叶的猫· 2025-10-01 22:43
OpenAI与Nvidia合作情况 - OpenAI需要大量计算资源来训练和运行模型 面临规模太小的风险 尽管有8亿用户 但营收只有15-20亿美元的跑率 而竞争对手是万亿级公司[4] - Nvidia向OpenAI投资100亿美元股权 用于建设10GW计算集群 但实际资本支出高达500亿美元 Nvidia从中捕获大部分GPU订单 毛利率达75%[5] - OpenAI签署了300亿美元的五年合同 如果成功纯利润可达上百亿美元 如果失败则需要举债 这反映了公司在资本实力上相对于Meta等巨头的劣势[6] - 此类合作显示计算资源是AI行业发展的先决条件 短期看Nvidia稳赚 长期取决于OpenAI能否将计算优势转化为实际营收[7] 模型缩放定律和回报机制 - 模型缩放不是线性递减回报 而是log-log规模 10倍计算投入可带来下一阶性能的跃升 例如从低水平到更高水平的能力转变[8] - 大模型服务面临成本高 速度慢等挑战 导致像Anthropic Claude 3 Opus虽然更智能但用户更倾向于使用更快的Sonnet版本[8] - 文本预训练数据接近枯竭 但多模态数据如图像和视频仍有扩展空间 模型大小受限于服务能力而非单纯的计算资源[9] - AI在软件开发领域最为有效 Anthropic营收从1亿美元增长到7-8亿美元 主要来自代码工具 这些工具可作为力乘器 让开发者产出增加2-5倍甚至10倍[9] Token经济学和推理需求 - Token经济学核心是计算投入与智能产出的价值关系 Nvidia将其称为"AI工厂" 1GW容量可服务不同规模的模型[10] - OpenAI的推理需求每两个月翻一倍 公司需要优先服务更多用户并爬升采用曲线 而非急于放大模型规模[10] - 成本已大幅下降 GPT-3现在比最初便宜2000倍 GPT-4o和DeepSeek成本更低 GPT-4到4 Turbo模型大小缩小一半但质量相当或更好[10] - 推理需求无限但硬件能力无法每两个月翻倍 因此需要算法降本 容量比延迟更重要 现有延迟已足够使用[11] - AI代理未来可像Visa一样抽成1-2% 例如Etsy已有10%流量来自GPT的购物建议查询 显示推理可成为营收引擎[11] 强化学习与环境训练 - 强化学习通过环境迭代学习 湾区有40家初创公司构建训练环境 如模拟购物 数据清洗 数学谜题等场景[12] - 人类通过试错学习 AI也需要类似过程 包括生成数据 测试和反馈 这被称为"后训练"的第二阶段[12] - 长上下文记忆需要优化 Transformer擅长短上下文 但长记忆需借助RAG等技术 类似人类记忆要点而非细节[12] - AI将从问答工具发展为行动代理 能够执行购物 决策等任务 这需要平衡即时反应与深度思考的能力[13] 硬件与电力供应链 - AI数据中心占美国电力消耗3-4% 其中一半为传统数据中心 一半为AI专用 整体数据中心行业占美国电力2-3%[14] - OpenAI规划的2GW数据中心电力消耗相当于费城全市用电量 建设资本支出约25亿美元 包括GPU等设备[14] - 行业面临供应链和劳动力短缺 移动电工薪水已翻倍 特别是在西德州数据中心建设热点地区[15] - 电网稳定性是挑战 AI工作负载导致功率波动 可能引起电网频率从60Hz偏离至59Hz 影响附近家电寿命[15] - Texas的ERCOT和东北部PJM电网要求大用户提前通知 可切掉一半电力保证居民用电 数据中心需启动现场发电机[16] - Nvidia Blackwell芯片制造遇到问题 导致供应链公司资产负债表膨胀 AI服务器部署延后[16] 美中AI竞争差异 - 如果没有AI 美国可能在十年内失去全球霸权 中国通过长期投资已在钢铁 稀土 太阳能等多个领域领先[18] - 中国在半导体领域投资达4000-5000亿美元 比美国CHIPS法案规模更大 重点构建自给自足的产业链生态[18] - 美国需要AI加速GDP增长来应对债务负担和社会分裂 而中国则通过补贴和生态构建玩长线游戏[18] 主要公司评价 - OpenAI整体被看好但焦点分散 尽管有8亿用户和快速增长营收 但执行相比Anthropic有所不足[20] - Anthropic更受乐观评价 营收从不到1亿跳至7-8亿美元 专注软件开发这一2万亿美元市场[21] - AMD评价为"中规中矩" 在AI领域更多是跟跑者 适合中端市场但高端集群仍由Nvidia主导[22] - xAI团队专注但面临资本风险 需要持续融资来支持全球最大单体数据中心建设[23] - Oracle是低风险玩家 通过垫付资本支出收取稳定租金 如果OpenAI成功支付300亿合同将获得高收益[24] - Meta拥有全栈优势 包括硬件 模型和推荐系统 下个人机界面可能是语音直达现实[25] - Google从两年前被看空转为被看好 垂直整合栈使其token成本最低 在多模态领域具有优势[25] - 初创公司Periodic Labs用强化学习研究电池化学 效率提升25%可解锁面部AI设备等新应用[26]
谷歌在人工智能训练版权诉讼中取得部分胜利
新浪财经· 2025-09-12 07:17
法律裁决结果 - 公司在备受关注的版权纠纷案中获得多项指控的驳回动议 [1] - 针对公司10个人工智能模型的指控被驳回 这些模型不包括其主打产品Gemini模型 [1] - 针对公司母公司Alphabet Inc的所有指控被驳回 法官驳回有关母公司应为子公司涉嫌侵权行为承担责任的论点 [1] - 针对公司六款人工智能模型的指控将继续进行 这些模型包括Gemini、Bard和Imagen [1] 案件核心争议 - 纠纷涉及公司使用创意作品来训练其人工智能模型 [1] - 法官驳回针对10个模型指控的原因是原告未能提供将其受版权保护的内容与这些机器人联系起来的指控 [1]
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 16:33
文章核心观点 - 谷歌Nano Banana模型通过优化提示词设计显著提升图像生成能力 官方发布六类文本转图像提示模板以最大化模型潜力[8][11] - 用户通过创意提示词实现多样化应用场景 包括产品摄影、风格化插画、文字渲染、商业摄影、极简设计及连续性艺术创作[3][6][16] - 模型在图像编辑一致性和稳定性方面存在技术局限 部分场景下表现不及Qwen和Kontext Pro等竞品[39] 提示词模板分类总结 照片级写实场景 - 需包含机位角度、镜头类型、光线及细节描写 例如使用85mm肖像镜头生成带有景深效果的垂直人像[13][15] - 模板结构包含拍摄类型、主体动作、环境光照及画幅比例 强调纹理细节以实现逼真效果[14] 风格化插画与贴纸 - 需明确艺术风格、关键特征及色板 白色背景需在提示词中特别声明[18] - 案例如卡哇伊风格的小熊猫贴纸 采用粗轮廓线和简单赛璐珞着色[19] 文字渲染应用 - 擅长生成含清晰文字的图像 需指定文字内容、字体风格及整体设计[22] - 模板包含图像类型、品牌概念及色彩方案 案例为黑白极简咖啡店logo[23] 产品模型与商业摄影 - 适用于电商及广告场景 强调高分辨率影棚灯光与特定角度[26] - 模板包含产品描述、背景表面及三点柔光箱设置 案例为混凝土台面上的陶瓷咖啡杯特写[27][28] 极简与留白设计 - 适用于网页及营销素材背景 主体位于画框特定位置并保留大量负空间[30] - 案例为右下角红枫叶与灰白背景的组合 采用顶部柔光照明[32] 连续性艺术创作 - 适用于漫画分镜及视觉叙事 需清晰描述场景角色及对话文本[35] - 模板包含艺术风格、前后景细节及情绪光照 案例为黑白 noir 风格侦探场景[36][37]
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 09:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]