Gemini API
搜索文档
从海外云巨头财报看AI发展趋势——CAPEX激增下的增长逻辑与传导路径
搜狐财经· 2025-11-18 17:28
资本开支分析 - 2025年第三季度,全球四大云服务提供商合计资本开支接近1200亿美元,同比增速普遍超过50% [1] - 微软资本开支为349亿美元,同比增长75%;谷歌资本开支为240亿美元,同比增长83%;亚马逊资本开支为342亿美元,同比增长61%;Meta资本开支为194亿美元,同比增长50% [1] - 投资结构具有鲜明的定向性与技术集中性,谷歌约60%的投资投向服务器,微软约一半资本开支用于短期采购GPU和CPU [1] 资本开支到收入的传导路径 - 资本开支转化为收入需经历产能建设、收入转化与利润优化三个关键阶段 [2] - 产能建设阶段,资本开支主要投向数据中心建设、AI芯片采购及网络设备部署,从资金投入到算力上线通常存在2至4个季度的滞后周期 [3] - 产能释放阶段,充足的产能通过传统云服务、AI基础设施服务及AI应用服务三类服务转化为实际收入 [4] - 规模效应阶段,盈利提升通过固定成本的稀释、高利润服务占比的提升及定价策略的优化三种机制实现 [6][7] 云业务表现 - 微软FY26Q1智能云营收309亿美元,同比增长28%,其中Azure及其他云服务收入同比增长40% [8] - 谷歌云25Q3营收达到152亿美元,同比增长33.5%,营业利润率提升至23.7%,同比大幅提高6.6个百分点 [8] - 亚马逊AWS在25Q3实现营收330亿美元,同比增长20%,营业利润率为34.6% [9] - 截至第三季度末,谷歌云的积压订单达到1550亿美元,同比增长82%,亚马逊的积压订单达到2000亿美元 [11] 行业挑战 - 行业面临严重的供需失衡,AI算力需求呈指数级增长,而数据中心建设、电网配套及芯片产能爬升属于线性且漫长的过程 [12] - 盈利压力日益凸显,谷歌云利润率显著提升,但AWS运营利润率从历史高位回落,反映出潜在的激烈价格竞争与利润摊薄风险 [13] - 全球顶级AI云厂商分化为“全栈自研”与“云+生态”两种发展模式,前者技术协同强但前期投入巨大,后者客户选择灵活但易受制于合作伙伴 [14] 行业观察与启示 - 短期视角下,市场应关注AI转化效率与盈利结构,具体指标包括产能利用率、AI服务收入占比及利润率波动 [15][16] - 长期视角下,竞争焦点转向技术路线与战略韧性,核心在于技术自给能力与生态韧性 [17] - 投资视角应聚焦于资本纪律性强、商业化路径明确、并能通过规模效应对冲成本压力的厂商 [18]
免费开源的日报生成器,捕捉操作、分析活动、一键输出,老板看了都点赞~
菜鸟教程· 2025-11-17 11:30
产品核心功能 - 自动录制电脑屏幕活动,每秒记录一帧画面,功耗极低 [2][5][8] - AI每15分钟分析一次用户活动,自动生成工作时间线,将一天操作浓缩为总结卡片 [5][8] - 提供延时摄影功能,支持回放全天工作过程 [8] - 具备自动清理机制,录像数据在三天后自动删除 [8] - 提供分心提示功能,可告知用户偏离主要任务的行为 [8] 产品特点与优势 - 采用SwiftUI原生界面,与macOS系统原生UI无缝融合,用户体验流畅 [8] - 工具旨在替代人工撰写日报、周报,为员工自动总结工作内容 [2][8] - 未来将推出无限可定制的仪表盘功能,允许用户提出工作日相关问题并跟踪趋势变化 [7] - 计划推出每日日志功能,可回顾每日亮点并添加笔记或截图 [10] 技术实现与支持 - 目前产品仅支持macOS操作系统 [12] - 用户可通过GitHub releases页面下载安装包或使用brew命令进行安装 [12] - 支持使用Gemini API key,用户需从特定网站获取并配置权限 [15][19][22]
刚刚, AI视频王者大更新!硬刚Sora,威尔史密斯吃面更香了
创业邦· 2025-10-16 11:23
核心观点 - Google Veo 3 1视频生成模型迎来重大升级 在功能完善和模型进步两个层面均有显著提升 特别是在提示词理解和视听质量上取得明显进步 [4][5][8] - 新版本首次为多项核心功能加入音频支持 使音频成为创作流程的一部分 提升了视频内容的完整性和场景感 [7][11] - 模型在照片级和商业级内容生成上已具备较高可用性 但在特定风格如动漫领域的精准还原仍有优化空间 [40][41] 功能升级 - 视频编辑功能得到强化 用户可对片段进行更细致调整 对最终画面实现更精准掌控 [5] - 为素材转视频 帧转视频和延展功能全部加入音频支持 目前处于实验阶段 将根据用户反馈继续优化 [7][11] - 新增插入新元素和移除对象两项编辑功能 前者可随时添加内容并自动处理阴影光线 后者可删除不需要元素并自动重建背景 使编辑过程更灵活 [20] - 输出格式从仅支持720p横屏扩展至可同时生成横屏和竖屏的16:9视频 更符合当前主流内容消费习惯 [19] 模型性能提升 - Veo 3 1在提示词理解和视听质量两个关键指标上明显提升 从图像到视频的转化更加自然流畅 [8] - 对细节刻画更精准 例如在生成玻璃柠檬的案例中 对融化闪粉的细节表现优于前代版本 [28] - 在电商广告场景下 其视觉呈现被评价为更高级 更有商业感 尽管在语音解说方面不如竞争对手Sora 2 [32] 应用场景与市场影响 - 用户已在Flow应用中创作超过2 75亿个视频 新功能旨在支持更灵活的迭代编辑 [20] - 模型已通过Gemini API向开发者开放 企业用户可在Vertex AI中访问 普通用户可在Gemini应用内体验 [22] - 行业观察到视频生成模型迭代速度超出大多数人想象 此类工具正从专业工具演变为大众应用 未来AI生成内容可能充斥各类社交及新闻平台 [41][42]
刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2
机器之心· 2025-10-16 08:51
模型发布与核心升级 - 谷歌发布最新AI视频生成模型Veo 3.1,是其前代Veo 3的升级版本 [2][5] - 新模型提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 由其驱动的AI电影创作工具Flow同步更新,可实现更精细的视频片段编辑和颗粒化控制 [3] 增强的叙事与音频控制 - Veo 3.1增强了对对话、环境音效及其他音频效果的支持 [5] - 在Flow的多个核心功能中,如连帧成片、素材生成视频和延展,均已支持原生音频生成 [6] - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,以往需后期制作的能力现可在生成阶段完成 [10] - 在企业场景中,该集成式创作方式有助于减少独立音频制作流程,适用于培训内容、营销视频等制作 [10] 更丰富的输入与编辑能力 - 模型可接受文本提示、图像以及视频片段作为输入 [12] - 支持参考图像(最多三张)以引导输出画面的外观与风格,支持首帧与末帧插值以生成平滑过渡场景,支持场景延展让动作持续发展 [12] - 引入新功能如插入(向场景添加物体)和移除(删除元素或角色) [13] 技术规格与输出能力 - Veo 3.1支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [18] - 使用文本提示或上传图像生成视频时,时长可选4秒、6秒或8秒 [22] - 使用Extend功能,视频最长可扩展至148秒(超过两分半) [22] - 新功能带来对主体与环境的更精确控制,有助于保持品牌外观特征与风格一致性,简化零售、广告等行业的创意生产流程 [19] 多平台部署与定价 - Veo 3.1可通过谷歌旗下AI服务访问,包括Flow、Gemini API和Vertex AI [15][20] - 模型目前处于预览阶段,仅在Gemini API的付费层级中可用 [16] - 收费结构与Veo 3一致,标准模型为每秒视频0.40美元,快速模型为每秒视频0.15美元 [21] - 采用视频成功生成后才计费的方式,为企业团队提供可预测的预算模式 [16]
「免费额度」秒变40万债务?学生误泄Gemini API密钥背上巨额账单:开发者社区炸锅,谷歌最终免单
36氪· 2025-09-28 15:13
事件概述 - 一名格鲁吉亚学生因意外泄露Google Cloud的Gemini API Key,导致在数月内产生高达55,444美元(约40万人民币)的账单 [1][3] - 该学生最初仅计划使用谷歌提供的300美元免费额度进行学习实验,实际仅消耗80美元 [3] - 事件在开发者社区引发广泛关注和讨论后,谷歌最终决定全额豁免该笔账单 [9] 账单产生过程 - 账单分三波累计:6月产生732美元,8月产生31,000多美元,9月1日至7日又增加21,000多美元 [4][7] - 在API Key暴露后的两天内,攻击者发起了1.42万次API请求,虽全部失败但仍被计费 [4] - 因学生信用卡已过期,6月份的账单未能成功扣款 [4] 云服务计费机制与风险 - 谷歌云平台采用“先消耗,再结算”的计费模式,涉及复杂因子计算,数据延迟一天以上,导致实时硬性消费上限难以实现 [8] - 开发者社区质疑为何只能设置消费提醒而不能设定硬性消费上限 [2][8] - 有建议提出可通过设置API调用“配额”或限制服务账号的IP范围来规避风险 [8] 开发者社区反应与建议 - 许多开发者对事件表示同情,并分享类似经历,例如有公司账户曾因密钥泄露产生2万美元的账单 [8] - 开发者建议采取多项安全措施,包括使用gitleaks等工具扫描代码、开启双因素认证(2FA)、及时检查账户是否有滥用行为等 [8] - 社区普遍认为,对于个人开发者而言,此类事件可能造成毁灭性打击 [8] 事件最终影响 - 该事件为所有云服务用户,尤其是学生和个人开发者,敲响了安全警钟 [9] - 学生最终对社区的支持和谷歌账单团队的服务表示感谢 [9]
谷歌 - 2025 年 Communacopia + 科技大会-关键要点
2025-09-11 20:11
公司及行业 * 公司为Alphabet Inc (GOOGL) 旗下谷歌云 (Google Cloud) [1] * 行业涉及云计算与人工智能 [2][5] 市场机会与行业趋势 * 云计算采用和向公有云迁移存在长期发展空间 初始云采用浪潮由企业的基础设施成本节约和应用托管驱动 如今主要驱动力是组织寻求通过云提供的AI产品和解决方案来转型业务 [5] * 谷歌云的AI系统针对高性能 高可靠性和可扩展的训练及推理进行了优化 [2][5] * 公司持续在5个领域构建特定领域的企业智能体 包括代码/数据/安全 创造力/协作 特定应用领域 特定行业 聊天和智能体平台 [5] 产品与商业化 * 生成式AI方面 公司持续致力于扩大企业对接模型的权限 提供第一方(1P) 第三方(3P)和开源模型 共提供182个领先模型的套件 [5] * 提供的模型类别包括用于GenAI应用的大规模模型(已有超过900万唯一开发者使用Gemini API进行构建) 扩散模型(用于创建图像 视频 音频 语音等) 科学计算模型等 [6] * 管理层提出了AI货币化的多种方式 包括按使用量消费 订阅 增加使用量 基于价值的定价和高级附加销售 [2][6] * 多元化的收入基础已促成13条年收入超过10亿美元的产品线 [2][5] 财务表现与预测 * 随着谷歌云扩大客户群和增加产品使用量 其运营利润率和盈利能力持续改善 [6] * 公司早期决定自主研发芯片 模型及基于这些模型的产品 这使其在成本优化和效率上相比其他公司具有优势 [6] * 高盛给予买入评级 12个月目标价为234美元 较当前239.63美元有2.3%的下行空间 [6][8] * 公司市值2.9万亿美元 企业价值2.9万亿美元 三个月平均每日交易额74亿美元 [8] * 财务预测显示营收从2024年的2951.18亿美元增长至2027年的4244.16亿美元 同期EBITDA从1277.01亿美元增长至2069.33亿美元 [8] 风险因素 * 投资评级风险包括 产品效用水平和广告收入的竞争 行业颠覆对可货币化搜索产品带来的阻力 媒体消费习惯的改变 巨额投资对运营利润率压制时间超预期 股东回报增量低或无增量 监管审查和行业实践改变商业模式前景 [7] * 公司面临全球宏观经济环境波动和投资者对成长股风险偏好变化带来的波动性 [7]
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
机器之心· 2025-09-02 11:44
谷歌URL Context功能技术特点 - 使Gemini模型能够直接访问并处理来自URL的内容 包括网页 PDF和图像[1] - 深度解析PDF 能理解表格 文本结构甚至脚注[7] - 多模态理解 能处理PNG JPEG等图片并理解其中图表和图示[7] - 支持多种网页文件格式 HTML JSON CSV等[7] - 单次请求最多处理20个URL 单个URL内容上限为34MB[5][29] 与传统AI处理URL方式的差异 - 传统方式通过通用浏览工具或搜索引擎插件读取网页摘要或部分文本[5] - URL Context通过API指令Gemini将URL全部内容作为权威上下文进行深度完整解析[5] - 专门为开发者设计的编程接口 可实现更精准的信息提取效果[5][14] 对RAG技术的潜在影响 - 被评价为"RAG的又一颗棺材钉" 提供处理公开网络内容的简单替代方案[8][13] - 无需传统RAG流程中的文本提取 分块 矢量化 存储等复杂步骤[13] - 开发者只需几行代码就能实现更精准效果 无需搭建复杂管道[13][14] 实际应用表现 - 准确提取特斯拉50页财报PDF第4页表格中的总资产$93,941百万和总负债$39,446百万数据[14][17] - 能识别PDF末尾员工遣散信中被星号屏蔽的离职日期及脚注中的解释说明[20][22] - 采用两步检索流程 优先从内部索引缓存获取内容 未命中则进行实时抓取[25] 技术限制与行业趋势 - 无法处理需要登录或付费的"付费墙"内容[29] - 不处理YouTube视频 Google Docs等有专门API的内容[29] - 按处理内容Token数量计费 引导开发者进行高效应用设计[27] - 反映基础模型正将外部能力内置化 底层模型服务吸收原应用层数据处理工作[27]
谷歌Nano Banana全网刷屏,起底背后团队
机器之心· 2025-08-29 12:34
产品发布 - Google DeepMind团队推出Gemini 2.5 Flash Image模型 具备原生图像生成与编辑能力 可快速生成高质量图像并在多轮对话中保持场景一致性 [2] - 模型引入交错生成机制 将复杂指令拆解为多轮操作 实现像素级完美编辑 用户仅需自然语言指令即可完成操作 [46] - 生成单张图像仅需十几秒 支持快速重试 显著提升创作效率 [49] 技术能力 - 模型具备优秀文本渲染能力 可在图像中正确生成简短文字如Gemini Nano 团队将文本渲染作为评估图像结构能力的新指标 [39][41] - 模型通过多模态理解与生成的紧密结合提升性能 图像理解为生成提供信息 生成反过来强化理解 [44] - 模型能利用视觉信号从世界学习额外知识 从而提升文本理解与生成能力 视觉信号成为理解世界的捷径 [45] 应用场景 - 在家居设计场景中 用户可快速可视化多种方案 如房间不同窗帘效果 模型能精准修改而不破坏整体环境 [49] - 在人物形象设计中 无论是更换服装 调整角度或生成复古风格 模型均能保持面部和身份一致性 [49] - 模型适合处理以某公司风格设计广告牌等任务 可直接将参考图像作为风格输入 操作比Imagen更方便 [52] 团队构成 - Logan Kilpatrick担任高级产品经理 领导Google AI Studio和Gemini API产品开发 曾任职OpenAI开发者关系负责人和Apple机器学习工程师 [6][8] - Kaushik Shivakumar担任研究工程师 专注于机器人技术 人工智能和多模态学习 参与Gemini 2.5模型开发 [12][14] - Robert Riachi担任研究工程师 专注于多模态AI模型开发 参与Gemini 2.0和2.5系列研发 致力于图像生成与对话AI结合 [17][20] - Nicole Brichtova担任视觉生成产品负责人 专注于构建生成模型 推动Gemini应用 Google Ads和Google Cloud产品发展 [24][26] - Mostafa Dehghani担任研究科学家 主要从事机器学习研究 参与开发多模态视觉语言模型PaLI-X和220亿参数Vision Transformer [29] 产品定位 - Gemini目标为整合所有模态向AGI方向迈进 利用知识转移在跨模态复杂任务中发挥作用 [50] - Imagen专注于文本到图像任务 在Vertex平台提供多种优化变体 适合目标明确 追求速度和性价比的场景 [50][51] - Gemini在复杂多模态工作流中优势突出 支持生成加编辑 多轮创意迭代 能理解模糊指令和利用世界知识 [52] 未来展望 - 期待模型展现智能 即使不完全遵循指令也能生成比描述更好的结果 让用户感受与更聪明系统互动 [53] - 关注模型事实性与功能性 希望生成既美观又准确无误的图表或信息图 甚至自动制作工作简报 [53]
海外AItoken/用户数激增,算力需求长坡厚雪
长江证券· 2025-06-22 07:30
报告行业投资评级 - 看好,维持 [9] 报告的核心观点 - 海外AI应用活跃用户数激增,推理侧Token爆发拉动算力需求,大模型公司ARR快速提升,AI大模型商业兑现进行时,高资本支出延续,为海外算力链提供有力支撑,25Q2光模块板块景气度高,光器件订单强劲,多家光器件厂商营收及业绩加速释放,继续看好海外AI算力供应链方向 [2][11] 根据相关目录分别进行总结 事件描述 - 海外AI需求爆发式增长,2025年第一季度微软处理的Token总量超100万亿,同比增5倍,谷歌月度Token处理量从9.7万亿飙升至480万亿,增幅约50倍,ChatGPT用户数近几个月爆发式增长 [6] 事件评论 - 用户侧增长迅猛,ChatGPT上线两月破1亿用户,17个月内月活达8亿,近几个月爆发式增长,付费订阅用户超2000万;推理侧Token使用量爆发式增长,谷歌过去一年每月处理Token数量从9.7万亿跃升至480万亿,增幅约50倍,旗下AI Studio和Gemini API自2025年初活跃度增长逾200%,微软Azure AI Foundry被超7万家企业开发者使用,2025年一季度处理Token超100万亿,同比增5倍 [11] - OpenAI年化经常性收入突破100亿美元,较去年12月的55亿美元增长近80%,付费商业用户达300万,2025 - 2027年预计服务器支出约900亿美元;Anthropic年化经常性收入达约30亿美元,2024年12月为近10亿美元,3月底左右突破20亿美元 [11] - 25Q2光模块板块景气度高,Meta和AWS等大厂800G产或继续上量;光器件侧MPO、AWG、FAU订单强劲,MPO光纤连接器受新建数据中心驱动,呈现订单外溢趋势,毛利率加速攀升,多家光器件厂商营收及业绩加速释放 [2][11] - 继续看好海外AI算力供应链方向,重点推荐光模块/光引擎厂商天孚通信、新易盛、中际旭创,铜连接厂商沃尔核材,重点关注光器件厂商仕佳光子、太辰光、源杰科技、长飞光纤 [11]
速递|OpenAI升级其Operator的底层模型,推理模型o3全面接棒GPT-4o
Z Potentials· 2025-05-25 12:37
OpenAI AI代理Operator模型升级 - OpenAI正在将Operator代理的AI模型从定制版GPT-4o升级为基于o3的新模型 o3是OpenAI最新o系列"推理"模型之一 升级后API版本仍保持基于4o不变 [1][2] - o3模型在数学和推理任务上表现显著优于GPT-4o 针对计算机使用场景进行了额外安全数据微调 包含专门教授模型决策边界的数据集 [2][3] - o3 Operator在安全评估中表现优异 相比GPT-4o更少拒绝执行"非法"活动或搜索敏感数据 对提示注入等攻击抵抗力更强 采用与4o相同的多层安全防护机制 [3] 行业竞争格局 - 各大AI公司竞相开发高度复杂的智能体工具 这些智能体可基本无需监督完成各种任务 [2] - 谷歌通过Gemini API提供"计算机使用"智能体和面向消费者的Mariner服务 Anthropic的模型也具备执行计算机任务的能力 [2] 技术细节 - o3 Operator继承了o3的编程能力 但不具备直接访问编程环境或终端的原生权限 [3] - 模型升级涉及云端托管的虚拟机使用特定软件 代理可自主浏览网页满足用户需求 [1]