Gemini API

搜索文档
刚刚, AI视频王者大更新!硬刚Sora,威尔史密斯吃面更香了
创业邦· 2025-10-16 11:23
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 来源丨APPSO(ID: appsolution ) 图源丨 X网友 @aisearchio OpenAI前不久刚推出了Sora 2视频生成模型,势头相当凶猛,紧随其后,今天Google的Veo 3.1也 迎来了一次重大升级。 具体来看,Google这次的升级包括两个层面。 一是功能层面的完善。视频编辑功能得到了强化,用户现在可以对片段进行更细致的调整,对最终画 面有了更精准的掌控。 更重要的是,Google首次给「素材转视频(Ingredients to Video)」「帧转视频(Frames to Video)」和「延展(Extend)」这些功能配上了音频,让音频成为创作流程的一部分。 二是模型层面的进步。 今天发布的Veo 3.1在提示词理解和视听质量两个关键指标上都有了明显提升,从图像到视频的转化 因此更加自然流畅。 众所周知,Veo 3原本就有不少编辑能力在身——通过参考图像指导角色生成、用首尾两帧填充中间 内容、基于视频末尾继 ...
刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2
机器之心· 2025-10-16 08:51
模型发布与核心升级 - 谷歌发布最新AI视频生成模型Veo 3.1,是其前代Veo 3的升级版本 [2][5] - 新模型提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 由其驱动的AI电影创作工具Flow同步更新,可实现更精细的视频片段编辑和颗粒化控制 [3] 增强的叙事与音频控制 - Veo 3.1增强了对对话、环境音效及其他音频效果的支持 [5] - 在Flow的多个核心功能中,如连帧成片、素材生成视频和延展,均已支持原生音频生成 [6] - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,以往需后期制作的能力现可在生成阶段完成 [10] - 在企业场景中,该集成式创作方式有助于减少独立音频制作流程,适用于培训内容、营销视频等制作 [10] 更丰富的输入与编辑能力 - 模型可接受文本提示、图像以及视频片段作为输入 [12] - 支持参考图像(最多三张)以引导输出画面的外观与风格,支持首帧与末帧插值以生成平滑过渡场景,支持场景延展让动作持续发展 [12] - 引入新功能如插入(向场景添加物体)和移除(删除元素或角色) [13] 技术规格与输出能力 - Veo 3.1支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [18] - 使用文本提示或上传图像生成视频时,时长可选4秒、6秒或8秒 [22] - 使用Extend功能,视频最长可扩展至148秒(超过两分半) [22] - 新功能带来对主体与环境的更精确控制,有助于保持品牌外观特征与风格一致性,简化零售、广告等行业的创意生产流程 [19] 多平台部署与定价 - Veo 3.1可通过谷歌旗下AI服务访问,包括Flow、Gemini API和Vertex AI [15][20] - 模型目前处于预览阶段,仅在Gemini API的付费层级中可用 [16] - 收费结构与Veo 3一致,标准模型为每秒视频0.40美元,快速模型为每秒视频0.15美元 [21] - 采用视频成功生成后才计费的方式,为企业团队提供可预测的预算模式 [16]
「免费额度」秒变40万债务?学生误泄Gemini API密钥背上巨额账单:开发者社区炸锅,谷歌最终免单
36氪· 2025-09-28 15:13
根据这名学生的描述,账单分三波累计: 近日,一名来自格鲁吉亚的学生在开发者社区讲述了自己的惨痛经历:因为一次无心之失,他不小心将 Google Cloud 的 Gemini API Key 泄露在 GitHub 上,结果在短短几个月内被恶意滥用,最终生成了一张 高达 55444 美元(约合 40 万人民币) 的账单。 这名学生崩溃道:"一个小小的错误,就可能把生活变成噩梦。" 事件曝光后,引发了许多程序员的关注和热议。有人质疑谷歌为何不提供「硬性消费上限」,有人分享 了自己团队也踩过类似的坑,有人则为这名学生鸣不平,呼吁谷歌应该加强针对用户的保护机制。 一场"免费额度"的噩梦 事情的起因非常简单。 这名学生用学校邮箱注册了 Google Cloud,打算利用谷歌提供的 300 美元免费额度做一些学习实验—— 实际上,他只消耗了 80 美元,还剩下 220 多美元。 然而,6 月 6 日,他不小心把 Gemini API Key 提交到了 GitHub 上。当时他以为仓库是私有的,但实际 上在一次提交中暴露了 Key,他自己却没注意。更糟糕的是,因为正值暑假,他几乎没查过学生邮箱, 因此完全没有意识到问题的存在 ...
谷歌 - 2025 年 Communacopia + 科技大会-关键要点
2025-09-11 20:11
公司及行业 * 公司为Alphabet Inc (GOOGL) 旗下谷歌云 (Google Cloud) [1] * 行业涉及云计算与人工智能 [2][5] 市场机会与行业趋势 * 云计算采用和向公有云迁移存在长期发展空间 初始云采用浪潮由企业的基础设施成本节约和应用托管驱动 如今主要驱动力是组织寻求通过云提供的AI产品和解决方案来转型业务 [5] * 谷歌云的AI系统针对高性能 高可靠性和可扩展的训练及推理进行了优化 [2][5] * 公司持续在5个领域构建特定领域的企业智能体 包括代码/数据/安全 创造力/协作 特定应用领域 特定行业 聊天和智能体平台 [5] 产品与商业化 * 生成式AI方面 公司持续致力于扩大企业对接模型的权限 提供第一方(1P) 第三方(3P)和开源模型 共提供182个领先模型的套件 [5] * 提供的模型类别包括用于GenAI应用的大规模模型(已有超过900万唯一开发者使用Gemini API进行构建) 扩散模型(用于创建图像 视频 音频 语音等) 科学计算模型等 [6] * 管理层提出了AI货币化的多种方式 包括按使用量消费 订阅 增加使用量 基于价值的定价和高级附加销售 [2][6] * 多元化的收入基础已促成13条年收入超过10亿美元的产品线 [2][5] 财务表现与预测 * 随着谷歌云扩大客户群和增加产品使用量 其运营利润率和盈利能力持续改善 [6] * 公司早期决定自主研发芯片 模型及基于这些模型的产品 这使其在成本优化和效率上相比其他公司具有优势 [6] * 高盛给予买入评级 12个月目标价为234美元 较当前239.63美元有2.3%的下行空间 [6][8] * 公司市值2.9万亿美元 企业价值2.9万亿美元 三个月平均每日交易额74亿美元 [8] * 财务预测显示营收从2024年的2951.18亿美元增长至2027年的4244.16亿美元 同期EBITDA从1277.01亿美元增长至2069.33亿美元 [8] 风险因素 * 投资评级风险包括 产品效用水平和广告收入的竞争 行业颠覆对可货币化搜索产品带来的阻力 媒体消费习惯的改变 巨额投资对运营利润率压制时间超预期 股东回报增量低或无增量 监管审查和行业实践改变商业模式前景 [7] * 公司面临全球宏观经济环境波动和投资者对成长股风险偏好变化带来的波动性 [7]
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
机器之心· 2025-09-02 11:44
谷歌URL Context功能技术特点 - 使Gemini模型能够直接访问并处理来自URL的内容 包括网页 PDF和图像[1] - 深度解析PDF 能理解表格 文本结构甚至脚注[7] - 多模态理解 能处理PNG JPEG等图片并理解其中图表和图示[7] - 支持多种网页文件格式 HTML JSON CSV等[7] - 单次请求最多处理20个URL 单个URL内容上限为34MB[5][29] 与传统AI处理URL方式的差异 - 传统方式通过通用浏览工具或搜索引擎插件读取网页摘要或部分文本[5] - URL Context通过API指令Gemini将URL全部内容作为权威上下文进行深度完整解析[5] - 专门为开发者设计的编程接口 可实现更精准的信息提取效果[5][14] 对RAG技术的潜在影响 - 被评价为"RAG的又一颗棺材钉" 提供处理公开网络内容的简单替代方案[8][13] - 无需传统RAG流程中的文本提取 分块 矢量化 存储等复杂步骤[13] - 开发者只需几行代码就能实现更精准效果 无需搭建复杂管道[13][14] 实际应用表现 - 准确提取特斯拉50页财报PDF第4页表格中的总资产$93,941百万和总负债$39,446百万数据[14][17] - 能识别PDF末尾员工遣散信中被星号屏蔽的离职日期及脚注中的解释说明[20][22] - 采用两步检索流程 优先从内部索引缓存获取内容 未命中则进行实时抓取[25] 技术限制与行业趋势 - 无法处理需要登录或付费的"付费墙"内容[29] - 不处理YouTube视频 Google Docs等有专门API的内容[29] - 按处理内容Token数量计费 引导开发者进行高效应用设计[27] - 反映基础模型正将外部能力内置化 底层模型服务吸收原应用层数据处理工作[27]
谷歌Nano Banana全网刷屏,起底背后团队
机器之心· 2025-08-29 12:34
产品发布 - Google DeepMind团队推出Gemini 2.5 Flash Image模型 具备原生图像生成与编辑能力 可快速生成高质量图像并在多轮对话中保持场景一致性 [2] - 模型引入交错生成机制 将复杂指令拆解为多轮操作 实现像素级完美编辑 用户仅需自然语言指令即可完成操作 [46] - 生成单张图像仅需十几秒 支持快速重试 显著提升创作效率 [49] 技术能力 - 模型具备优秀文本渲染能力 可在图像中正确生成简短文字如Gemini Nano 团队将文本渲染作为评估图像结构能力的新指标 [39][41] - 模型通过多模态理解与生成的紧密结合提升性能 图像理解为生成提供信息 生成反过来强化理解 [44] - 模型能利用视觉信号从世界学习额外知识 从而提升文本理解与生成能力 视觉信号成为理解世界的捷径 [45] 应用场景 - 在家居设计场景中 用户可快速可视化多种方案 如房间不同窗帘效果 模型能精准修改而不破坏整体环境 [49] - 在人物形象设计中 无论是更换服装 调整角度或生成复古风格 模型均能保持面部和身份一致性 [49] - 模型适合处理以某公司风格设计广告牌等任务 可直接将参考图像作为风格输入 操作比Imagen更方便 [52] 团队构成 - Logan Kilpatrick担任高级产品经理 领导Google AI Studio和Gemini API产品开发 曾任职OpenAI开发者关系负责人和Apple机器学习工程师 [6][8] - Kaushik Shivakumar担任研究工程师 专注于机器人技术 人工智能和多模态学习 参与Gemini 2.5模型开发 [12][14] - Robert Riachi担任研究工程师 专注于多模态AI模型开发 参与Gemini 2.0和2.5系列研发 致力于图像生成与对话AI结合 [17][20] - Nicole Brichtova担任视觉生成产品负责人 专注于构建生成模型 推动Gemini应用 Google Ads和Google Cloud产品发展 [24][26] - Mostafa Dehghani担任研究科学家 主要从事机器学习研究 参与开发多模态视觉语言模型PaLI-X和220亿参数Vision Transformer [29] 产品定位 - Gemini目标为整合所有模态向AGI方向迈进 利用知识转移在跨模态复杂任务中发挥作用 [50] - Imagen专注于文本到图像任务 在Vertex平台提供多种优化变体 适合目标明确 追求速度和性价比的场景 [50][51] - Gemini在复杂多模态工作流中优势突出 支持生成加编辑 多轮创意迭代 能理解模糊指令和利用世界知识 [52] 未来展望 - 期待模型展现智能 即使不完全遵循指令也能生成比描述更好的结果 让用户感受与更聪明系统互动 [53] - 关注模型事实性与功能性 希望生成既美观又准确无误的图表或信息图 甚至自动制作工作简报 [53]
海外AItoken/用户数激增,算力需求长坡厚雪
长江证券· 2025-06-22 07:30
报告行业投资评级 - 看好,维持 [9] 报告的核心观点 - 海外AI应用活跃用户数激增,推理侧Token爆发拉动算力需求,大模型公司ARR快速提升,AI大模型商业兑现进行时,高资本支出延续,为海外算力链提供有力支撑,25Q2光模块板块景气度高,光器件订单强劲,多家光器件厂商营收及业绩加速释放,继续看好海外AI算力供应链方向 [2][11] 根据相关目录分别进行总结 事件描述 - 海外AI需求爆发式增长,2025年第一季度微软处理的Token总量超100万亿,同比增5倍,谷歌月度Token处理量从9.7万亿飙升至480万亿,增幅约50倍,ChatGPT用户数近几个月爆发式增长 [6] 事件评论 - 用户侧增长迅猛,ChatGPT上线两月破1亿用户,17个月内月活达8亿,近几个月爆发式增长,付费订阅用户超2000万;推理侧Token使用量爆发式增长,谷歌过去一年每月处理Token数量从9.7万亿跃升至480万亿,增幅约50倍,旗下AI Studio和Gemini API自2025年初活跃度增长逾200%,微软Azure AI Foundry被超7万家企业开发者使用,2025年一季度处理Token超100万亿,同比增5倍 [11] - OpenAI年化经常性收入突破100亿美元,较去年12月的55亿美元增长近80%,付费商业用户达300万,2025 - 2027年预计服务器支出约900亿美元;Anthropic年化经常性收入达约30亿美元,2024年12月为近10亿美元,3月底左右突破20亿美元 [11] - 25Q2光模块板块景气度高,Meta和AWS等大厂800G产或继续上量;光器件侧MPO、AWG、FAU订单强劲,MPO光纤连接器受新建数据中心驱动,呈现订单外溢趋势,毛利率加速攀升,多家光器件厂商营收及业绩加速释放 [2][11] - 继续看好海外AI算力供应链方向,重点推荐光模块/光引擎厂商天孚通信、新易盛、中际旭创,铜连接厂商沃尔核材,重点关注光器件厂商仕佳光子、太辰光、源杰科技、长飞光纤 [11]
速递|OpenAI升级其Operator的底层模型,推理模型o3全面接棒GPT-4o
Z Potentials· 2025-05-25 12:37
OpenAI AI代理Operator模型升级 - OpenAI正在将Operator代理的AI模型从定制版GPT-4o升级为基于o3的新模型 o3是OpenAI最新o系列"推理"模型之一 升级后API版本仍保持基于4o不变 [1][2] - o3模型在数学和推理任务上表现显著优于GPT-4o 针对计算机使用场景进行了额外安全数据微调 包含专门教授模型决策边界的数据集 [2][3] - o3 Operator在安全评估中表现优异 相比GPT-4o更少拒绝执行"非法"活动或搜索敏感数据 对提示注入等攻击抵抗力更强 采用与4o相同的多层安全防护机制 [3] 行业竞争格局 - 各大AI公司竞相开发高度复杂的智能体工具 这些智能体可基本无需监督完成各种任务 [2] - 谷歌通过Gemini API提供"计算机使用"智能体和面向消费者的Mariner服务 Anthropic的模型也具备执行计算机任务的能力 [2] 技术细节 - o3 Operator继承了o3的编程能力 但不具备直接访问编程环境或终端的原生权限 [3] - 模型升级涉及云端托管的虚拟机使用特定软件 代理可自主浏览网页满足用户需求 [1]
AI全球速递:从谷歌FY25Q1财报看AI产业趋势变化
长江证券· 2025-05-08 19:11
报告行业投资评级 - 看好,维持 [8] 报告的核心观点 - 美东时间4月24日盘后谷歌发布2025财年Q1财报,营收和净利润均高于彭博一致预期,股价盘后涨5%,公司对二季度指引偏谨慎乐观 [1][4] - 云业务展现AI领域领先优势,全栈式AI方法是增长核心,AI整体进展顺利,需求有望爆发,推荐关注全年围绕AI Agent的投资机遇 [6] - 云业务增速超整体,搜索业务在各垂直领域表现强劲,AI Overviews功能提升满意度与使用率;利润超预期,预计FY25资本开支750亿美元不变,后续资本开支折旧可能加速;谷歌董事会批准季度股息上调5%,并授权700亿美元股票回购计划 [11] 根据相关目录分别进行总结 事件描述 - 美东时间4月24日盘后谷歌发布2025财年Q1财报,营收902.34亿美元,同比增12.0%;净利润345.4亿美元,同比增46.0%;每股摊薄收益2.81美元,同比增48.7%,均高于彭博一致预期;股价盘后涨5%,因一季度营收业绩超预期;公司对二季度指引偏谨慎乐观 [1][4] 事件评论 云业务优势 - 云业务因市场供需紧张,营收增速与新产能部署进度相关,预计2025年末产能部署较高 [6] - 基础设施方面,公司有超200万英里光纤与33条海底电缆,第七代TPU计算力较高性能DPU提升超10倍,能效近乎翻倍;与英伟达合作紧密,率先推出其B200和B200 Blackwell GPU,还将引入下一代GPU Vera Rubin [6] - 终端方面,年初至今AI studio和Gemini API活跃用户激增超200%,Imagen 3和Veo 2广泛应用,开放模型Gema 3性能出色,下载量超1.4亿次 [6] - 在机器人、医疗等新领域,开发Gemini机器人模型,推出AI co scientist多智能体系统,AlphaFold已服务超250万研究人员 [6] 业务营收情况 - FY25Q1谷歌营收902亿美元,同比增12.0%,高于彭博预期;净利润345.4亿美元,同比增46.0%,大幅高于彭博预期 [11] - 谷歌广告营收669亿美元,同比增8.5%,略好于彭博预期;搜索营收507亿美元,同比增9.85%,基本符合彭博预期 [11] - YouTube广告营收89亿美元,同比增10.35%,符合彭博预期 [11] - 谷歌云业务营收123亿美元,同比增28.1%,略低于市场预期,增速放缓至30%以下 [11] 利润及资本开支情况 - FY25Q1谷歌营业利润增长20%至310亿美元,营业利润率提升至33.9%;净利润增长46%至345亿美元,每股收益增长49%至2.81美元 [11] - FY25Q1谷歌CapEx为172亿美元,同比增长超43%,符合预期,主要投向技术基础设施,服务器投入最大,其次是数据中心 [11] - 谷歌FY25全年指引资本支出预计约750亿美元,季度间或因交付、建设进度波动;预计2025年折旧增速将加快;关键领域人员预计增长;第一季度股权激励费用低于年内其他季度 [11] 其他情况 - 谷歌董事会已批准季度股息上调5%,并授权700亿美元股票回购计划 [11]
碾压Cursor?谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一
AI前线· 2025-05-07 11:31
谷歌Gemini 2.5 Pro Preview(I/O版)发布 - 谷歌在I/O大会前突发推出Gemini 2.5 Pro Preview(I/O版),作为旗舰AI模型的升级版本,宣称在多项主流基准测试中名列前茅 [2] - 该模型通过Gemini API、Vertex AI与AI Studio平台提供,价格与旧版一致,并集成至Gemini聊天机器人应用供Web及移动端使用 [2] - DeepMind CEO Demis Hassabis强调这是目前最佳编程模型,在LMArena编程类别和WebDev Arena排行榜均排名第一 [2] 模型性能提升 - 新版在编码和构建交互式Web应用方面实现显著提升,尤其在代码转换与编辑任务表现突出 [7] - 在WebDev Arena排行榜以1420分位列第一,较上一版本提高147个Elo积分,超越Claude 3.7 Sonnet(1357分)和GPT-4.1(1261分) [8][9] - 视频理解能力达一流水平,在VideoMME基准测试取得84.8%得分,结合编码功能实现全新流程 [10] 开发者功能优化 - 减少函数调用错误并提高触发率,默认保持良好可操控性,同时强化对Web开发的审美追求 [12] - 前端Web开发表现优异,可自动生成匹配现有风格的CSS代码,例如为应用添加视频播放器组件 [14] - 听写入门应用展示动态波长动画、响应式布局等细节设计,能智能生成麦克风UI动画代码 [15] 行业竞争与社区反馈 - 发布正值谷歌I/O大会前夕,公司计划推出更多AI工具以应对与OpenAI、xAI的激烈竞争 [4] - Cursor CEO称赞模型编程能力进步,工具调用失败率显著降低,提升开发效率 [17] - Hacker News用户认为Gemini 2.5系列可靠性优于其他模型,但仍无法替代人类开发者在抽象思维和系统架构上的能力 [17][18] 基准测试对比 - 科学(GPQA diamond)得分83.0%略低于旧版84.0%,数学(AIME 2025)83.0%低于旧版86.7% [19] - 代码生成(LiveCodeBench v5)75.6%优于旧版70.4%,代码编辑(Aider Polyglot)76.5%整体得分提升 [19] - 长上下文处理(MRCR 128k)93.0%稍逊于旧版94.5%,多模态性能(Global MMLU Lite)88.6%略有下降 [19]