Imagen 3

搜索文档
Google launches Veo 3, an AI video generator that incorporates audio
CNBC· 2025-05-21 01:45
谷歌AI视频生成工具Veo 3发布 - 公司推出Veo 3 AI视频生成工具 具备音频合成能力 可生成角色对话和动物声音等音效 与OpenAI的Sora形成直接竞争 [1] - Veo 3支持从文本/图像提示生成视频 并实现真实物理效果和精准口型同步 [2] - 产品定价249 99美元/月 面向美国Ultra订阅用户和企业级Vertex AI平台开放 [2] 图像生成与影视制作工具升级 - 同步发布Imagen 4图像生成工具 通过用户提示词可输出更高质量图片 [3] - 推出Flow影视制作工具 用户通过描述场景/镜头/风格偏好即可生成电影级视频 支持Gemini/Whisk/Vertex AI/Workspace等多平台接入 [3] 生成式AI视频应用爆发 - 图像视频类生成AI需求激增 OpenAI曾因ChatGPT 4o图像生成功能过载导致计算芯片过热 被迫临时限流 [4] - 行业数据显示生成式AI在多媒体内容创作领域渗透率快速提升 [4] 历史产品迭代与改进 - 公司承认Imagen 3曾因历史准确性不足引发争议 经重新测试后重新发布 [5] - Veo 2视频生成器新增文本提示编辑功能 支持通过文字指令增删视频物体 [5] - Lyria 2音乐生成模型向YouTube Shorts创作者和Vertex AI企业用户开放 [5]
2025年哪款模型最受欢迎?Poe最新报告:DeepSeek降温、可灵成黑马
Founder Park· 2025-05-15 19:34
模型市场份额动态 - DeepSeek R1消息份额从2月中旬7%峰值降至4月底3% [4][7] - GPT-4.1系列和Gemini 2.5 Pro在编程任务中份额分别增长至10%和5% [7] - Claude 3.5 Sonnet仍保持12%总体使用率,但Claude 3.7 Sonnet抢占其份额 [7] 推理模型发展趋势 - 用户发给推理模型的文本消息总份额从2%上升至10% [4][9] - Gemini 2.5 Pro发布后6周内获得30%推理消息份额 [11] - 具备混合推理能力的模型如Gemini 2.5 Flash Preview和Qwen 3占比约1% [14] 图像生成领域竞争 - GPT-Image-1开放API两周内图像生成使用率达17% [4][17] - 谷歌Imagen 3系列使用量从10%增长至30% [17] - FLUX系列图像生成模型市场份额从45%降至35% [18] 视频生成市场格局 - Kling-2.0-Master发布三周内占据21%视频生成请求份额 [4][21] - 谷歌Veo 2模型保持约20%使用份额 [22] - Runway使用份额下降40%至约20% [23] 音频生成领域现状 - ElevenLabs处理约80%订阅用户TTS请求 [4][24] - Cartesia、Unreal Speech等新玩家提供多样化声音选项和价格方案 [24]
AI全球速递:从谷歌FY25Q1财报看AI产业趋势变化
长江证券· 2025-05-08 19:11
报告行业投资评级 - 看好,维持 [8] 报告的核心观点 - 美东时间4月24日盘后谷歌发布2025财年Q1财报,营收和净利润均高于彭博一致预期,股价盘后涨5%,公司对二季度指引偏谨慎乐观 [1][4] - 云业务展现AI领域领先优势,全栈式AI方法是增长核心,AI整体进展顺利,需求有望爆发,推荐关注全年围绕AI Agent的投资机遇 [6] - 云业务增速超整体,搜索业务在各垂直领域表现强劲,AI Overviews功能提升满意度与使用率;利润超预期,预计FY25资本开支750亿美元不变,后续资本开支折旧可能加速;谷歌董事会批准季度股息上调5%,并授权700亿美元股票回购计划 [11] 根据相关目录分别进行总结 事件描述 - 美东时间4月24日盘后谷歌发布2025财年Q1财报,营收902.34亿美元,同比增12.0%;净利润345.4亿美元,同比增46.0%;每股摊薄收益2.81美元,同比增48.7%,均高于彭博一致预期;股价盘后涨5%,因一季度营收业绩超预期;公司对二季度指引偏谨慎乐观 [1][4] 事件评论 云业务优势 - 云业务因市场供需紧张,营收增速与新产能部署进度相关,预计2025年末产能部署较高 [6] - 基础设施方面,公司有超200万英里光纤与33条海底电缆,第七代TPU计算力较高性能DPU提升超10倍,能效近乎翻倍;与英伟达合作紧密,率先推出其B200和B200 Blackwell GPU,还将引入下一代GPU Vera Rubin [6] - 终端方面,年初至今AI studio和Gemini API活跃用户激增超200%,Imagen 3和Veo 2广泛应用,开放模型Gema 3性能出色,下载量超1.4亿次 [6] - 在机器人、医疗等新领域,开发Gemini机器人模型,推出AI co scientist多智能体系统,AlphaFold已服务超250万研究人员 [6] 业务营收情况 - FY25Q1谷歌营收902亿美元,同比增12.0%,高于彭博预期;净利润345.4亿美元,同比增46.0%,大幅高于彭博预期 [11] - 谷歌广告营收669亿美元,同比增8.5%,略好于彭博预期;搜索营收507亿美元,同比增9.85%,基本符合彭博预期 [11] - YouTube广告营收89亿美元,同比增10.35%,符合彭博预期 [11] - 谷歌云业务营收123亿美元,同比增28.1%,略低于市场预期,增速放缓至30%以下 [11] 利润及资本开支情况 - FY25Q1谷歌营业利润增长20%至310亿美元,营业利润率提升至33.9%;净利润增长46%至345亿美元,每股收益增长49%至2.81美元 [11] - FY25Q1谷歌CapEx为172亿美元,同比增长超43%,符合预期,主要投向技术基础设施,服务器投入最大,其次是数据中心 [11] - 谷歌FY25全年指引资本支出预计约750亿美元,季度间或因交付、建设进度波动;预计2025年折旧增速将加快;关键领域人员预计增长;第一季度股权激励费用低于年内其他季度 [11] 其他情况 - 谷歌董事会已批准季度股息上调5%,并授权700亿美元股票回购计划 [11]
Google and Sphere Announce Technology Partnership and Reveal New Details on the AI Technology Behind Upcoming The Wizard of Oz at Sphere
Prnewswire· 2025-04-09 08:00
文章核心观点 Google与Sphere Entertainment达成AI技术合作,运用生成式AI助力《绿野仙踪:球体沉浸式体验》项目,推动娱乐技术发展,为观众带来全新体验 [1] 合作信息 - Google和Sphere Entertainment宣布达成新的AI技术合作,运用生成式AI让《绿野仙踪:球体沉浸式体验》项目落地 [1] - 项目涉及开创性工程工作和数千名创作者、程序员、VFX艺术家等,是娱乐技术的关键时刻 [1] 技术应用 - Google Cloud和Google DeepMind合作部署微调后的Gemini模型、Veo 2和Imagen 3,增强影片分辨率、扩展背景和数字重现角色 [2] - Sphere使用Google Cloud可扩展且针对AI优化的基础设施,支持构建沉浸式体验的大量数据和计算需求,项目至今已处理1.2PB数据 [2] 各方表态 - Sphere Entertainment高管表示生成式AI结合Google的基础设施和专业知识,助其实现非凡成果,Google是能应对挑战的唯一伙伴 [3] - Google Cloud CEO称与Sphere的合作是突破生成式AI边界的范例,为观众带来新体验,为工作室和电影制作人带来新机会 [3] 项目背景 - 1939年上映的《绿野仙踪》采用革命性的三-strip Technicolor 35mm电影摄像机拍摄,是好莱坞第三个采用该彩色工艺的作品 [4] - Sphere将运用Google AI及传统VFX和电影技术,在16万平方英尺的内部显示屏上呈现沉浸式《绿野仙踪》 [4] 技术手段 - 超分辨率:使用Veo智能增强影片分辨率,填充缺失像素,为Sphere的16k x 16k分辨率内部显示屏创建超清晰16k图像 [5] - 外画:使用Veo无缝扩展背景和角色,为Sphere的沉浸式环境扩展影片视觉范围 [5] - 表演生成:结合Veo生成和Gemini指令,开发创新叙事技术,让多个角色长时间留在屏幕上,增强观众沉浸感 [5] - 上下文窗口:Gemini和Veo的超长上下文窗口功能对保持长序列连贯性至关重要,确保增强视觉效果在影片中保持一致 [5] 公司介绍 - Google Cloud加速企业数字化转型,提供利用Google前沿技术的企业级解决方案,是超200个国家和地区客户信赖的合作伙伴 [6] - Sphere是下一代娱乐媒介,重新定义现场娱乐未来,举办好莱坞导演原创体验、知名艺术家音乐会和重要活动,首个场馆于2023年9月在拉斯维加斯开业 [7]