Workflow
Flow
icon
搜索文档
承包你的品牌营销物料|谷歌再发重磅 AI 设计产品
歸藏的AI工具箱· 2025-10-29 15:59
产品定位与发布 - 谷歌实验室发布新AI设计产品Pomelli,专注于帮助企业低成本生成符合品牌调性的营销物料[4] - 用户只需提供官网链接,产品即可自动提取品牌设计元素如主题色、产品能力和定位,并根据输入的活动内容生成海报等营销素材[4] - 该产品目前在美国、加拿大、澳大利亚和新西兰推出[4] 核心功能:品牌DNA提取 - 产品通过输入官网地址分析品牌信息,包括配色、字体、产品能力等,并创建详细的品牌DNA卡片[7][9][11] - 品牌DNA卡片包含产品Logo、品牌字体、主要配色、图片素材、产品能力及商业定位关键词[11] - 若官网信息不足(如仅有一个输入框的AI产品),则产品难以有效工作,且提取的信息可手动修改[13] 创意生成与排版 - 基于品牌DNA,产品可生成多个用于预览的设计稿,用户输入营销活动内容后会自动优化文案并规划排版[15][17] - 生成过程提供三个广告内容创意供用户选择,选定后会生成四种不同排版风格的图片选项[17][19][20] - 排版风格包括专业背景、科技感、人文风格和纯文字排版等不同类型[20] 细节微调与定制化 - 用户可选择喜欢的图片进行微调,主要调整部分包括背景图片、标题、内容文案和号召按钮[23] - 背景图片来源于官网爬取的素材或由Nano Banana生成,文案内容可通过魔法棒图标重新生成,字体可调整[23] - 号召按钮默认不生成,需手动点击生成,其颜色与网站按钮颜色保持一致,确保品牌一致性[25] - 提供"Fix Layout"功能以修复文案修改后的对齐问题,最终可下载生成的海报和营销物料[27] 产品优势与当前局限 - 产品交互和点子优秀,适用于临时救急和批量生产广告内容,操作成本低且自定义程度高[7][30] - 局限性包括非常依赖官网信息和内容,生成的图片美学风格和排版较为单调[31][32] - 背景图片素材控制较弱,目前完全不支持控制图像比例,对于需要多种比例图片的广告投放平台(如Meta)不友好[32] - 技术方案基于前端代码驱动,好处是可精准控制品牌要求高的内容(如主题色和字体),坏处是效果较割裂且无法使用更丰富的效果[32]
迎战Sora 2!谷歌上线视频模型Veo 3. 1,赢面几何?
第一财经· 2025-10-16 20:30
文章核心观点 - 谷歌在Sora 2发布半个月后迅速推出视频生成模型Veo 3.1,与OpenAI展开正面竞争,但此次更新仅为小幅迭代,性能提升有限,未达到超越Sora 2的程度 [3][7][19] - 视频生成赛道竞争白热化,谷歌与OpenAI交替领先,但目前尚无一家具备绝对统治力,行业未来变数仍大 [7][19][20] 谷歌Veo 3.1模型更新 - Veo 3.1的核心亮点包括更丰富的原生音频生成、更强的电影风格理解与叙事控制,以及更逼真的质感还原,音频质量更逼真,能模拟紧张背景配乐与人物语言 [11] - 模型在Flow AI电影制作工具中集成多项功能升级,包括首尾帧功能可生成平滑过渡画面,视频延展功能可生成长达一分钟或更长的片段,素材生视频功能可根据参考图像生成完整视频 [13][15] - 用户测试显示Veo 3.1在提示词遵循、视听质量与音频支持方面比Veo 3提升约20%至30%,基础物理模拟有进步但在复杂画面中仍会出错 [18] 与OpenAI Sora 2的竞争对比 - Sora 2在微观写实、光影与物理细节上更受认可,音频更自然,并具备自动分镜功能对视频叙事帮助显著,而Veo 3.1镜头变化保守,对物理世界理解不如Sora 2 [18] - 在视频长度上Sora 2优势明显,普通用户可生成15秒视频,专业用户可达25秒,而Veo 3.1支持输出最长8秒视频 [7][9][18] - Veo 3.1的主要优势在于生成速度比Sora 2快很多,且谷歌在多模态生态上更为成熟,图像与视频模型联动可形成完整创作闭环 [18] - 价格方面Veo 3.1标准版为0.4美元/秒,快速版为0.15美元/秒,对比Sora 2的0.1美元/秒和Sora2-pro的0.3美元/秒,吸引力不足 [19] 视频生成行业竞争格局 - 视频生成大战中谷歌与OpenAI持续加码,国内玩家如可灵、海螺AI、即梦等也具备不小竞争力,AI视频的“GPT-3.5时刻”仍未到来 [20] - 行业竞争格局动态变化,2024年初Sora引发震动,2024年5月谷歌推Veo 1迎战,2024年12月Veo 2被普遍认为更优,2025年5月Veo 3登顶,2025年10月初Sora 2再度改写竞争格局 [19]
迎战Sora 2!谷歌上线视频模型Veo 3. 1,赢面几何?
第一财经· 2025-10-16 18:48
文章核心观点 - 谷歌在Sora 2发布半个月后火速推出视频模型Veo 3.1和Veo 3.1 Fast 正面迎战OpenAI 行业竞争白热化 [1][5] - 此次更新被视为一次小的迭代 性能较Veo 3提升不大 行业认为Veo 3.1未到超越Sora 2的地步 [5][17][19] - 视频生成赛道竞争激烈 两大巨头持续加码 尚无一家具备绝对统治力 未来行业变数很大 [5][20] 模型功能更新 - Veo 3.1核心亮点包括更丰富的原生音频生成 更强的电影风格理解与叙事控制 以及更逼真的质感还原 [9] - 模型在视频生成同时自动根据画面内容生成环境音 动作声及氛围配乐 音频质量更逼真 尤其在对话上 [9] - 迭代包括Flow工具的核心功能升级 如首尾帧功能可根据起始和结束图像生成平滑过渡画面 [11] - 视频延展功能支持从剪辑最后一秒扩展视频 可生成持续一分钟或更长的片段 [13] - 素材生视频功能支持上传多张参考图像生成包含指定角色与场景风格的完整视频 并可通过Remove功能移除物体或人物 [13] 模型性能对比 - 用户测试显示Veo 3.1在提示词遵循 视听质量与音频支持方面比Veo 3提升约两到三成 基础物理模拟有进步但在复杂画面中仍会出错 [17] - 与Sora 2相比 Veo 3.1在光影效果和生成速度上更突出 但Sora 2在微观写实 物理细节 自动分镜及音频自然度上更常被认可 [5][17] - Veo 3.1支持输出最长8秒视频 Sora 2最新更新后普通用户可生成15秒视频 专业用户可达25秒 [5][18] - Veo 3.1生成速度比Sora 2快很多 Sora 2需等待数分钟 [18] 市场生态与定价 - 谷歌在多模态生态上更为成熟 图像模型与视频模型联动可形成完整创作闭环 [18] - Veo 3.1处于预览阶段 用户可在Gemini API Vertex AI Gemini应用及Flow上付费使用 [18] - Veo 3.1标准版定价0.4美元/秒 快速版0.15美元/秒 对比Sora 2的0.1美元/秒和Sora2-pro的0.3美元/秒 价格吸引力不足 [18] - 由Veo驱动的AI电影制作工具Flow 截至目前用户已生成超过2.75亿个视频 [11] 行业发展历程 - 2024年初Sora引发行业震动 同年5月谷歌推出Veo 1迎战 至12月Veo 2取得突破 业界普遍认为Veo 2更优 [19] - 2025年5月Veo 3发布登顶多榜 10月初OpenAI发布Sora 2再度改写竞争格局 [20] - 国内玩家如可灵 海螺AI 即梦等也有不小竞争力 [20]
瞄准 Sora 2,谷歌发布 Veo 3.1,功能大更新,但硬刚还差点儿
Founder Park· 2025-10-16 11:52
产品发布与定位 - 谷歌深夜发布了最新的AI视频生成模型Veo 3.1 [2] - 此次更新是在2025年5月发布的Veo 3基础上进行的升级 [7] 功能与技术升级 - Veo 3.1相比前代版本带来了更丰富的音频、叙事控制以及更逼真的质感还原 [3] - 模型进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 增强了对对话、环境音效以及其他音频效果的支持,在Flow的多个核心功能中已支持原生音频生成 [7][8] - 引入了对多种输入类型的支持,可接受文本提示、图像以及视频片段作为输入,并支持参考图像(最多三张)、首帧与末帧插值以及场景延展 [13] - 新功能包括插入(向场景中添加物体)和移除(删除元素或角色),但并非所有功能都能通过Gemini API即时使用 [14] - 新功能带来了对主体与环境的更精确控制,企业用户上传产品图片后,模型能在整个视频中保持其外观特征与风格一致性 [19] 性能与输出规格 - 模型支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [16] - 基础生成时长为8秒,但可以延长至30秒甚至1分钟以上,使用Extend功能最长可扩展至148秒(超过两分半) [9][11][22] - 在视频延长时会产生音频不连贯问题,导致延长部分几乎不可用 [4] 市场评价与竞争对比 - 第三方测试显示,Veo 3.1在模型质量上相比前代提升不大,画面感觉更“油腻”和虚假 [4] - 此次更新更多体现在功能的增加上,核心模型质量并无质的飞跃,离竞争对手Sora2还有一段距离 [4] 部署与商业化 - 模型可通过谷歌旗下多项现有AI服务访问,包括Flow、Gemini API和Vertex AI [17] - Veo 3.1模型目前处于预览阶段,仅在Gemini API的付费层级中可用,收费结构与Veo 3保持一致 [15] - 标准模型收费为每秒视频0.40美元,快速模型收费为每秒视频0.15美元 [18] - 目前尚无免费层级,且仅在视频成功生成后才会计费 [15] 行业应用前景 - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,这些能力以往只能通过后期制作实现 [12] - 在企业场景中,这种高层次的控制有望减少独立音频制作流程的需求,便于制作培训内容、营销视频或数字体验作品 [12] - 对品牌一致性的控制能力有助于简化创意生产流程,特别适用于零售、广告以及虚拟内容制作等需要视觉延续性的团队 [19]
刚刚, AI视频王者大更新!硬刚Sora,威尔史密斯吃面更香了
创业邦· 2025-10-16 11:23
核心观点 - Google Veo 3 1视频生成模型迎来重大升级 在功能完善和模型进步两个层面均有显著提升 特别是在提示词理解和视听质量上取得明显进步 [4][5][8] - 新版本首次为多项核心功能加入音频支持 使音频成为创作流程的一部分 提升了视频内容的完整性和场景感 [7][11] - 模型在照片级和商业级内容生成上已具备较高可用性 但在特定风格如动漫领域的精准还原仍有优化空间 [40][41] 功能升级 - 视频编辑功能得到强化 用户可对片段进行更细致调整 对最终画面实现更精准掌控 [5] - 为素材转视频 帧转视频和延展功能全部加入音频支持 目前处于实验阶段 将根据用户反馈继续优化 [7][11] - 新增插入新元素和移除对象两项编辑功能 前者可随时添加内容并自动处理阴影光线 后者可删除不需要元素并自动重建背景 使编辑过程更灵活 [20] - 输出格式从仅支持720p横屏扩展至可同时生成横屏和竖屏的16:9视频 更符合当前主流内容消费习惯 [19] 模型性能提升 - Veo 3 1在提示词理解和视听质量两个关键指标上明显提升 从图像到视频的转化更加自然流畅 [8] - 对细节刻画更精准 例如在生成玻璃柠檬的案例中 对融化闪粉的细节表现优于前代版本 [28] - 在电商广告场景下 其视觉呈现被评价为更高级 更有商业感 尽管在语音解说方面不如竞争对手Sora 2 [32] 应用场景与市场影响 - 用户已在Flow应用中创作超过2 75亿个视频 新功能旨在支持更灵活的迭代编辑 [20] - 模型已通过Gemini API向开发者开放 企业用户可在Vertex AI中访问 普通用户可在Gemini应用内体验 [22] - 行业观察到视频生成模型迭代速度超出大多数人想象 此类工具正从专业工具演变为大众应用 未来AI生成内容可能充斥各类社交及新闻平台 [41][42]
刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2
机器之心· 2025-10-16 08:51
模型发布与核心升级 - 谷歌发布最新AI视频生成模型Veo 3.1,是其前代Veo 3的升级版本 [2][5] - 新模型提升了提示词遵循度,并在以图生视频时提供更高的视听质量 [3] - 由其驱动的AI电影创作工具Flow同步更新,可实现更精细的视频片段编辑和颗粒化控制 [3] 增强的叙事与音频控制 - Veo 3.1增强了对对话、环境音效及其他音频效果的支持 [5] - 在Flow的多个核心功能中,如连帧成片、素材生成视频和延展,均已支持原生音频生成 [6] - 原生音频的引入让用户能更好地掌控视频的情绪、节奏与叙事基调,以往需后期制作的能力现可在生成阶段完成 [10] - 在企业场景中,该集成式创作方式有助于减少独立音频制作流程,适用于培训内容、营销视频等制作 [10] 更丰富的输入与编辑能力 - 模型可接受文本提示、图像以及视频片段作为输入 [12] - 支持参考图像(最多三张)以引导输出画面的外观与风格,支持首帧与末帧插值以生成平滑过渡场景,支持场景延展让动作持续发展 [12] - 引入新功能如插入(向场景添加物体)和移除(删除元素或角色) [13] 技术规格与输出能力 - Veo 3.1支持输出720p或1080p分辨率的视频,帧率为24帧/秒 [18] - 使用文本提示或上传图像生成视频时,时长可选4秒、6秒或8秒 [22] - 使用Extend功能,视频最长可扩展至148秒(超过两分半) [22] - 新功能带来对主体与环境的更精确控制,有助于保持品牌外观特征与风格一致性,简化零售、广告等行业的创意生产流程 [19] 多平台部署与定价 - Veo 3.1可通过谷歌旗下AI服务访问,包括Flow、Gemini API和Vertex AI [15][20] - 模型目前处于预览阶段,仅在Gemini API的付费层级中可用 [16] - 收费结构与Veo 3一致,标准模型为每秒视频0.40美元,快速模型为每秒视频0.15美元 [21] - 采用视频成功生成后才计费的方式,为企业团队提供可预测的预算模式 [16]
What Is 1 of the Best Artificial Intelligence (AI) Bargains on the Market Today?
The Motley Fool· 2025-09-29 09:15
核心观点 - 文章认为Alphabet是市场上最佳的人工智能领域投资标的之一 因其估值具有吸引力且在人工智能产业链中占据关键位置 [1][2][6] 估值分析 - Alphabet股票基于未来12个月预期收益的市盈率为26.3倍 在“七巨头”股票中估值最低 [2] - 较低的估值意味着股票价格并未包含过高的增长预期 这有助于防范因预期未达成而出现的股价大幅回撤 使其上行潜力大于下行风险 [4] 人工智能业务布局 - 公司在人工智能产业链的多个关键环节均有布局 包括通过子公司DeepMind进行人工智能研究 [6] - 公司拥有并运营数十个数据中心 这些设施对于训练和扩展人工智能至关重要 [6] - 公司拥有面向消费者的AI应用 例如生成式AI工具Gemini和电影制作工具Flow [6] - 全面参与人工智能产业链使公司能更好地控制创新和整合过程 减少对外部依赖 [7]
击败ChatGPT登顶App Store,Google这套AI全家桶,个个都是王炸
36氪· 2025-09-15 15:58
Google Gemini应用排名表现 - Google Gemini凭借Nano Banana图像编辑功能登顶App Store免费榜首位 将ChatGPT挤至第二位[1][2] - Gemini在App Store免费榜所有类别中排名第一 成为Google的爆款AI应用[2] Google AI产品矩阵 - Gemini定位为通用助手 包含Nano Banana生图模型、Canvas画布、Veo3视频生成、Storybook故事板和Deep Research等功能[3] - NotebookLM作为知识库工具支持上传300个文件 可将文档总结为音频、视频、思维导图等六种形式[3][17] - Flow专注于高质量视频生成 支持竖屏9:16格式和1080p高清 免费用户每月赠送100积分[4] - AI Mode为搜索增加推理能力 提供比AI Summary更严谨的结果 支持五种语言(不含中文)[5] - Gemini CLI是本地助手工具 支持下载视频、转GIF、压缩文件等操作[5] - AI Studio和Labs Google提供音乐生成、语言学习等实验性功能[6] Gemini技术特性 - 提供Gemini 2.5 Pro和Flash两个模型 具备跨对话记忆功能 与Google生态无缝衔接[3][6] - 免费用户每天可使用2.5 Pro最多5条提示 付费版Google AI Pro可达100条 Ultra版达500条[8] - 上下文窗口大小从3.2万token(免费版)到100万token(Ultra版)不等[8] - 图像生成功能免费用户每天100张 Ultra版每天1000张[8] - 视频生成功能Pro版每天可使用Veo 3 Fast生成3个视频 Ultra版可生成5个视频[8] 模型性能表现 - 在LMArena排行榜中 Gemini 2.5 Pro文本能力排名第一 但网页开发能力不及GPT和Claude[11] - 在文生视频竞技场 Veo3系列模型占据前四名 其中Veo3-fast-audio以1405分位列第一[34] - Gemini 3.0 Flash能力预计将超过2.5 Pro[15] 产品功能更新 - Gemini新增Canvas画布功能 支持点选元素并用自然语言修改[12] - 支持上传音频文件 可直接处理会议录音等材料[13] - NotebookLM新增视频介绍、Quiz测验和Flashcard闪卡功能[23][26] - Flow的Veo 3 Fast从0.4美元/秒降价至0.15美元/秒[33] - AI Mode新增日语、韩语、葡萄牙语等语言支持[40] 实际应用案例 - NotebookLM可处理297篇学术论文 生成多种形式的内容总结[18][19] - 支持企业财报分析 通过思维导图清晰展示多家公司一季度财报内容[28] - 与OpenStax合作将教科书转化为交互式笔记本 涵盖生物学、化学等学科[30] - Gemini CLI可自动下载X视频并转换为5-10MB的GIF文件[51][52] - 支持本地文件处理 如将3.3MB图片压缩至445KB[55][56] 市场竞品动态 - 微软Edge浏览器升级为AI浏览器 深度集成Copilot功能[36] - OpenAI被爆料正在开发自己的AI浏览器[36] - Atlassian以6.1亿美元收购Dia浏览器[36]
AI语音从“输出”到“输入”,资本在用千万美元押注什么?
36氪· 2025-07-30 11:09
行业融资动态 - 语音输入创企Willow Voice完成420万美元天使轮融资,由YC领投 [1] - 语音输入创企Wispr Flow完成3000万美元A轮融资 [1] - AI语音赛道头部公司ElevenLabs在1月完成2.5亿美元C轮融资,估值超30亿美元 [1] - 资本关注点从语音合成(输出)转向语音识别(输入)领域 [1] 技术产品定位 - Willow Voice和Wispr Flow专注ASR技术(自动语音识别),产品类似"语音输入法" [2] - 与传统语音转文字的区别在于增加"文字处理"步骤,追求"零编辑信息" [5] - 文字处理分三个层面:格式化文字输出、上下文理解、语境识别 [5] - Flow和Willow目前能做到第二层(上下文理解),第三层(语境识别)尚未实现 [5] 产品性能测试 - 非格式化文本场景下主流产品错词率低于10%,与人类水平相当 [4] - 格式化文本场景错词率平均增加10% [4] - 在To do List场景测试中,Flow和Willow能正确分段,Flow格式处理更优 [13] - 专业术语场景测试显示三款产品均存在错误,Flow表现略好但仍不理想 [16] - 邮件回复场景中Flow将"到时候"改为"届时",但整体仍偏口语化 [19] 用户数据与市场反馈 - Wispr Flow月环比用户增长超50%,6个月活跃用户留存率80% [20] - Wispr Flow付费率19%,年收入达380万美元(2024.7-2025.7) [20] - 非正式输入场景下用户满意度较高,Reddit和Product Hunt评价积极 [22] - 目标用户为硅谷VC/创业者/高管群体,后扩展至学生、开发者等专业人群 [9][11] 行业前景 - 语音输入通过减少人机交互摩擦实现提效,被验证为可行方案 [24] - 未来若实现用户完全信任,可能颠覆键盘成为新的人机交互范式 [24] - VC投资逻辑基于现实提效潜力+未来范式颠覆可能性 [24]
AI模型持续突破,股掌柜证券咨询前瞻科技主线投资机遇
人工智能技术突破 - 美国大模型独角兽Anthropic发布新一代Claude Opus 4与Claude Sonnet 4,其中Opus 4被誉为"世界上最好的编程模型",在智能体任务中表现稳定高效 [1] - 谷歌在I/O开发者大会推出AI影视制作平台"Flow",整合Veo、Imagen和Gemini三大模型,实现音画同步、剧本生成、角色对话等复杂自动化内容创作 [1] - 昆仑万维正式上线Skywork Super Agents App,标志着中国AI智能体技术加速走向全球用户 [1] 产业链价值重估 - 以AI大模型为代表的前沿技术将成为未来几年资本市场核心焦点,产业链从算力基础设施到应用落地环节均处于持续景气与技术渗透加速的双重推动下 [1] - 在中美科技竞合格局深化、政策支持加码背景下,具有核心技术能力与产业整合优势的本土企业有望在多模态模型、AI Agent、智能终端等关键场景实现快速突破 [1] 投资配置策略 - 股掌柜证券构建AI产业链前瞻性配置图谱,覆盖算法支持、应用生态、智能终端到算力基础设施,帮助投资者精准识别受益环节 [2] - 研究团队建议关注AI大模型技术突破与商业化进程领先的企业,以及有望率先实现产品变现的重点应用场景 [2] - AI大模型在"可用性"与"创造力"层面同步跃升,带动投资逻辑从底层推理走向场景落地 [2]