谷歌Veo 3 - 财报，业绩电话会，研报，新闻 - Reportify

谷歌Veo 3

搜索文档

谷歌香蕉模型一夜登顶！干翻GPT-4o和FLUX，坐稳AI图像之王

36氪· 2025-08-27 12:09

产品发布与核心功能 - 谷歌推出最先进的图像生成和编辑模型Gemini 2.5 Flash Image 具备多图像混合、自然语言编辑和角色一致性能力 [2] - 模型支持将同一角色放置在不同环境中生成一致的品牌资产保留主题特征 [10] - 支持自然语言精准编辑包括模糊背景、去除污渍、删除人物、改变姿势、黑白照片上色等功能 [20] 技术性能与基准测试 - 在文生图和图像编辑两个场景均排名全球第一图像编辑榜单得分1362分较第二名领先幅度接近15% [7] - 在用户综合喜好度、人物、创造力、信息图、物体和环境生成上领先GPT-4o图像生成、Flux.1 Kontext等模型 [6] - 模型以"nano-banana"代号在大模型竞技场获得200多万票认可正式发布后文生图得分1147分图像编辑得分1362分 [6][7] 应用场景与用例 - 多图融合能力可用于电子商务场景生成产品宣传照和家具摆放效果例如将台灯拖拽到场景中自动开启灯光 [30] - 角色一致性功能支持生成历史年代写真例如将人物从50年代到00年代风格化转换保持面貌一致 [10] - 结合Veo 3视频生成模型可制作广告大片生成多角度镜头画面并转换为视频 [4][34] 产品定价与开发者支持 - 定价为30美元/100万个输出token 每张图像消耗1290个输出token 成本约0.039美元（折合人民币0.28元） [9] - 通过Gemini API、Google AI Studio和Vertex AI向开发者提供支持快速测试和部署应用 [9] - AI Studio更新"构建模式" 支持开发者利用AI打造应用程序并直接部署到GitHub [9] 技术特性与用户反馈 - 具备世界知识能力可理解手绘插图并解答问题预测图像变化场景（如气球破碎画面） [24][26] - 用户反馈显示其效果优于Midjourney 同样提示词可减少90%的调整时间 [32] - 存在严格内容审查限制例如无法生成人物持刀斧等画面 [34]

Artificial Intelligence

Gemini 2.5 Flash Image

Artificial Intelligence

Gemini 2.5 Flash Image

刚刚，好莱坞特效师展示AI生成的中文科幻大片，成本只有330元

机器之心· 2025-08-21 21:08

多模态AI视频生成技术进展 - 多模态生成是AI未来发展方向，视频生成技术实现全链路覆盖：文字/语音→图像→视频，支持图片上传生成带音效视频并一键分享[1][2] - 百度蒸汽机2.0实现人物口型、表情、动作毫秒级同步，国产AI视频进入"有声有色"新阶段，运镜达到专业导演水准[4][5][6] - 技术突破包括时序对齐（口型与语音毫秒级同步）、多模态特征融合（语调对应微表情）、长时序连贯性、环境音效匹配及多角色交互精准定位[31] 百度蒸汽机2.0产品矩阵与商业化 - 推出Turbo版(720p/5s)、Lite版(轻量高效)、Pro版(1080p/电影级)、有声版(720p/5-10s音画一体)四大版本，全系价格仅为竞品70%，Turbo版5秒视频限价1.4元[8][10] - 通过百度搜索、APP及"绘想"平台开放体验，支持JPEG/PNG/WEBP格式输入，可添加背景音，实测显示单人吃播/多人对话/侧脸场景均表现自然[12][15][16][24] - 在VBench I2V评测中1.0版以89.38%总分全球第一，2.0版在指令遵循、运镜能力、叙事流畅度显著提升[32][33] 核心技术架构创新 - 首创LMMP(Latent Multi-Modal Planner)模型，通过扩散架构实现角色身份/台词/情感/互动的自动规划，保证多角色交互自然度与一致性[39] - 采用海量中文多模态数据训练，完成内容/人声/台词/环境音的信号抽取与对齐，构建专业镜头语言数据集[36][37] - 端到端训练音视频一体化系统，规划层与生成层相互校正，提升语义逻辑准确性，未来将拓展长视频生成技术[39][40] 行业应用与生态协同 - 模型深度融入百度搜索/内容/商业生态，降低创作门槛使普通用户可生成专业级视频，企业可低成本快速产出营销素材[42] - 好莱坞视效团队运用该技术，将2分钟科幻短片制作成本从传统上百万元降至330元，效率提升显著[44] - 开创应用驱动研发范式，形成"场景催生模型-模型反哺业务"闭环，强化搜索表现力与商业想象力[42]

多模态生成

Artificial Intelligence

百度蒸汽机（MuseSteamer）2.0

多模态生成

Artificial Intelligence

百度蒸汽机（MuseSteamer）2.0

谷歌Veo 3新玩法刷屏！国内同款神器也能复制

AI研究所· 2025-07-24 18:09

谷歌Veo 3视频生成模型的热潮 - 谷歌Veo 3视频生成模型近期在社交媒体上引发热潮一条展示IKEA家具自动组装的视频播放量破百万 TikTok博主发布的魔性切草莓视频播放量达2000万 [1][4] - Veo 3的创意应用广泛包括穿越vlog 童话角色现代街头演绎沙雕新闻制作等其中战地记者赤壁报道和曹操私生活八卦等内容极具创意张力 [4][7] - 该模型已面向70多个市场的AI Pro和Ultra用户开放但存在生成额度限制 Pro用户每天仅3个生成额度视频长度限制在3-8秒 [4] - 这股热潮推动Google DeepMind总访问量在4-5月增长162% 谷歌CEO表示用户已创建超过4000万视频 [9][11] 国内AI视频工具的发展 - 讯飞绘镜作为科大讯飞推出的AI视频创作平台提供脚本生成分镜建议动态视频转化等功能支持镜头编排对白补充和音乐添加 [12] - 该平台接入可灵 LUMA等多个优质模型支持效果对比具备AI帮写脚本功能解决创作中的叙事难题 [16] - 测试案例显示平台能根据中文提示词生成高质量视频如峨眉山猴子长城自拍场景细节表现栩栩如生具有超现实主义感 [14][17] - 平台提供多种场景模板包括趣味二创音乐MV 人物故事等显示国内AI视频工具正逐步跟上国际发展节奏 [17] AI视频生成的应用场景拓展 - 在家居领域 Veo 3可实现家具自动组装展示将毛坯房秒变北欧风格卧室颠覆传统实体样板间模式 [1] - 在内容创作领域模型支持ASMR解压视频穿越vlog 童话改编沙雕新闻等多种创新形式 [4][7] - 技术正在解锁IP创意新可能如让经典童话角色走上现代街头或制作具有新闻真实感的荒诞场景 [7][17]

靠视频大模型赚钱，还是个梦

投中网· 2025-07-18 14:10

行业动态 - 2025年AI视频生成赛道成为行业最热门领域，国内大厂如快手、字节、阿里、腾讯等密集推出迭代产品，包括快手可灵2.0、字节即梦3.0、阿里万相2.1等 [4] - 行业技术快速进步，语义响应、画面质量、动态质量等指标显著提升，商业化前景显现，如快手可灵AI 2025年Q1收入超1.5亿元，带动股价上涨30% [4] - 全球竞争格局中，快手可灵系列使用份额达30%，超越Runway（23.6%）和Veo-2（16.6%），但谷歌Veo 3凭借音画同步技术重新定义行业标准 [8][10] 公司竞争 - 快手可灵AI通过快速产品化抢占先机，上线一年用户达2200万，早期技术优势明显（1080P清晰度），但近期被字节即梦等竞品追赶 [8][10] - 字节即梦AI通过Seaweed和PixelDance模型迭代实现反超，即梦App下载量一度登顶免费榜，月活用户893万（快手可灵180万），积分激励策略更激进 [10][12][13] - 创业公司表现突出，如生数科技Vidu 2.0、爱诗科技PixVerse（月收入千万元级），形成与大厂差异化竞争 [9][5] 技术瓶颈 - 视频生成面临三大限制：架构局限（最长10秒片段）、算力不足（数据量指数级增长）、高质量训练数据稀缺，导致技术进入平台期 [19] - 关键痛点包括输出一致性差（相同输入产生不同结果）、运动镜头生成困难（仅能制作"动态PPT"），制约商业化应用 [16][17] - 厂商转向优化用户体验，如可灵3.0拓展多模态支持，即梦3.0强化多模态生成能力，竞争焦点从技术突破转向工作流优化 [20] 商业化探索 - 主流商业模式为免费+会员制，字节即梦连续包月69元/1080积分，快手可灵66元/660积分，付费群体集中于影视、广告等专业创作者 [12][13] - 成本优势与局限并存：AI视频生成成本（300美元/分钟）远低于传统动画（200万美元/分钟），但试错成本高导致实际支出不可控 [14][17] - 短剧领域试水案例增多，但投资方态度谨慎（单项目约20万元），市场验证尚未完成，如《上海奇境》《三星堆》票房表现平平 [18] 生态布局 - 字节依托抖音/TikTok流量和火山引擎技术协同，强化即梦在内容分发、剧本创作等环节的生态优势 [21][22] - 快手通过创作大赛（如《末日进行时》《太阳坠落之时》）挖掘优质创作者，结合资源扶持构建内容生态 [22]

靠视频大模型赚钱，还是个梦

创业邦· 2025-07-17 18:05

视频生成赛道竞争格局 - 国内AI视频生成赛道竞争激烈，快手可灵2.0、字节即梦3.0、阿里万相2.1、腾讯HunyuanCustom、生数科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登场，技术指标显著提升[3] - 快手可灵AI在2025年第一季度收入超过1.5亿元，带动快手港股涨幅超30%[4] - 字节跳动Seed负责人将2025年定义为图像生成商业化元年，Pixverse月订阅收入达千万元级别[4] 主要厂商市场表现 - 快手可灵AI全球用户达2200万，在Poe平台使用份额超30%，超越Runway和Veo-2[7] - 字节即梦App在苹果商店下载量一度登顶，超越豆包和红果短剧[13][14] - 谷歌Veo 3实现音画同步突破，重新确立技术领先地位[11] 技术发展现状 - 视频生成模型普遍面临"一致性"和"运动性"难题，输出效果不稳定[5][22] - 当前模型最长只能生成5-10秒片段，1分钟视频生成仍不可行[26] - 技术瓶颈主要来自架构限制、算力不足和高质量训练数据稀缺[26][28][29] 商业化探索 - 主流商业模式为免费+会员制，即梦包月69元/可灵66元，积分机制不同[17] - AI视频制作成本显著低于传统方式（300美元/分钟 vs 200万美元/分钟）但试错成本高[19][23] - 专业创作者是核心付费群体，集中在影视、短剧、广告、游戏领域[18] 厂商战略差异 - 字节即梦侧重用户规模扩张，月活达893万；快手可灵专注专业用户渗透，月活180万[17] - 快手通过创作大赛发掘人才，投资S级短剧项目；字节依托抖音生态和火山引擎技术支持[30] - 厂商竞争重点从技术突破转向用户体验优化和多模态能力拓展[29] 行业挑战 - AI视频在短剧领域成本优势不明显，1分钟短剧仍需数千元试错成本[23][24] - 动态镜头生成能力不足，当前AI视频多为"动态PPT"效果[23] - 投资方态度谨慎，多采取小规模试水策略[24]

Artificial Intelligence

Artificial Intelligence

全球AI周报：英伟达股价创新高，xAI发布Grok4系列模型-20250714

天风证券· 2025-07-14 19:47

报告行业投资评级未提及报告的核心观点 - 本轮AI资本开支周期仍在上升区间，看好北美云厂商云业务业绩的拐点释放，持续关注算力基础设施高景气 [4] - 大模型产品路径日渐清晰、推理成本持续下降，将提升AI在多场景的ROI，加快企业客户部署节奏 [4] - 国产大模型正从“能力追赶”阶段进入“效率驱动 + 生态扩张”阶段，To B与To C两端商业化落地路径将拓宽，形成闭环生态 [4] 全球AI动态 xAI发布Grok 4系列模型 - 2025年7月10日发布，含单代理Grok 4和多代理Grok 4 Heavy，为纯推理模型，上下文窗口最高支持256k tokens，仅向付费用户开放，Grok 4 Heavy需300美元/月会员费 [11] - Grok 4 Heavy在HLE测试中得分44.4%超谷歌Gemini 2.5 Pro，在GPQA、AIME25等测试表现优异，训练量是Grok 2的100倍，Grok 3到Grok 4推理训练量提升10倍 [4][11] - Grok 4开放仅支持文字 + 视觉输入、纯文字输出的API，定价为每百万tokens输入3美元、输出15美元，8月将发布Grok 4 Coding模型，未来计划推多模态代理和视频生成模型 [11] 谷歌Veo 3升级 - 2025年7月9日升级，用户上传照片可在谷歌Flow创作平台通过“Frames to Video”功能生成含音频和视频内容，能保持角色一致性，新增运镜功能 [18] - 生成质量上，Quality模型消耗credits是Fast模型的5倍，Veo 3在多方面表现惊艳，是AI叙事领域突破 [18] OpenAI将发布AI Agent浏览器 - 计划未来几周内发布，设计理念是部分用户交互在类ChatGPT原生聊天界面完成，整合AI Agent产品，可代表用户自动执行任务 [4][12] - 若ChatGPT 5亿周活跃用户使用，可能挑战谷歌Chrome主导地位，不过面临激烈竞争 [12] Kimi K2模型发布并开源 - 2025年7月11日发布并开源，为MoE架构基础模型，总参数1T，激活参数32B，擅长代码能力与通用Agent任务，在多项基准性能测试中取得开源模型中的SOTA成绩 [22] - 预训练阶段用MuonClip优化器，采用关键技术完成15.5T token平稳训练，在实际场景中能力泛化性和实用性强 [22] - 同步开源两个版本，模型及fp8权重文件已开源至Hugging Face，API服务上线，支持最长128K上下文，兼容多种API格式，计费为每百万输入tokens4元、输出tokens16元 [22] 昆仑万维发布并开源Skywork - R1V 3.0版本 - 2025年7月9日发布并开源，后训练阶段通过强化学习策略激发跨模态推理能力，在复杂逻辑建模与跨学科泛化方面实现双重飞跃 [28] - 在高考数学测试中得142分，在多学科推理MMMU测试中获76分，在多个关键领域性能显著提升，是开源领域强劲多模态推理模型之一 [28] 腾讯混元3D升级 - 2025年7月7日升级，推出业界首个美术级3D生成大模型Hunyuan3D - PolyGen，结合自研高压缩率表征BPT技术，可生成上万面复杂几何模型，支持三边面和四边面 [31] - 采用自回归网格生成框架，解决复杂物体建模和mesh自回归生成稳定性低的难点，生成模型在多方面优于现有SOTA模型，能自适应分配面数 [31] - 该能力已上线腾讯混元3D AI创作引擎，集成到腾讯多个游戏管线，助力美术师建模效率提升超70% [31] 投资建议海外AI - 算力层面，建议关注云厂商业绩释放的Oracle、CoreWeave、微软，算力基础设施维持高景气度的英伟达、台积电、Marvell、博通、Vertiv [4] - AI应用方面，建议关注Cloudflare、Snowflake、Salesforce、Duolingo、Roblox、CyberArk、Applovin [4] 中国AI - 建议关注小米、快手、阿里巴巴、腾讯控股、金山云、美团、美图、第四范式 [4]

Artificial Intelligence

Artificial Intelligence

Grok 4系列模型

AI Agent浏览器

Artificial Intelligence

Artificial Intelligence

Grok 4系列模型

AI Agent浏览器

对话快手可灵丨AI 新世界加载中，我们还能做些什么？

雪豹财经社· 2025-07-02 10:22

核心观点 - AI生成视频技术已具备一定成熟度，尤其在写实风格表达和运动表现方面表现突出，但距离高水准大银幕制作仍有差距 [7][16] - 行业处于快速迭代期，国内外巨头加速入场，可灵AI凭借高频迭代（一年22次）和综合实力保持Tier 1水平 [8][23] - AI工具在短剧、广告、游戏等领域已实现商业化应用，尤其在科幻类内容制作中可节省50%-70%成本 [7][28][29] 技术进展 - 可灵AI 2.1模型在语义遵从、运动表现（速度/自然度/物理规律符合度）等基础能力显著提升，支持高速运动与极致互动表现 [10][16] - 视频生成技术突破点包括：水流波动/动物毛发纹理的真实渲染、长镜头表情变化细腻度、二维动漫打斗动作流畅度 [3][16] - 当前技术短板集中于运动模糊、边缘模糊、群像人脸崩坏等稳定性问题，音效同步能力暂未布局 [18] 商业化表现 - 可灵AI全球用户达2200万，企业及开发者超1万，Q1营收1.5亿元（70%来自P端订阅） [8] - 定价策略激进：5秒视频3.5元（0.7元/秒），低于行业1元/秒均价 [19] - 主要落地场景：短剧大空镜/战争场面生成（成本节省50%）、宠物魔改视频、广告特效模板 [7][15][29] 行业竞争格局 - 全球视频生成赛道形成百花齐放格局：可灵与谷歌Veo分列文生视频/图生视频全球前二，Meta Movie Gen、阿里通义万相2.1、字节即梦AI等相继入场 [8] - 核心竞争力差异：谷歌Veo依托YouTube数据强化音画同步，可灵聚焦基础模型迭代与创作者生态建设 [18][20] - 行业仍处早期阶段，技术迭代、创作者生态搭建、商业化路径探索为共同挑战 [8][24] 应用前景 - 科幻/魔幻类内容降本效果最显著，可达传统制作成本的1/50-1/2，现实主义题材因观众敏感度较高应用受限 [29][31] - 动画制作效率提升至传统工时的1/3，资金成本降低至1/2以下 [7][32] - 未来方向包括简化创作流程、强化多模态融合、拓展C端用户破圈 [15][17]

快手(HK:01024)

腾讯研究院AI速递 20250610

腾讯研究院· 2025-06-09 22:06

ChatGPT 4o更新 - ChatGPT 4o在回答复杂问题前会先停顿几秒"思考"，页面显示"Thought for a few seconds"，然后再决定搜索或直接回答 [1] - 这种"先理解后搜索"的能力提高了回答准确性，但用户需要等待更长时间，移动端触发率更高 [1] - OpenAI已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型中 [1] 谷歌Veo 3更新 - 谷歌Veo 3模型新增"360°"关键词功能，能生成3D环绕效果视频，但在物理真实性上仍有缺陷 [2] - 推出Veo 3-Fast版本，支持文生视频和自动生成配音，速度更快且价格降低80% [2] - Fast版本生成8秒720P视频仅需20 credits（比标准版便宜5倍），但面部细节和光照效果略有下降 [2] 智谱AI发布CoCo - 智谱AI推出CoCo企业自主Agent，具备"记忆能力"的AI助手，能记住员工互动、根据部门职能提供差异化服务 [3] - CoCo可集成企业知识库、数据库和系统工具，通过MCP平台实现与企业原有工作流的整合 [3] - 提供完整私有化部署方案确保数据安全，支持MCP小应用一键自动化工作流，已开放申请通道 [3] MiniCPM 4.0发布 - MiniCPM 4.0模型只关注重要内容，像人类阅读一样选择性处理信息，让手机等设备上的AI速度猛增220倍 [4] - 创新的"草稿+验证"机制让模型生成更快，同时用极致压缩技术将模型体积缩小90%但保持高性能 [5] - 自研专用软件系统和"小模型先试错"策略，让小模型用较小训练量就能超越同类产品，支持超长文本处理 [5] 小红书开源文本大模型 - 小红书hi lab开源dots.llm1大模型，采用MoE架构，总参数142B但仅激活14B，经11.2T高质量数据训练后性能可媲美Qwen2.5-72B [6] - 团队首次开源完整训练过程中每1T token的检查点，包括Pretrain与Instruct阶段共14个checkpoint [6] - 通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现，大幅提升训练效率，使用更少算力达到同等性能水平 [6] 即梦图片3.0 - 即梦智能参考3.0可用于海报重绘设计，上传图片后保持较好一致性，适合制作各类海报 [7] - 设计海报提示词结构公式：产品描述+布局+色调+背景+风格定位+情感氛围+标题设置+字体特色 [7] - 系统功能包括商业促销海报制作、活动展览海报设计及效果转换，可通过局部重绘精准修改文字内容 [7] DreamTech发布Direct 3D-S2 - Direct3D-S2 3D大模型刷新HuggingFace 3D建模趋势榜，被全球开发者广泛关注 [8] - 模型仅用8块GPU训练，效果超越闭源商用模型，训练效率提升近20倍，token吞吐量提高64倍 [8] - 核心创新为空间稀疏注意力机制(SSA)，支持超大规模体素生成，已全面开源且采用MIT协议允许商业使用 [8] Meta投资Scale AI - Meta正与Scale AI洽谈超过100亿美元投资，将成为Meta最大外部AI投资和私企最大融资之一 [9][10] - Scale AI成立于2016年，由华裔Alex Wang和Lucy Guo创立，2024年5月获10亿美元F轮融资，估值138亿美元 [10] - 公司主要提供数据标注服务，包括图像视频标注、3D点云标注和NLP处理，客户包括OpenAI、微软、谷歌等科技巨头 [10] 荣耀进军机器人 - 荣耀进军机器人领域，首秀机器人奔跑速度达4m/s打破行业记录，展示其AI技术实力 [11] - 荣耀已发布阿尔法战略(HONOR ALPHA PLAN)，将从智能手机制造商向AI终端生态公司转型，五年投资100亿美元 [11] - 荣耀组织架构已调整，成立AI&软件业务部、新产业孵化部，推进AI能力与产品线深度融合，通过HONOR AI Connect平台开放生态能力 [11] Ilya Sutskever演讲 - Ilya Sutskever在多伦多大学毕业典礼演讲中表示，AI最终将能完成人类所有工作，不是部分而是全部 [12] - 他解释称，人类大脑是生物计算机，数字计算机（AI）最终也能做到同样的事情，这将带来人类有史以来最大的挑战 [12] - Ilya呼吁人们密切关注AI发展，培养对AI能力的直觉，为即将到来的深刻变革做好准备 [12]

Artificial Intelligence

Artificial Intelligence

AI视频生成告别默剧时代！谷歌Veo 3一步生成高质量音画大片，rap、电影、动画片都拿捏

量子位· 2025-05-21 14:31

谷歌Veo 3视频生成模型 - 谷歌推出最强视频生成模型Veo 3，能够从画面到对白完全由AI原生生成，支持各种影视风格[1][4] - Veo 3具备电影级音视频能力，用户可通过自然语言描述角色、场景，并指定对白和语气[4][5] - 模型已面向Google AI Ultra订阅用户开放，企业用户可通过Vertex AI平台调用[5] Veo 3的多样化应用 - 用户生成内容涵盖说唱、复古烹饪节目、洗脑神曲等，展示模型强大的创意表现力[6][7][8] - 模型可应用于教育场景，如生成古希腊数学家毕达哥拉斯的教学视频[9] - 支持营销场景，能够重复强调同一概念实现洗脑效果[10] Veo 3的技术特性 - 模型支持连续生成长视频，通过首尾帧功能可制作1分钟左右的连贯视频[13][14] - 音频生成能力突出，可模拟电影级音效和角色自白[14] Veo 2的升级功能 - Veo 2新增"参考视频"功能，用于保持视频风格统一和角色形象一致[16] - 其他升级包括相机控制、画面扩展、物体添加/移除等功能[18] - 新功能已在Flow工具中部分上线，完整版即将登陆Vertex AI平台[19]