Workflow
Veo3
icon
搜索文档
谷歌为什么又行了 ?
36氪· 2025-09-07 07:40
苹果与谷歌潜在AI合作 - 苹果考虑使用谷歌Gemini为改版后Siri提供支持 预计2026年发布定制版LLM [1] - 合作将使Gemini技术覆盖数亿iPhone用户 为谷歌开辟新商业化路径包括API授权和订阅服务 [1] - 合作延续双方搜索业务关系 使iOS生态首次接入大模型 为用户提供领先技术体验 [1] Gemini技术进展与性能表现 - Gemini在多项排名中处于第一梯队 Gemini-2 5-pro以1456分位列LLM Arena榜首 [2][3] - 多模态性能领先 原生多模态模型在视觉和文本生成评分中排名第一 [3][4] - 编程能力突出 Gemini 2 5 pro在AI IQ测试中智商达137 展现高阶智慧解决问题能力 [10] 用户增长与市场地位 - Gemini网站流量达ChatGPT的12% 移动端活跃用户数为ChatGPT一半 [5] - 网站访问量从2月2 84亿次增长至7月7亿次 而ChatGPT为57 2亿次 [6] - 2025年7月月活用户达4 5亿 较5月4亿增长12 5% [7] - 谷歌在前50名AI网站中占据四席 包括AI Studio NotebookLM和Google Labs [7] 多模态产品创新 - 图像生成模型Nano Banana(Gemini 2 5 Flash Image)在文本生成和图像编辑评分中均排名第一 [13][17] - 视频生成模型Veo3实现高保真音画同步 成为专业制作工具 [19][21] - 世界模型Genie3生成720p可交互3D环境 支持长达数分钟模拟 [23][24] 算力与基础设施优势 - 谷歌TPU集群已大规模部署 专为AI计算设计 能耗效率超英伟达GPU [27][28] - 自研TPU算力出现富余 开始向第三方云供应商销售 [29] - 算力自主保障多模型研发 支撑Gemini推理需求及视频图像模型训练 [30] 数据与生态优势 - 搜索和YouTube积累海量多模态数据 提供独特训练资源 [30] - Chrome和安卓生态助力AI能力快速触达C端用户 优化服务体验 [31] - 用户行为数据为模型迭代提供依据 例如Nano Banana成功捕捉用户需求 [31] 人才战略与组织调整 - 吸引顶尖人才如Sora开发主管Tim Brooks加入 负责世界模型开发 [32] - 为核心人才提供2000万美元年薪 并保障算力和数据资源 [34] - DeepMind与Google Brain合并 统一AI战略 加速应用创新 [35] 研发策略调整 - 减少论文发表 优先保护竞争优势成果 避免技术泄露 [37] - 聚焦产品化创新 如Nano Banana等实际应用 [39]
又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
机器之心· 2025-09-04 17:33
AI视频生成技术应用 - 博主使用Midjourney将30年前的涂鸦画制作成"妈妈拿彩虹木勺大战巨龙"动画 完美还原童年想象力 [2][4] - 即梦AI工具可根据提示词框架"we crash zoom into an immersive scene [subject + action] intense cinematic action"生成沉浸式场景视频 [5] - 即梦能够将涂鸦中的三个小人活灵活现呈现 动作自然流畅无画面崩坏或卡顿现象 [7] 多模态AI生成能力 - 即梦提供AI配乐功能 可自动生成三首符合画面风格的曲子 [8] - 谷歌Veo3实现音视频同步生成 整体效果毫无违和感 具有卡通电影片头质感 [13] - 即梦能够精确捕捉角色动作轨迹 如小女孩手臂摆动和步伐配合恰到好处 无同手同脚或多胳膊少腿错误 [14] 工具功能对比 - Veo3在音频清晰度和同步性上表现更成熟 能较好处理多层次音效和画面同步 [17] - 即梦和可灵在复杂动态场景中也能实现音效与动作同步 但音效清晰度和丰富度仍有提升空间 [17] - 各工具均能在较短时间内完成视频和音频内容生成 [17] Meta动画生成工具 - Animated Drawings可将涂鸦变为动画 要求图片主角肢体不与身体重叠 画质清晰无阴影 [18][22] - 工具自动识别角色并用方框标注 提供手动微调功能 支持32种动画模板包括走跑跳等动作 [24][26][28] 行业招聘信息 - 上海人工智能实验室开启2026届全球校招 目标2025年1月-2026年10月毕业生 [35][37] - 提供算法研发产品运营等六类岗位 算法类聚焦大模型多模态等方向 研发类聚焦分布式训练框架等 [41] - 招聘流程包括2025年8月20日启动网申 6场集中笔试 3-4轮极速面试 [44][45]
谷歌NanoBanana出圈
华福证券· 2025-08-31 13:19
行业投资评级 - 多模态向更高能力突破 看好多模态领域的爆发 [6] 核心观点 - 谷歌 Nano Banana 成为最先进的图像生成与编辑模型 在图像编辑领域模型榜单中以1362分位列第一 大幅领先第二名flux(1191分)和GPT-image-1(1170分)[3] - 谷歌 Veo3 成为视频生成领域排名第一大模型 在lmarena平台图生视频和文生视频排行榜均排名第一 [5] - 海外平台迅速接入Nano Banana 包括Adobe、Poe、WPP、Freepik、Leonardo.ai、Figma等 并验证生产力提升 [4] 技术优势 - Nano Banana具备四大核心能力:跨图一致性、多图融合、对话式/指令式精细编辑、借助Gemini世界知识的更强常识/语义理解 [3] - 定价保持高性价比 每百万token 30美元 折合约0.039美元/张图 [3] - Veo3具备原生音频生成、强提示遵循、创作控制能力 支持API级8秒/720p稳定参数 [5] 应用场景 - 设计类工作生成和编辑:品牌内容、电商营销领域的海报生成与处理、商品图制作、多元素拼贴 [4] - 创意设计与社媒内容:四格漫画生成、真人手办制作、产品内部结构拆图、游戏UI设计 [4] - 图像修复与内容改写:图片打光处理、局部PS处理 [4] - 与外部工具结合:应用于AI视频生成、AI 3D生成 [4] 投资建议 - 关注谷歌Veo3与YouTube的版权产业链:阜博集团 [6] - 关注AI图片应用公司:A股万兴科技、港股美图公司 [8] - 关注AI视频应用公司:快手、哔哩哔哩 [8] - 关注IP平台:阅文集团 [8] - 关注游戏平台:心动公司、吉比特 [8]
新手实测8款AI文生视频模型:谁能拍广告,谁只是凑热闹
锦秋集· 2025-08-26 20:33
文章核心观点 - AI视频模型在技术迭代速度上表现迅猛 但普通用户在实际应用场景中面临复现困难与工具选择复杂的问题[2][3] - 测评聚焦文本生成视频任务 从真实创作需求出发评估8款主流模型的实用性能 发现当前技术更适合作为创意草图工具而非直接生产工具[5][8][57] - 模型在语义理解、动作连贯性、物理逻辑等维度存在显著差异 其中Veo3、Hailuo02、Kling1.6等模型在多项测试中表现突出[28][34][42][49][54] 测评模型与范围 - 测试覆盖8款主流视频生成模型:Veo3、Hailuo02、Jimeng3.0、Kling1.6、Seedance1.0、Pixverse V4.5、Vidu Q2、Luma Ray2 这些模型构成ToC侧视频生成应用的核心能力底座[11] - 测试时间为2025年7月 Jimeng3.0实际调用Seedance 1.0 mini模型 因完整版仅对会员开放[11] - 模型定价策略差异显著:Veo3会员起价19.99美元/月 Hailuo02海外版9.99美元/月 Kling1.6海外版6.99美元/月 Seedance1.0会员79元/月 Luma Ray2会员9.99美元/月[12][13] 测评任务设计 - 设计5类代表性视频创作任务:写实动作类、商业素材类、情绪镜头类、审美想象类、复杂动作类 每类任务包含开放式与细节型两组prompt[15][16][17] - 总计10组任务 从结构、动作、情绪、视觉风格等多维度全面测评模型底层能力[19] - 评估标准基于创作可用性 包含语义遵循、物理规律、动作幅度、镜头语言、整体表现力5个核心维度[20][21][22][23][24][25] 模型性能表现 - 写实动作类任务中 Veo3、Seedance与Hailuo02在动作连贯性方面表现最佳 Veo3在物理质感与视觉真实度上尤为突出[28] - 商业素材类任务所有模型均达到最低可用门槛 但Veo3在皮肤质感和动作链执行上表现最优 Kling与Seedance在物理反馈上具真实感[34] - 情绪镜头类任务中 Hailuo02与Kling1.6动作组织连贯 Veo3在情绪细节呈现和镜头语言上更具表现力[42][43] - 审美想象类任务中 Seedance与Vidu对自然元素动态感捕捉出色 Veo3、Kling1.6、Vidu在镜头调度上流畅[49] - 复杂动作类任务中 Hailuo02、Kling1.6和Veo3在动作节奏与场景还原上表现优异 Veo3和Hailuo02在风格切换上最流畅[54] 技术局限与应用场景 - 当前文生视频模型更适合快速视觉草图生成、视觉美术创意探索、个别动作展示三类任务 无法满足结构精度要求高的商用素材、物理逻辑复杂的故事片段、动作密集型段落[57][65] - 模型普遍存在物理逻辑错误:Jimeng3.0和Hailuo02出现手指数量异常 Luma、Pixverse、Seedance出现物体融合错位[35] - Prompt长短对效果影响有限 但Hailuo02对长prompt适配性显著提升[56] 行业发展趋势 - 下一代模型需提升结构性任务闭环能力 加强语义理解与执行一致性 改善局部细节稳定性与物理合理性[60][61][62] - 图生视频模型在广告、电商等高一致性要求场景中展现更早的实用潜力 但仍需解决动作组织和风格统一问题[62][63] - 现实应用策略是将模型融入工作流 进行Demo生成-局部微调-部分替换的协作模式[59]
AI视频生成新品实测:这怎么不算影院级呢?
量子位· 2025-08-25 23:47
模型性能表现 - 作为全球首个中文音视频一体化生成的I2V模型,在中文语音和口型同步方面表现自然[3][6] - 升级版本擅长复杂运镜和镜头叙事能力,画质进一步提升[7] - 视频生成精细度较高,生成视频大小达20.8M,比对比产品3M大很多[18] 功能应用场景 - 仅用1张图片和1段提示词即可生成带音效的视频,例如猫呼噜声和虫子叫声[4] - 支持宠物动态写真生成,使照片自然动起来[20][29] - 支持创意实现如让林黛玉念《葬花吟》或麦当劳叔叔推荐肯德基[34] - 提供5秒和10秒两种视频长度选择[47] 语义理解能力 - 对提示词中部分内容如"奔跑"和"黄蝴蝶"存在理解忽略现象[15][45] - 对情绪把控有待提升,出现中气十足林黛玉和被迫营业麦当劳的情况[35] - 人手生成仍是历史难题,还有进步空间[46] 音效处理特性 - 可生成效果音和对话,但不会自主生成背景音,需要手动添加BGM[44] - 音效表现突出,如键盘敲击声效果不错[43] - 提供单独的背景音选项但选择后无变化[44] 价格优势 - 限时优惠价格1.4元/5秒,低至行业70%[49] - 登录赠送每月210免费额度[50] - 正常价格2.5元/5秒,200秒视频仅需100元,比对比产品便宜一大半[52] 生成效率 - 视频生成需3分钟,相比对比产品不到1分钟的速度较慢[16][17] - 可能因画面精细度较高导致生成时间较长[18] 生态整合 - 已在百度移动生态广泛使用,结合本土中文生态更适合中国创作者[57] - 提供免费额度获取机会[52]
GoogleI/OConnectChina2025:智能体加持,开发效率与全球化双提升
海通国际证券· 2025-08-22 14:30
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 核心观点 - Google I/O Connect China 2025大会展示了AI模型创新、开发工具升级与全球化平台生态的重要进展 重点包括Gemini 2 5系列在多模态处理与响应速度上的提升 Gemma开放模型系列的多场景应用以及AI开发工具链的全面智能化升级 [1] - Gemini 2 5架构通过统一嵌入表示与跨模态注意力机制显著提升多模态理解与生成的准确性 并集成链式推理与结构化推理模块增强复杂任务的逻辑一致性和多步推理能力 [2] - Gemma系列模型基于Transformer架构 在参数规模、推理优化与许可协议上更具开放性 支持开发者在医疗、教育、语音交互等特定领域进行二次训练 其衍生模型如MedGemma、DolphinGemma和Gemma 3n分别聚焦医学语料、动物声学研究和轻量化端侧部署 [3] - Google将AI智能体功能深度集成到Firebase Studio、Android Studio和Chrome DevTools等核心开发工具中 形成全新工作流 显著提升开发效率与调试能力 [4][7] - 海外生成式模型如Lyria、Veo3、Imagen 4在音乐、视频、图像生成方面的一致性及多模态交互能力较国内模型更成熟 为内容出海团队提供强大生产力工具 [4] 技术架构创新 - Gemini 2 5实现文本、图像、音频和视频的统一嵌入表示与跨模态注意力机制 使开发者能够直接输入多模态提示并在同一向量空间进行联合推理 避免信息割裂 [2] - Gemini 2 5集成链式推理与结构化推理模块 通过中间表征增强逻辑一致性 在复杂任务的多步推理中表现突出 [2] - Gemma 3n通过剪枝、量化和蒸馏技术实现轻量化 仅需2GB内存即可在端侧设备流畅运行 [3] 开发工具升级 - Firebase Studio智能体模式利用任务分解与代码生成技术 可根据自然语言需求自动生成应用原型并递进式完成功能扩展与bug修复 [4][7] - Android Studio引入BYOM功能 允许开发者自由选择Gemini Nano、Gemma或第三方模型在统一IDE环境中进行训练与调试 [4][7] - Chrome DevTools内置Gemini助理 可直接在浏览器环境中进行语义分析与代码修正 快速解决CSS布局或跨浏览器兼容性问题 [4][7] 多场景应用拓展 - MedGemma聚焦医学语料与临床对话 在问答和影像理解任务上表现优异 [3] - DolphinGemma探索动物声学 首度建立海豚语大模型 [3] - Imagen 4在图像生成方面展示出强大能力 为电商营销和游戏出海企业提供高效内容生产工具 [4][8] 全球化生态建设 - Google通过开放海外生成式模型能力 强化内容创作生态 吸引内容出海团队使用其工具提升短视频、电商营销和游戏出海的效率 [4] - 与Trip com合作开发AI旅行助手 展示AI智能体在垂直领域的应用潜力 [13]
实探谷歌开发者大会:一通电话生成App、智能体秒变网页助手,全球首个“海豚语”大模型亮相
搜狐财经· 2025-08-13 21:38
大会概况 - Google I/O Connect China 2025开发者大会于8月13日在上海开幕 聚焦AI驱动的前沿技术、开发工具及全球化平台动态[2] - 现场展示区吸引多国开发者排队体验"App热线"、"AI快拼"、"Web AI智能体"等AI赋能产品交互[2] AI技术进展 - Gemini 2.5系列模型具备跨模态任务处理能力和快速响应能力 支持开发者构建复杂规划逻辑应用[5] - 生成式模型Veo3和Imagen 4激发开发者在图像、音视频领域的创意灵感并提升内容生产效率[5] - Gemma开源模型支持开发者根据实际需求开发衍生模型 其应用拓展包括医疗健康领域MedGemma、全球首个"海豚语"大模型DolphinGemma及端侧设备Gemma 3n[5] 开发者生态观察 - AI技术迭代显著降低应用开发门槛 吸引多元背景开发者涌入生态 中国开发者以发散性思维和多样性创意推动市场竞争[7] - AI工具普及可能导致工程师忽视自主深度学习思维 而持续自主学习被视为创新的根本来源[7] - 开发者与AI工具形成双向赋能关系:开发者通过工具提升效率与创新能力 同时以场景实践和数据反馈驱动AI工具持续进化[7] 战略定位 - Google将中国出海开发者定义为全球创新舞台不可或缺的中坚力量[6] - 经营开发者生态需深入观察社区开发者角色背景及真实需求 持续倾听用户反馈 该策略适用于Google、Meta等大型企业及初创公司[7] - Google将通过资源、社区和合作伙伴网络促进本土与全球开发者交流协作 支持中国出海开发者长期成长[7]
高盛最新人形机器人报告:聚焦2025WRC 产品迭代速度远超数月前!
智通财经网· 2025-08-12 21:36
展会概况与行业动态 - 高盛参与2025年世界机器人大会并与9家类人机器人公司交流 包括Astribot Booster Robotics等未覆盖的私营企业 涵盖CEO CFO等高管对话及产品演示[1] - 相比上海世界人工智能大会 本次展会家庭/消费者访客流量显著更高 完全聚焦机器人技术及产品演示 显示教育陪伴娱乐领域需求潜力较强[2] - 宇树发布新产品R1定价39 900元 Engine ai计划推出SA02定价38 500元 两款产品针对消费级需求且规格简化[2] 技术进展与挑战 - 行业技术拐点需1-2年扩大数据规模优化强化学习模型 部分观点认为高质量真实世界训练数据获取仍是瓶颈[3] - 人类多模态远程操作为过渡方案 需解决低延迟问题 宇树CEO定义机器人"ChatGPT时刻"为通用技能完成任务 预计需2-3年但不超过10年[3] - 谷歌Veo3模型引发行业热议 其音频生成与物理模拟能力可能挑战现有视觉-语言-动作模型与强化学习结合的主流方案[4] 企业动态与产品趋势 - 英伟达展示物理AI战略 包括Isaac SimLab仿真工具和Jetson AGX Thor平台 几乎所有参展机器人仍使用Jetson系列产品[5] - 7-8月展会期间20多款新类人机器人产品发布 轮式与双足机器人多样化 整体产品性能在速度流畅度方面显著提升[5] - 国产零部件占比已达80% 设计优化进一步降低成本 规模效应被视为未来降本关键[7] 应用场景与市场表现 - 四大主要应用方向:教育展厅向导舞台表演 开发者科研平台 制造业物流 消费级养老陪伴 前两者贡献当前主要销量[6][7] - 制造业特定任务成功率已达80-99 5% 企业聚焦非生产线任务以提升初始销量 客户看重系统效率 18个月投资回收期为合理标准[7] - 北京亦庄机器人消费节提供补贴 个人购机超1万元补贴1 500元 企业购机超500万元补贴25万元 京东平台同步推出满减优惠[8] 供应链与投资标的 - 三花智控获"买入"评级 预计2025-2030年营收/净利润复合增长率19% 在执行器组装领域具备高可见性[9][10] - 绿的谐波谐波减速器应用场景持续拓展 已向国际四大机器人品牌中国工厂批量供货 但估值合理维持"中性"[14] - 鸣志电器凭借成本优势预计2027年占据无框电机市场份额 但主营业务增长轨迹弱于同行[15] - 凌云光FZMotion动作捕捉系统成为第二增长引擎 预计2030年贡献18%营收 但整体估值维持"中性"[17]
美国科技“三巨头”,这次赚麻了
36氪· 2025-08-04 07:17
科技巨头AI投资与业绩表现 - 谷歌母公司Alphabet第二季度营收964.28亿美元同比增长13.8% 净利润281.96亿美元同比增长19.4% [1] - 微软第四财季营收764.4亿美元同比增长18% 智能云业务营收298.8亿美元同比增长26% 净利润272亿美元同比增长24% [1] - Meta第二季度营收475.2亿美元同比增长22% 净利润183.4亿美元同比增长36% [1] AI资本开支大幅增加 - 谷歌第二季度资本支出224.46亿美元同比增长70% 2025年全年资本支出规划上调至850亿美元 [2] - 微软预计2026财年第一季度资本支出超300亿美元同比增幅超50% [2] - Meta全年资本支出规划660-720亿美元 2026年将"显著增长" [2] AI基建投入驱动因素 - 谷歌、微软、Meta均提到AI算力短缺是增加资本开支的主因 [3] - Meta额外强调人才战是优先事项 员工薪酬将成2026年费用增长第二大驱动因素 [3] - OpenAI预计年底上线100万片GPU xAI目标5年内建成等效5000万片H100的计算集群 [3] AI业务变现成效显著 - 谷歌Gemini月活用户达4.5亿 每日调用量环比增长50% 视频生成模型Veo3已生成超7000万个视频 [4] - 微软首次披露Azure年营收超750亿美元 Copilot月活达1亿 [5] - Meta营业利润率达43% AI提升Instagram广告转化率5% Facebook提升3% Meta AI月活超10亿 [5] 行业竞争格局与战略差异 - OpenAI专注高端用户变现 谷歌依托全栈产品矩阵 微软聚焦Azure云+订阅 Meta深耕广告+社交 [5] - 四巨头2024年AI基建投入预计超3500亿美元 2026年将超4000亿美元 [10] - 分析师指出仅5家公司具备参与AI竞赛的资本支出规模 [10] FOMO效应持续强化 - 扎克伯格称AI落后将导致未来10-15年技术失位 [8] - OpenAI每1美元收入伴随2.25美元成本 仍推进400亿美元融资计划 [8] - 亚马逊因AWS缺少强力AI模型被分析师质疑开发进度 [9]
这个5亿播放的AI视频,邪乎得平平无奇
量子位· 2025-08-01 17:05
AI视频生成技术进展 - 一条AI生成的8秒兔子蹦床视频在TikTok上获得5亿播放量,成为爆款内容 [2][7][8] - 视频因动物融合、物理规律异常等细节被识别为AI生成,但仍欺骗了大量观众 [4][6][14] - 网友推测视频使用Veo3生成,尝试复现效果虽不及原版但已具备混淆能力 [21][22][23] AI视频爆火原因分析 - 红外监控画质的低清晰度掩盖了AI生成的物理缺陷和细节失真 [28][29][31] - "深夜后院动物蹦床"题材兼具生活感和猎奇性,提升用户停留意愿 [33][34] - 当前第一梯队AI工具已能生成10秒级以假乱真视频,技术进展远超两年前"威尔史密斯吃面"的诡异效果 [35][36][39] AI视频识别方法 - 观察视频是否带有AI相关标签,当前爆款内容多未主动标注生成方式 [41] - 顶尖AI视频工具如Veo3、Kling的单条视频时长仍限制在10秒以内 [42]