Veo3
搜索文档
Bristlemoon Global Fund Q3 2025 Report
Seeking Alpha· 2025-10-16 14:30
基金业绩概览 - Bristlemoon Global Fund在2025年9月季度实现5.0%的回报率,其中9月单月回报率为5.6%(扣除费用后)[2] - 自成立以来的15个月内,该基金累计回报率为19.3%(扣除费用后)[2] - 截至2025年9月30日,基金净风险敞口为85.7%,其中多头仓位占95.2%,空头仓位占-9.5%[5] - 2025年9月的主要业绩贡献者包括AppLovin、ASML和Alphabet,而同期的主要业绩拖累者包括PAR Technology Corporation、Salesforce和Hemnet [3] 投资策略与方法 - 基金投资策略的核心是投资于具有竞争优势的高质量企业,这些企业需具备三个关键特质:可预测的盈利和现金流、高再投资回报率的能力以及被错误定价的未来盈利能力 [5][7] - 投资组合构建不局限于被广泛认可的高质量公司,也关注市场误解或不受青睐的、质量被低估的公司,以寻求超额回报 [9][10][11] - 基金保持灵活的投资范围,旨在捕捉风险回报最具吸引力的机会,而不局限于特定类型的商业模式 [13][14] ASML Holding NV 投资分析 - ASML是半导体光刻设备的垄断供应商,独家提供极紫外光刻(EUV)设备,并在深紫外光刻(DUV)设备市场占据有效垄断地位 [18] - 针对看跌观点,基金认为:全球晶圆需求决定设备需求,ASML的垄断地位意味着客户最终必须向其采购;中国DUV需求正常化至总需求的25%是合理的,且中国在光刻技术领域自给自足仍需多年;尽管台积电是最大客户,但DRAM行业对HBM的需求以及英特尔和三星的代工业务进展将支撑EUV需求 [21][25][30][34][36] - 投资决策基于风险回报考量,在远期市盈率低于25倍时建仓,认为市场对2025年下半年订单和2026年销售不确定性的担忧过度 [39] Alphabet Inc 投资分析 - 基金认为市场对Alphabet的AI颠覆和终值担忧被夸大,其搜索业务并未出现被AI取代的迹象,搜索查询量仍在增长 [40][46][47] - Alphabet通过AI Overviews和AI Mode等产品进行自我颠覆,改变了搜索广告机制,从关键词竞价转向基于意图和情境的广告,有望提高转化率 [53][54][55] - Alphabet拥有成熟的TPU AI芯片项目,相比竞争对手具有计算成本优势,能够以更低的总拥有成本处理大量token(例如2024年7月处理了980万亿月度token) [57][58] Synopsys Inc 投资分析 - Synopsys是电子设计自动化(EDA)软件和芯片设计IP的领先供应商,市场格局稳定,与Cadence形成双头垄断 [61] - 投资机会出现在公司发布2025财年第三季度业绩后,股价因IP部门业绩不及预期和指引下调而下跌36%,但基金认为市场反应过度 [63] - 中国市场的短期EDA出口限制和英特尔代工业务相关的IP收入疲软被视为暂时性因素,而非结构性风险,Synopsys正将IP研发重心转向数据中心AI等更具价值的领域 [64][65] PAR Technology Corporation 投资分析 - PAR Technology股价在两个月内从71美元跌至约40美元,跌幅达44%,主要原因是公司放弃此前20%的年度经常性收入(ARR)增长指引,下调至“中等 teens”水平 [68][69] - 增长放缓归因于宏观环境疲软导致客户推迟部署,以及公司为竞标潜在 transformational 的顶级快餐品牌(如麦当劳)大型合同而主动暂停部分POS系统推广 [70][72][73] - 若赢得麦当劳全球合同(覆盖超过4.4万家门店),可能带来超过1亿美元的增量ARR,相比公司当前约2.8亿美元的ARR规模,将是转型性的增长 [75][76]
Sora2爆火,碾压Veo3,谷歌到底输哪儿了?
虎嗅· 2025-10-16 11:00
公司动态 - OpenAI于10月初发布Sora2模型,引发市场高度关注 [1] - 公司联合创始人奥特曼成为网络热议和玩梗的对象 [1] 行业影响 - AI生成视频技术取得显著进展,引发对AI拍片时代是否来临的讨论 [1] - 出现利用已故名人科比和杰克逊形象进行AI直播带货的现象 [1]
中金:如何看待Sora应用对互联网平台影响?
中金点睛· 2025-10-16 07:54
Sora App产品特点与市场表现 - Sora App于2025年9月30日发布,搭载Sora2视频生成模型,首周美国地区iOS下载量与ChatGPT刚上线时量级类似[2] - 应用采用垂直视频流设计,用户可上下滑动浏览AI生成的视频并进行评论互动[2] - Cameo功能允许用户通过简短视频录制生成高保真数字分身,并可精细控制使用权限;Remix功能支持用户对平台内容进行提示词驱动的二次创作[2][7] - Sora App上线后免费榜iOS排名迅速攀升,首日位列美国App Store免费总榜第3,并于10月3日登顶iOS免费榜首[5] Sora2模型技术突破 - Sora2模型能精准模拟复杂运动轨迹和物体碰撞等物理规律,大幅减少物体瞬移或运动失真现象[9] - 模型首次实现原生音视频同步生成,确保口型与语音精准对齐,并支持多镜头连续叙事以保持角色外观和场景连贯性[9] - 模型能力提升得益于与多模态大模型GPT-5的协同效应,GPT-5作为底层世界模型,Sora2则像视觉皮层和执行器[10][11] 行业竞争格局分析 - AIGC视频内容目前更像视频赛道的一个垂类内容,尤其类似Cameo类型内容偏向熟人社交网络分发,难以像短视频一样独立成为全新赛道[3][13][14] - 参考大语言模型经验,互联网巨头在模型层面的差距有望持续追赶,模型供给将逐渐不稀缺[3][15] - 国内即梦App的月活跃用户约为1,000万,与抖音及AI应用豆包(月活跃用户约1.5亿)相比仍有显著差距[14] - Sora App对国内市场没有直接影响,但主流平台有望持续跟进类似创作玩法以提升平台活跃度[3][16] 产品定位与差异化 - Sora App最大的创新在于其AI视频社交价值,用户可生成以自己为主角、与他人形象互动的视频,极大催化了创作意愿和分享欲[13] - 对比Runway ML、Pika AI、Veo 3等专注于专业视频制作的工具,Sora App将专业技术与社交功能结合,是工具型应用向内容社交功能渗透的创新[2][11] - OpenAI CEO表示用户更多使用Sora模型生成内容转发给朋友,考虑采用生成付费模式变现,说明当前Sora更像一个生产工具,消费平台仍在主流社交媒体[14]
Instant4D:分钟级单目视频的4D高斯泼溅重建(NeurIPS 2025)
具身智能之心· 2025-10-15 19:03
核心技术:Instant4D 方法概述 - 提出Instant4D现代化全自动流程,可在数分钟内重建任意单目视频,实现30倍加速[5][6] - 引入网格剪枝策略,将高斯函数数量减少92%,同时保留遮挡结构,使其可扩展至长视频序列[6] - 提出简化、各向同性、运动感知的单目设置4DGS实现,在Dycheck数据集上性能比当前最先进方法提高29%[6] 技术流程与优化 - 采用可微SLAM方法MegaSAM获取相机位姿,并通过视频一致优化深度得到密集点云,对4秒512×512视频序列反投影可得约30百万个原始3D点[8] - 通过体素滤波将密集点云稀疏化,仅保留每个已占用体素内点的质心,以减少冗余和解决遮挡问题[8] - 基于四维高斯初始化,可在2分钟内完成场景重建,并利用动静蒙版对静态和动态区域设置不同时间缩放以优化渲染[7][13] 性能表现与效率 - 在Nvidia数据集上实现0.02分钟优化时间、822 FPS(480×270分辨率)和676 FPS(860×480分辨率)的实时渲染速度,以及23.99 PSNR的渲染质量,相比InstantSplat和Casual-FVS实现8倍加速和10倍实时渲染速度提升[17] - 在Dycheck数据集上,Lite版本实现0.03小时优化时间、1.1GB内存占用和23.02平均PSNR,Full版本实现0.12小时优化时间、8GB内存占用和24.52平均PSNR,相比基线实现30倍加速[20] - 各向同性高斯设计固定旋转R=I,使用空间/时间各一标量缩放,提升单目优化稳定性,并根据实验将渲染质量PSNR提升1.25 dB[12]
太猛了!终于有人来管管 AI 视频的语音和表演了:GAGA AI 实测
歸藏的AI工具箱· 2025-10-10 18:03
模型核心能力 - 专注于人物对话表演,在人物细微表演对话方面表现最强,表演能力甚至超过Sora2 [1] - 模型具备泛化智能,能自主推导并生成未在提示词中明确指定的细微表情和动作,如叹气、点头、挑眉等 [2][5] - 支持声音和画面同步生成,即使侧面视角下唇形同步也非常到位,语音音效俱全 [4] - 在复杂情绪表现上极为出色,能精准演绎羞耻、自责、绝望、恳求等细微情绪变化及语音配合 [9][10] 技术规格与性能 - 支持图生视频,单次生成最长10秒,分辨率为720P但细节丰富 [4] - 支持双人场景演绎,能很好理解提示词中不同人物的语音和互动,但超过双人表现会下降 [4][11][16] - 支持多语言输出,包括英语、日语、西班牙语,并可实现多语言混合输出,各语言表现标准如母语者 [6][7][8] - 目前仅支持16:9横屏比例,后续将支持9:16竖屏比例 [16] 应用场景与提示词使用 - 提示词编写可先描述情绪变化,再说明语气和内容,停顿可用波折号或省略号表达 [16] - 在复杂场景(如雨天、车内隔窗对话)中能自动添加环境音(雨声)和应景背景音乐(钢琴BGM),增强氛围渲染 [10] - 需避免复杂精细的手部运动提示词,手部动作可能存在瑕疵;图生时也应避免过多肢体或全身露出 [6][16] - 对于短对话(如十字以内)可选择5秒生成时长,长对话可选择10秒 [16] 行业发展趋势 - AI视频模型发展进入新阶段,重点从复杂动态、物理表现转向情绪表达、表演以及音效语音的端到端多模态一体化输出 [16] - 模型开始内化世界知识和智能,具备视觉推理、分镜脚本编排和剪辑能力,这部分能力原被认为需由Agent完成 [16][17]
Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。
数字生命卡兹克· 2025-10-10 09:33
文章核心观点 - 公司推出的AI视频模型GAGA-1在人物表演领域表现出色,尤其在台词同步和情感表达上达到较高水准,为短剧、互动影游等内容创作提供了新的低成本工具 [3][19][20][59][60] - 该模型目前处于免费使用阶段,其定价策略预计将远低于Sora2和Veo3等竞争对手,具备市场普及潜力 [12][55][57] - 作为国产模型,GAGA-1的上线标志着AI视频领域的技术进步,尽管在复杂动作、多语言支持及工作流集成方面仍有优化空间 [52][53][61] 产品功能与性能 - 模型核心功能为“Gaga Actor”,专注于生成带台词的人物表演视频,支持5秒和10秒两种固定时长,建议台词字数不超过20个 [16][17][18][21] - 生成视频需结合输入图片和文本提示词,一次生成耗时约3至4分钟,支持最多5条并发生成 [22][28] - 在人物神情、头发细节、牙齿等细微之处表现优异,表演真实度被评价为接近影视级别,尤其在短剧和影游级应用上效果良好 [20][21][30] 技术优势与特点 - 模型能够准确识别并表现复杂的表演动作和情绪,如叹气、咬嘴唇、哭泣、歇斯底里等,并能展现不同的表演层次 [32][34][35][39] - 支持图片中多人物互动,能分别处理不同角色的神态和语音表现 [46] - 具备一定的唱歌功能,尽管音调表现尚不完善 [48][50] - 能够识别角色国籍并调整语言表现,例如识别外国角色并使用蹩脚普通话 [44] 当前局限性 - 对大幅度、复杂运动支持不佳,例如手部动作容易出现变形 [52] - 台词生成能力相较于表演层次稍弱,念白较为平淡,且长提示词可能导致吞字现象 [35][36][42] - 多语言支持不均衡,日文表现诡异,其他语言支持程度不明 [53] - 缺乏音色ID固定和自定义音频上传功能,导致每次生成的音色不一致,影响工作流集成 [53] 市场定位与定价策略 - 产品目前完全免费开放使用,无需邀请码或排队,旨在吸引用户体验和积累用户 [12][55] - 公司明确表示未来定价将远低于Sora2和Veo3,但具体收费时间和方案尚未确定 [56][57] - 模型定位为降低视频创作门槛,目标应用场景包括短剧、互动影游NPC对话、小说角色可视化等 [59]
OpenAI“抖音”被嘲“好尬”?!Altman 大秀Sora 2、赶上谷歌Veo 3,但要邀请码才能玩?
AI前线· 2025-10-01 10:24
Sora 2模型技术特点 - OpenAI推出结合新模型Sora 2和新产品的应用Sora [2] - OpenAI称Sora 2是视频的GPT-3.5时刻 能完成以往视频生成模型难以完成的任务 [2] - Sora 2在理解物理世界上进行大量优化 被描述为世界最佳视频生成模型 可体验原始现实世界物理特性 [2] - 该模型不完美 会犯错 但证明扩展神经网络在视频数据上的训练能更接近模拟现实 [4] Sora应用社交功能 - Sora应用核心是围绕"Cameos"功能构建的社交应用 用户可创建和混音彼此创作 发现个性化视频流 [5] - 通过Cameos功能 用户可录制简短视频音频验证身份 然后将自身嵌入任何Sora场景 [5] - 内测期间有用户反馈因此交到新朋友 对外公布版本需要邀请码 [5] 市场反应与竞争 - 网友认为Sora逼真度令人信服 OpenAI已成功赶上谷歌的Veo3 [5] - Sora 2开发成本巨大 社交媒体应用Sora的回报需在未来体现 [5] - 网友对演示反应不一 有人欢呼 也有人称尴尬和糟糕 [6] - 有用户批评剪辑尴尬 音频不自然 [9]
谷歌为什么又行了 ?
36氪· 2025-09-07 07:40
苹果与谷歌潜在AI合作 - 苹果考虑使用谷歌Gemini为改版后Siri提供支持 预计2026年发布定制版LLM [1] - 合作将使Gemini技术覆盖数亿iPhone用户 为谷歌开辟新商业化路径包括API授权和订阅服务 [1] - 合作延续双方搜索业务关系 使iOS生态首次接入大模型 为用户提供领先技术体验 [1] Gemini技术进展与性能表现 - Gemini在多项排名中处于第一梯队 Gemini-2 5-pro以1456分位列LLM Arena榜首 [2][3] - 多模态性能领先 原生多模态模型在视觉和文本生成评分中排名第一 [3][4] - 编程能力突出 Gemini 2 5 pro在AI IQ测试中智商达137 展现高阶智慧解决问题能力 [10] 用户增长与市场地位 - Gemini网站流量达ChatGPT的12% 移动端活跃用户数为ChatGPT一半 [5] - 网站访问量从2月2 84亿次增长至7月7亿次 而ChatGPT为57 2亿次 [6] - 2025年7月月活用户达4 5亿 较5月4亿增长12 5% [7] - 谷歌在前50名AI网站中占据四席 包括AI Studio NotebookLM和Google Labs [7] 多模态产品创新 - 图像生成模型Nano Banana(Gemini 2 5 Flash Image)在文本生成和图像编辑评分中均排名第一 [13][17] - 视频生成模型Veo3实现高保真音画同步 成为专业制作工具 [19][21] - 世界模型Genie3生成720p可交互3D环境 支持长达数分钟模拟 [23][24] 算力与基础设施优势 - 谷歌TPU集群已大规模部署 专为AI计算设计 能耗效率超英伟达GPU [27][28] - 自研TPU算力出现富余 开始向第三方云供应商销售 [29] - 算力自主保障多模型研发 支撑Gemini推理需求及视频图像模型训练 [30] 数据与生态优势 - 搜索和YouTube积累海量多模态数据 提供独特训练资源 [30] - Chrome和安卓生态助力AI能力快速触达C端用户 优化服务体验 [31] - 用户行为数据为模型迭代提供依据 例如Nano Banana成功捕捉用户需求 [31] 人才战略与组织调整 - 吸引顶尖人才如Sora开发主管Tim Brooks加入 负责世界模型开发 [32] - 为核心人才提供2000万美元年薪 并保障算力和数据资源 [34] - DeepMind与Google Brain合并 统一AI战略 加速应用创新 [35] 研发策略调整 - 减少论文发表 优先保护竞争优势成果 避免技术泄露 [37] - 聚焦产品化创新 如Nano Banana等实际应用 [39]
又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
机器之心· 2025-09-04 17:33
AI视频生成技术应用 - 博主使用Midjourney将30年前的涂鸦画制作成"妈妈拿彩虹木勺大战巨龙"动画 完美还原童年想象力 [2][4] - 即梦AI工具可根据提示词框架"we crash zoom into an immersive scene [subject + action] intense cinematic action"生成沉浸式场景视频 [5] - 即梦能够将涂鸦中的三个小人活灵活现呈现 动作自然流畅无画面崩坏或卡顿现象 [7] 多模态AI生成能力 - 即梦提供AI配乐功能 可自动生成三首符合画面风格的曲子 [8] - 谷歌Veo3实现音视频同步生成 整体效果毫无违和感 具有卡通电影片头质感 [13] - 即梦能够精确捕捉角色动作轨迹 如小女孩手臂摆动和步伐配合恰到好处 无同手同脚或多胳膊少腿错误 [14] 工具功能对比 - Veo3在音频清晰度和同步性上表现更成熟 能较好处理多层次音效和画面同步 [17] - 即梦和可灵在复杂动态场景中也能实现音效与动作同步 但音效清晰度和丰富度仍有提升空间 [17] - 各工具均能在较短时间内完成视频和音频内容生成 [17] Meta动画生成工具 - Animated Drawings可将涂鸦变为动画 要求图片主角肢体不与身体重叠 画质清晰无阴影 [18][22] - 工具自动识别角色并用方框标注 提供手动微调功能 支持32种动画模板包括走跑跳等动作 [24][26][28] 行业招聘信息 - 上海人工智能实验室开启2026届全球校招 目标2025年1月-2026年10月毕业生 [35][37] - 提供算法研发产品运营等六类岗位 算法类聚焦大模型多模态等方向 研发类聚焦分布式训练框架等 [41] - 招聘流程包括2025年8月20日启动网申 6场集中笔试 3-4轮极速面试 [44][45]
谷歌NanoBanana出圈
华福证券· 2025-08-31 13:19
行业投资评级 - 多模态向更高能力突破 看好多模态领域的爆发 [6] 核心观点 - 谷歌 Nano Banana 成为最先进的图像生成与编辑模型 在图像编辑领域模型榜单中以1362分位列第一 大幅领先第二名flux(1191分)和GPT-image-1(1170分)[3] - 谷歌 Veo3 成为视频生成领域排名第一大模型 在lmarena平台图生视频和文生视频排行榜均排名第一 [5] - 海外平台迅速接入Nano Banana 包括Adobe、Poe、WPP、Freepik、Leonardo.ai、Figma等 并验证生产力提升 [4] 技术优势 - Nano Banana具备四大核心能力:跨图一致性、多图融合、对话式/指令式精细编辑、借助Gemini世界知识的更强常识/语义理解 [3] - 定价保持高性价比 每百万token 30美元 折合约0.039美元/张图 [3] - Veo3具备原生音频生成、强提示遵循、创作控制能力 支持API级8秒/720p稳定参数 [5] 应用场景 - 设计类工作生成和编辑:品牌内容、电商营销领域的海报生成与处理、商品图制作、多元素拼贴 [4] - 创意设计与社媒内容:四格漫画生成、真人手办制作、产品内部结构拆图、游戏UI设计 [4] - 图像修复与内容改写:图片打光处理、局部PS处理 [4] - 与外部工具结合:应用于AI视频生成、AI 3D生成 [4] 投资建议 - 关注谷歌Veo3与YouTube的版权产业链:阜博集团 [6] - 关注AI图片应用公司:A股万兴科技、港股美图公司 [8] - 关注AI视频应用公司:快手、哔哩哔哩 [8] - 关注IP平台:阅文集团 [8] - 关注游戏平台:心动公司、吉比特 [8]