Veo3 - 财报，业绩电话会，研报，新闻

Veo3

搜索文档

港中深韩晓光：3DGen，人类安全感之战丨GAIR 2025

雷峰网· 2025-12-13 17:13

" 构建世界模型，为什么不能只靠「炼丹」？ " 作者丨吴彤编辑丨林觉民在香港中文大学（深圳），助理教授韩晓光的实验室名为GAP，意为"像素、点与多边形的生成与分析"。现在看来，这个名字，也隐喻着他希望弥合真实世界和虚拟世界之间的"鸿沟"的意思。 2018年，韩晓光加入这所大学时，是当时唯一专注于计算机图形学研究的教师。2024年，他尝试从三维重建拓展至具身智能与世界模型，又一次如入无人之境。在小红书上，他的账号@韩晓光，简介仅有两行：港中深理工学院助理教授、图形学与三维视觉。他将小红书视为传播平台，也视为个人思考的整理场所，会公开讨论"显式3D是否还有必要"、"世界模型为何需要可解释性"等专业问题，也会记录与学生讨论时获得的启发。这种直接、平实的分享，吸引了一批对技术本质感兴趣的读者，也代表了韩晓光这类青年教师群体打破学术边界的自觉实践。从某一种角度看，构建世界模型需要理解真实世界的运行逻辑，而他的线上互动，本身就是一场持续进行的、小规模的"世界模拟"。在韩晓光的叙述中，他研究演进是自然发生的。从三维重建到动态生成，再到服务于机器人的虚拟环境构建，核心始终是"三维内容的生成与理解"。 ...

Artificial Intelligence

Artificial Intelligence

欧盟对谷歌展开调查

国际金融报· 2025-12-10 13:24

欧盟方面表示，监管机构担心谷歌可能通过对出版商和内容创作者施加不公平条款，或为自身提供对相关内容的特权访问，从而在训练大型模型时获取竞争者难以复制的数据优势。外界认为，欧盟正试图在全球科技竞争中巩固对平台行为的规则引导权。欧盟委员会认为，谷歌可能在创作者无法真正选择的情况下，使用上传至YouTube的视频训练自家的 Gemini与Veo3模型，而创作者在上传内容时被要求授予谷歌广泛的数据使用许可，使得"同意"带有默认性质，缺乏现实的选择空间。同时，谷歌禁止第三方公司使用YouTube视频训练模型，除非版权持有人明确授权，这使谷歌可能在训练数据层面形成天然壁垒，进一步激化外界对其市场支配力的担忧。对此，谷歌回应称，相关投诉可能抑制本已竞争激烈的市场创新，并强调其已与新闻和创意产业保持合作，帮助他们适应AI带来的行业变化。尽管谷歌公司否认有任何滥用市场地位的行为，但欧盟此次行动仍被视为欧洲近年来针对美国科技企业监管升级的又一次体现。欧盟委员会近日宣布将对谷歌展开正式调查，重点评估其在训练Gemini等人工智能（AI）模型时，使用在线出版商内容以及YouTube创作者视频的方式是否违反了欧洲 ...

36氪· 2025-12-07 10:09

以下文章来源于锌刻度，作者黎炫岐锌刻度 . 专注科技互联网原创报道重新定义"吃"的边界。文｜黎炫岐编辑｜陈邓新来源｜锌刻度（ID： znkedu ）封面来源｜小红书由Veo生成被咬开时发出清脆声响的玻璃水果、镶嵌着宝石的首饰盒、播放着音乐的水晶球，甚至还有毛绒玩具labubu和金条……各种你能想到或者想不到的，都正成为AI吃播的"食材"，被AI主播们塞入嘴里，轻松咀嚼。这是一场风靡国内国外的热潮。在国外，Tiktok上一位叫leilanikovac的博主发了一条AI吃熔浆的视频，点赞数突破81.7万，另一位博主在三天内发了11条切水果的视频后，粉丝数突破8万；而在国内，各大短视频平台和社交平台上，已有不少相关账号出现，点赞量破万的也不在少数。当真人吃播面临种种道德和法律困境，猎奇食物逐渐从吃播的饭桌前消失，AI吃播却脑洞大开，主打一个万物皆能吃。锌刻度了解到，目前大部分AI吃播视频都由Veo3生成。这是今年5月底，Google DeepMind发布的一款视频生成模型。这款模型的最大亮点是AI原生可以一键直接生成与画面相匹配的声音。而这正是吃播的关键。 AI吃播的流量 ...

首帧的真正秘密被揭开了：视频生成模型竟然把它当成「记忆体」

机器之心· 2025-12-05 12:08

文章核心观点 - 视频生成模型的首帧并非时间起点，而是作为内部“概念记忆体”，存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力，但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调（仅需20–50个样本）即可稳定激活模型的潜在能力，无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试，验证了首帧作为内容缓存区的现象[11] - 研究发现，基础模型在极罕见情况下能成功完成多对象融合任务，证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力，而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练，即可实现最先进（SOTA）的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法，FFGo无需修改模型结构，且能处理多达5个参考实体，而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘，并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM（如Gemini-2.5 Pro）自动构建高质量训练集，利用SAM2提取物体掩膜，大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧，真正的混合内容从第5帧开始[28]

视频模型战火再燃！Runway超过谷歌登顶，可灵也来了

第一财经· 2025-12-02 17:09

AI视频生成模型竞争格局 - 2025年12月1日，海外AI视频初创公司Runway发布新一代视频模型Gen-4 5，国内公司可灵AI几乎同时宣布全新视频模型可灵O1上线，行业竞争激烈[3] - 根据Artificial Analysis基准测试榜单，Runway Gen-4 5以1247分位列文生视频模型第一，谷歌Veo3以1226分排名第二，快手可灵2 5以1225分排名第三，与第二名仅1分之差[7] - 其他主要竞争者包括排名第七的OpenAI Sora2 pro（1205分）和排名第八的MiniMax海螺02（1198分）[7][8] Runway Gen-4 5技术突破 - 模型在预训练数据效率和后训练技术方面取得突破，擅长执行复杂的序列指令，可指定镜头调度、场景构图、事件时间安排和氛围变化[9] - 实现了前所未有的物理精度和视觉精度，物体以真实重量和动力移动，液体动力学流动逼真，表面细节渲染出色，头发和材料编织等细节在运动中保持一致[15] - 公司承认模型仍存在局限性，如在因果推理和对象恒存性方面不足，效果可能先于原因出现，物体可能意外消失或出现[18] 行业动态与公司背景 - Runway成立于2018年，目前公司估值达35 5亿美元，2023年2月发布第一代视频模型Gen-1，7月实现文生视频和图生视频功能[18] - 公司CEO强调凭借约100人团队击败了万亿美元规模的公司，体现极度专注和勤奋可触及技术前沿[18] - 2024年起AI视频生成领域竞争白热化，2025年谷歌Veo系列确立行业领先地位，初创公司生存空间收窄，国内快手可灵和MiniMax形成竞争力[19] - Runway通过新品确立地位的重要性凸显，公司新一轮融资仍在推进中，行业期待谷歌Veo4发布，竞争将持续[19]

视频模型战火再燃！Runway超过谷歌登顶，可灵也来了

第一财经资讯· 2025-12-02 15:16

行业竞争格局 - 2025年12月初，视频生成模型领域竞争加剧，海外初创公司Runway与国内公司可灵AI几乎同时发布新一代视频模型，火药味很浓 [1] - 根据Artificial Analysis基准测试榜单，Runway的Gen-4.5以1247分位列文生视频模型第一，超越谷歌的Veo3（1226分）和快手可灵2.5（1225分）[3] - 行业领先者还包括Luma Labs的Ray 3（1211分）、OpenAI的Sora 2 Pro（1205分）以及MiniMax的海螺02（1198分），竞争格局呈现多强并立态势 [4] - 从2024年开始，AI视频生成领域竞争白热化，谷歌Veo系列在2025年逐渐确立行业领先地位，挤压初创公司空间，而国内如快手可灵、MiniMax也形成了竞争力 [12] Runway公司及Gen-4.5模型 - Runway于2025年12月1日正式发布新一代视频模型Gen-4.5，在基准测试中超越谷歌Veo3登顶 [1] - 公司表示Gen-4.5在预训练数据效率和后训练技术方面取得突破，擅长理解和执行复杂的序列指令，能指定镜头调度、场景构图、事件时间及氛围变化 [5] - 该模型在精确遵循提示词、逼真的物理运动效果、风格控制和视觉一致性方面有新的进展 [5] - Runway强调Gen-4.5实现了前所未有的物理精度和视觉精度，物体能以真实的重量和动力移动，液体流动符合动力学，表面细节渲染逼真 [7] - 公司承认模型仍存在局限性，如在因果推理和对象恒存性方面不足，可能出现效果先于原因或物体意外消失的情况 [11] - Runway计划逐步开放Gen-4.5的使用权限，并以与当前订阅套餐相近的价格全面开放，即“加量不加价” [4] - Runway成立于2018年，根据PitchBook数据，公司估值已达到35.5亿美元，其于2023年2月发布第一代视频模型Gen-1，行业布局较早 [11] - Runway CEO表示，公司仅靠一百人的团队就击败了万亿美元规模的公司，认为极度专注和勤奋能触及技术前沿 [11] 可灵AI及行业其他参与者 - 在Runway发布Gen-4.5后约1小时，国内视频生成公司可灵AI在海外平台宣布上线全新视频模型可灵O1，并将其定义为“首个统一多模态视频大模型” [1] - 截至新闻发布时，基准测试榜单上尚未包含可灵O1的评分，但其被视为Gen-4.5潜在的有力竞争对手 [12] - 快手旗下的可灵2.5 Turbo 1080p模型在2025年9月发布，在基准测试中以1225分位列第三，与第二名谷歌Veo3仅一分之差 [3][4] - MiniMax的海螺02 Standard模型于2025年6月发布，在榜单上以1198分排名第八 [4] - 行业也在期待谷歌下一代视频模型Veo4的发布，围绕视频生成模型领先地位的较量预计将持续 [12]

视频模型原生支持动作一致，只是你不会用，揭开「首帧」的秘密

36氪· 2025-11-28 10:47

核心观点 - 视频生成模型的第一帧并非简单的时间起点，而是作为模型的“概念记忆体”，存储了后续画面所需的所有视觉元素（角色、物体、纹理、布局等）[1][4] - 模型天然具备融合多参考物体的能力，但这种能力默认情况下不稳定、不可控，难以被稳定激活[4][18][21] - FFGo方法通过极低成本（不改模型结构、仅需20–50个样本、几小时LoRA训练）即可稳定激活模型的这种潜在能力，实现高质量视频定制[6][7][22] 技术原理 - 第一帧作为“概念蓝图”，模型会自动将其中的多个视觉实体打包存储，并在后续帧中复用[4][18] - 基础模型在极罕见情况下可通过特殊转场提示词（如“ad23r2 the camera view suddenly changes”）触发多对象融合，证明能力已存在但不可控[18][21] - FFGo的LoRA训练不是教会模型新能力，而是学习如何稳定触发模型已有的“隐藏GPU”，使其持续发挥作用[22] 方法优势 - 无需修改任何预训练视频模型（如Veo3、Sora2、Wan2.2）的结构[6][7] - 仅需20–50个精心挑选的视频样本和几小时的LoRA训练，避免大规模数据需求[7][15] - 不会导致模型过拟合或灾难性遗忘，保持原模型的泛化能力[7][18][22] - 支持多达5个参考实体同时融合，优于VACE/SkyReels-A2等现有方法（限制在3个以内）[9][17] 应用场景 - 机器人操作（Robot Manipulation）[12] - 自动驾驶模拟（Driving Simulation）[12] - 航拍/水下/无人机模拟（Aerial / Underwater）[12] - 多产品展示[12] - 影视制作[12] - 任意多角色组合视频生成[12] 实施流程 - 使用Gemini-2.5 Pro自动识别前景物体，SAM2提取RGBA mask，并自动生成视频文本描述，构建高质量训练集[15] - 训练时直接舍弃前4帧（Wan2.2的压缩帧），从第5帧开始利用真正的混合内容[16] - 推理时无需特殊处理，仅需提供包含多物体/角色的首帧和文本prompt即可生成交互视频[9] 性能表现 - 在画面一致性、物体身份保持、动作连贯性方面表现强劲[9][18] - 用户研究中以81.2%的票数大幅领先现有方法[26] - 输出画面更自然、更连贯，且能高度匹配文本提示（如wingsuit飞行者与Cybertruck贴合运动）[18][23]

2025-11-24 09:46

**涉及的公司和行业** * 行业：中国互联网行业，重点关注视频生成式AI领域[2] * 公司：快手（Kuaishou Technology）及其视频生成AI模型Kling，同时提及字节跳动（Bytedance）的Seedance、OpenAI的Sora 2、Google的Veo3等竞争对手[2] **核心观点和论据** **1 快手Kling在视频生成AI领域的技术领先地位** * 专家根据内部测试结果对视频生成AI性能排名为：快手Kling > Sora 2 > Veo3 > 字节跳动Seedance[2] * Kling的优势在于更强的提示学习能力、相对更长的视频生成时长以及对细节更精确的控制[2] * 专家预计Kling的领导地位在短期内可持续，得益于快手公司层面对视频生成AI的全力投入，集中了计算和训练资源以及顶尖的工程、多模态和算法人才[2] * 其他顶级玩家（如字节跳动、Google、OpenAI）在视频生成AI上的投入程度不如快手[2] * 技术上，Kling受益于快手“设备优先、边缘辅助、云端增强”的混合架构，该架构允许80%的生成工作负载在设备上运行，显著降低了成本和延迟[2] * 其自研的深度学习引擎针对中低端硬件高度优化，使其拥有独特的大规模可触达用户群[2] * 结合快速、用户驱动的模型微调和实用功能，快手在技术性能、更快迭代周期、更好成本效益和更强商业吸引力方面表现突出，使Kling在国内市场确立了领导地位[2] * 专家还指出Kling与字节跳动Seedance在目标用户上的差异：Kling更侧重于面向消费者的专业用户，而Seedance则通过订阅和私有部署模式瞄准面向企业的变现[2] **2 视频生成AI运营商当前的单位经济效益与未来改善路径** * 专家指出，考虑到研发和训练成本，视频生成AI运营商目前的单位经济效益仍然较低，甚至为负[3] * 现阶段，大多数运营商优先考虑市场份额和模型性能，而非投资回报率和盈利能力，专家预计视频AI模型定价在不久的将来会继续下降[3] * 改善单位经济效益的关键因素包括：1）通过结合进口和更便宜的国产GPU构建更异构的计算平台来降低计算成本；2）模型训练和推理效率的创新[3] **3 视频生成AI当前阶段的主要应用场景** * 专家强调视频生成AI技术可应用于广告和电子商务领域[4] * 企业客户将视频生成用于电子商务内容、数字人生产、客户服务场景、全息投影、动画/电影/电视剧制作、专业摄影和动作捕捉工作流程等[4] * 从传统的拍摄-编辑-制作-发布工作流程转向AIGC辅助的流程，可将整体生产效率提升60%以上[4] * 在数字人和电子商务直播中，数字人可以持续降低劳动力成本，允许更个性化的广告材料，并可以24/7工作，其输出效率远超传统基于人工的生产模式[4] **4 瑞银对快手的积极看法和投资建议** * 瑞银对快手持建设性观点，考虑因素包括：1）核心业务增长且估值合理（2025/26年预期市盈率为13/11倍，2024-26年预期每股收益复合年增长率为20%，或剔除Kling因素后2026年预期市盈率为10倍）；2）视频生成AI进展带来的基本面和估值上行空间；3）投资者持仓仍相对较低[5] * 瑞银对快手给予“买入”评级，目标股价为95.37港元（截至2025年11月14日股价为67.10港元）[20][26] **其他重要内容** **风险因素** * 中国互联网行业的主要风险包括：1）竞争格局演变和竞争加剧；2）技术以及互联网用户需求和偏好的快速变化趋势；3）不确定的变现能力；4）流量获取、内容和品牌推广成本上升；5）IT系统的维护；6）向国际市场扩张；7）市场情绪的不利变化；8）监管变化[7] * 快手的具体风险包括：1）竞争加剧导致用户增长低于预期以及用户时间被分流；2）在线视频、直播和网络游戏行业监管收紧；3）变现速度慢于预期；4）中国经济放缓可能导致在线广告收入增长降低；5）投资超预期且盈利能力弱于预期[8]

万兴科技已接入Veo3等模型产品曾获谷歌商店全球首页首屏推荐

智通财经· 2025-11-20 15:14

谷歌AI模型Gemini 3发布与市场影响 - 谷歌发布最新AI模型Gemini 3，其Gemini 3 pro版本在LMArena大模型竞技场中以1501得分排名榜首 [1] - Gemini月活跃用户超过6.5亿，超过70%的谷歌云端客户正在使用其AI服务，有1300万名开发者利用其生成式模型进行开发 [1] - 伯克希尔首次投资Alphabet，展现对谷歌产品生态和AI布局的认可，提升全球市场对AI公司的预期 [1] 万兴科技与谷歌的合作及业务表现 - 万兴科技已接入谷歌Veo3及Nano Banana模型能力并应用于旗下多款产品 [2] - 公司视频创意产品万兴喵影/Wondershare Filmora亮相2025谷歌开发者大会，作为唯一受邀视频剪辑产品展示“AI一键成片”能力，并获得Google Play应用商店全球首页首屏推荐 [2] - 公司业务覆盖全球200多个国家和地区，累计活跃用户突破20亿 [2] - 2025年前三季度，万兴科技的AI服务器调用量已超过8亿次 [2]

万兴科技(300624.SZ)已接入Veo3等模型产品曾获谷歌商店全球首页首屏推荐

智通财经网· 2025-11-20 15:14

谷歌AI模型Gemini 3发布与市场影响 - 谷歌发布最新AI模型Gemini 3，其Gemini 3 pro版本在LMArena大模型竞技场中以1501得分排名榜首[1] - Gemini模型月活跃用户超过6.5亿，超过70%的谷歌云端客户正在使用其AI服务[1] - 有1300万名开发者利用谷歌的生成式模型进行开发[1] - 伯克希尔公司首次投资Alphabet，显示对谷歌产品生态和AI布局的高度认可[1] 万兴科技与谷歌的合作及业务表现 - 万兴科技已接入谷歌Veo3及Nano Banana模型能力，并应用于旗下多款产品[2] - 公司视频创意产品万兴喵影/Wondershare Filmora于2025年8月亮相谷歌开发者大会，作为唯一受邀现场展示的视频剪辑产品呈现AI功能，并获得Google Play应用商店全球首页首屏推荐[2] - 公司业务覆盖全球200多个国家和地区，累计活跃用户突破20亿[2] - 2025年前三季度，万兴科技的AI服务器调用量已超过8亿次[2]