Workflow
Veo3
icon
搜索文档
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 17:13
" 构建世界模型,为什么不能只靠「炼丹」? " 作者丨吴彤 编辑丨 林觉民 在香港中文大学(深圳),助理教授韩晓光的实验室名为GAP,意为"像素、点与多边形的生成与分析"。 现在看来,这个名字,也隐喻着他希望弥合真实世界和虚拟世界之间的"鸿沟"的意思。 2018年,韩晓光加入这所大学时,是当时唯一专注于计算机图形学研究的教师。2024年,他尝试从三维 重建拓展至具身智能与世界模型,又一次如入无人之境。 在小红书上,他的账号@韩晓光,简介仅有两行:港中深理工学院助理教授、图形学与三维视觉。他将小 红书视为传播平台,也视为个人思考的整理场所,会公开讨论"显式3D是否还有必要"、"世界模型为何需 要可解释性"等专业问题,也会记录与学生讨论时获得的启发。 这种直接、平实的分享,吸引了一批对技术本质感兴趣的读者,也代表了韩晓光这类青年教师群体打破学 术边界的自觉实践。从某一种角度看,构建世界模型需要理解真实世界的运行逻辑,而他的线上互动,本 身就是一场持续进行的、小规模的"世界模拟"。 在韩晓光的叙述中,他研究演进是自然发生的。从三维重建到动态生成,再到服务于机器人的虚拟环境构 建,核心始终是"三维内容的生成与理解"。 ...
欧盟对谷歌展开调查
国际金融报· 2025-12-10 13:24
欧盟方面表示,监管机构担心谷歌可能通过对出版商和内容创作者施加不公平条款,或为自身提供对相 关内容的特权访问,从而在训练大型模型时获取竞争者难以复制的数据优势。 外界认为,欧盟正试图在全球科技竞争中巩固对平台行为的规则引导权。 欧盟委员会认为,谷歌可能在创作者无法真正选择的情况下,使用上传至YouTube的视频训练自家的 Gemini与Veo3模型,而创作者在上传内容时被要求授予谷歌广泛的数据使用许可,使得"同意"带有默认 性质,缺乏现实的选择空间。 同时,谷歌禁止第三方公司使用YouTube视频训练模型,除非版权持有人明确授权,这使谷歌可能在训 练数据层面形成天然壁垒,进一步激化外界对其市场支配力的担忧。 对此,谷歌回应称,相关投诉可能抑制本已竞争激烈的市场创新,并强调其已与新闻和创意产业保持合 作,帮助他们适应AI带来的行业变化。 尽管谷歌公司否认有任何滥用市场地位的行为,但欧盟此次行动仍被视为欧洲近年来针对美国科技企业 监管升级的又一次体现。 欧盟委员会近日宣布将对谷歌展开正式调查,重点评估其在训练Gemini等人工智能(AI)模型时,使 用在线出版商内容以及YouTube创作者视频的方式是否违反了欧洲 ...
AI吃播开始和真人吃播抢「饭碗」
36氪· 2025-12-07 10:09
以下文章来源于锌刻度 ,作者黎炫岐 锌刻度 . 专注科技互联网原创报道 重新定义"吃"的边界。 文 | 黎炫岐 编辑 | 陈邓新 来源| 锌刻度(ID: znkedu ) 封面来源 | 小红书 由Veo生成 被咬开时发出清脆声响的玻璃水果、镶嵌着宝石的首饰盒、播放着音乐的水晶球,甚至还有毛绒玩具labubu和金条……各种你能想到或者想不到的,都正成 为AI吃播的"食材",被AI主播们塞入嘴里,轻松咀嚼。 这是一场风靡国内国外的热潮。在国外,Tiktok上一位叫leilanikovac的博主发了一条AI吃熔浆的视频,点赞数突破81.7万,另一位博主在三天内发了11条切 水果的视频后,粉丝数突破8万;而在国内,各大短视频平台和社交平台上,已有不少相关账号出现,点赞量破万的也不在少数。 当真人吃播面临种种道德和法律困境,猎奇食物逐渐从吃播的饭桌前消失,AI吃播却脑洞大开,主打一个万物皆能吃。 锌刻度了解到,目前大部分AI吃播视频都由Veo3生成。这是今年5月底,Google DeepMind发布的一款视频生成模型。这款模型的最大亮点是AI原生可以一 键直接生成与画面相匹配的声音。而这正是吃播的关键。 AI吃播的流量 ...
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 12:08
文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经· 2025-12-02 17:09
AI视频生成模型竞争格局 - 2025年12月1日,海外AI视频初创公司Runway发布新一代视频模型Gen-4 5,国内公司可灵AI几乎同时宣布全新视频模型可灵O1上线,行业竞争激烈[3] - 根据Artificial Analysis基准测试榜单,Runway Gen-4 5以1247分位列文生视频模型第一,谷歌Veo3以1226分排名第二,快手可灵2 5以1225分排名第三,与第二名仅1分之差[7] - 其他主要竞争者包括排名第七的OpenAI Sora2 pro(1205分)和排名第八的MiniMax海螺02(1198分)[7][8] Runway Gen-4 5技术突破 - 模型在预训练数据效率和后训练技术方面取得突破,擅长执行复杂的序列指令,可指定镜头调度、场景构图、事件时间安排和氛围变化[9] - 实现了前所未有的物理精度和视觉精度,物体以真实重量和动力移动,液体动力学流动逼真,表面细节渲染出色,头发和材料编织等细节在运动中保持一致[15] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,效果可能先于原因出现,物体可能意外消失或出现[18] 行业动态与公司背景 - Runway成立于2018年,目前公司估值达35 5亿美元,2023年2月发布第一代视频模型Gen-1,7月实现文生视频和图生视频功能[18] - 公司CEO强调凭借约100人团队击败了万亿美元规模的公司,体现极度专注和勤奋可触及技术前沿[18] - 2024年起AI视频生成领域竞争白热化,2025年谷歌Veo系列确立行业领先地位,初创公司生存空间收窄,国内快手可灵和MiniMax形成竞争力[19] - Runway通过新品确立地位的重要性凸显,公司新一轮融资仍在推进中,行业期待谷歌Veo4发布,竞争将持续[19]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经资讯· 2025-12-02 15:16
行业竞争格局 - 2025年12月初,视频生成模型领域竞争加剧,海外初创公司Runway与国内公司可灵AI几乎同时发布新一代视频模型,火药味很浓 [1] - 根据Artificial Analysis基准测试榜单,Runway的Gen-4.5以1247分位列文生视频模型第一,超越谷歌的Veo3(1226分)和快手可灵2.5(1225分)[3] - 行业领先者还包括Luma Labs的Ray 3(1211分)、OpenAI的Sora 2 Pro(1205分)以及MiniMax的海螺02(1198分),竞争格局呈现多强并立态势 [4] - 从2024年开始,AI视频生成领域竞争白热化,谷歌Veo系列在2025年逐渐确立行业领先地位,挤压初创公司空间,而国内如快手可灵、MiniMax也形成了竞争力 [12] Runway公司及Gen-4.5模型 - Runway于2025年12月1日正式发布新一代视频模型Gen-4.5,在基准测试中超越谷歌Veo3登顶 [1] - 公司表示Gen-4.5在预训练数据效率和后训练技术方面取得突破,擅长理解和执行复杂的序列指令,能指定镜头调度、场景构图、事件时间及氛围变化 [5] - 该模型在精确遵循提示词、逼真的物理运动效果、风格控制和视觉一致性方面有新的进展 [5] - Runway强调Gen-4.5实现了前所未有的物理精度和视觉精度,物体能以真实的重量和动力移动,液体流动符合动力学,表面细节渲染逼真 [7] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,可能出现效果先于原因或物体意外消失的情况 [11] - Runway计划逐步开放Gen-4.5的使用权限,并以与当前订阅套餐相近的价格全面开放,即“加量不加价” [4] - Runway成立于2018年,根据PitchBook数据,公司估值已达到35.5亿美元,其于2023年2月发布第一代视频模型Gen-1,行业布局较早 [11] - Runway CEO表示,公司仅靠一百人的团队就击败了万亿美元规模的公司,认为极度专注和勤奋能触及技术前沿 [11] 可灵AI及行业其他参与者 - 在Runway发布Gen-4.5后约1小时,国内视频生成公司可灵AI在海外平台宣布上线全新视频模型可灵O1,并将其定义为“首个统一多模态视频大模型” [1] - 截至新闻发布时,基准测试榜单上尚未包含可灵O1的评分,但其被视为Gen-4.5潜在的有力竞争对手 [12] - 快手旗下的可灵2.5 Turbo 1080p模型在2025年9月发布,在基准测试中以1225分位列第三,与第二名谷歌Veo3仅一分之差 [3][4] - MiniMax的海螺02 Standard模型于2025年6月发布,在榜单上以1198分排名第八 [4] - 行业也在期待谷歌下一代视频模型Veo4的发布,围绕视频生成模型领先地位的较量预计将持续 [12]
视频模型原生支持动作一致,只是你不会用,揭开「首帧」的秘密
36氪· 2025-11-28 10:47
核心观点 - 视频生成模型的第一帧并非简单的时间起点,而是作为模型的“概念记忆体”,存储了后续画面所需的所有视觉元素(角色、物体、纹理、布局等)[1][4] - 模型天然具备融合多参考物体的能力,但这种能力默认情况下不稳定、不可控,难以被稳定激活[4][18][21] - FFGo方法通过极低成本(不改模型结构、仅需20–50个样本、几小时LoRA训练)即可稳定激活模型的这种潜在能力,实现高质量视频定制[6][7][22] 技术原理 - 第一帧作为“概念蓝图”,模型会自动将其中的多个视觉实体打包存储,并在后续帧中复用[4][18] - 基础模型在极罕见情况下可通过特殊转场提示词(如“ad23r2 the camera view suddenly changes”)触发多对象融合,证明能力已存在但不可控[18][21] - FFGo的LoRA训练不是教会模型新能力,而是学习如何稳定触发模型已有的“隐藏GPU”,使其持续发挥作用[22] 方法优势 - 无需修改任何预训练视频模型(如Veo3、Sora2、Wan2.2)的结构[6][7] - 仅需20–50个精心挑选的视频样本和几小时的LoRA训练,避免大规模数据需求[7][15] - 不会导致模型过拟合或灾难性遗忘,保持原模型的泛化能力[7][18][22] - 支持多达5个参考实体同时融合,优于VACE/SkyReels-A2等现有方法(限制在3个以内)[9][17] 应用场景 - 机器人操作(Robot Manipulation)[12] - 自动驾驶模拟(Driving Simulation)[12] - 航拍/水下/无人机模拟(Aerial / Underwater)[12] - 多产品展示[12] - 影视制作[12] - 任意多角色组合视频生成[12] 实施流程 - 使用Gemini-2.5 Pro自动识别前景物体,SAM2提取RGBA mask,并自动生成视频文本描述,构建高质量训练集[15] - 训练时直接舍弃前4帧(Wan2.2的压缩帧),从第5帧开始利用真正的混合内容[16] - 推理时无需特殊处理,仅需提供包含多物体/角色的首帧和文本prompt即可生成交互视频[9] 性能表现 - 在画面一致性、物体身份保持、动作连贯性方面表现强劲[9][18] - 用户研究中以81.2%的票数大幅领先现有方法[26] - 输出画面更自然、更连贯,且能高度匹配文本提示(如wingsuit飞行者与Cybertruck贴合运动)[18][23]
中国互联网行业_专家-视频生成式人工智能
2025-11-24 09:46
**涉及的公司和行业** * 行业:中国互联网行业,重点关注视频生成式AI领域[2] * 公司:快手(Kuaishou Technology)及其视频生成AI模型Kling,同时提及字节跳动(Bytedance)的Seedance、OpenAI的Sora 2、Google的Veo3等竞争对手[2] **核心观点和论据** **1 快手Kling在视频生成AI领域的技术领先地位** * 专家根据内部测试结果对视频生成AI性能排名为:快手Kling > Sora 2 > Veo3 > 字节跳动Seedance[2] * Kling的优势在于更强的提示学习能力、相对更长的视频生成时长以及对细节更精确的控制[2] * 专家预计Kling的领导地位在短期内可持续,得益于快手公司层面对视频生成AI的全力投入,集中了计算和训练资源以及顶尖的工程、多模态和算法人才[2] * 其他顶级玩家(如字节跳动、Google、OpenAI)在视频生成AI上的投入程度不如快手[2] * 技术上,Kling受益于快手“设备优先、边缘辅助、云端增强”的混合架构,该架构允许80%的生成工作负载在设备上运行,显著降低了成本和延迟[2] * 其自研的深度学习引擎针对中低端硬件高度优化,使其拥有独特的大规模可触达用户群[2] * 结合快速、用户驱动的模型微调和实用功能,快手在技术性能、更快迭代周期、更好成本效益和更强商业吸引力方面表现突出,使Kling在国内市场确立了领导地位[2] * 专家还指出Kling与字节跳动Seedance在目标用户上的差异:Kling更侧重于面向消费者的专业用户,而Seedance则通过订阅和私有部署模式瞄准面向企业的变现[2] **2 视频生成AI运营商当前的单位经济效益与未来改善路径** * 专家指出,考虑到研发和训练成本,视频生成AI运营商目前的单位经济效益仍然较低,甚至为负[3] * 现阶段,大多数运营商优先考虑市场份额和模型性能,而非投资回报率和盈利能力,专家预计视频AI模型定价在不久的将来会继续下降[3] * 改善单位经济效益的关键因素包括:1)通过结合进口和更便宜的国产GPU构建更异构的计算平台来降低计算成本;2)模型训练和推理效率的创新[3] **3 视频生成AI当前阶段的主要应用场景** * 专家强调视频生成AI技术可应用于广告和电子商务领域[4] * 企业客户将视频生成用于电子商务内容、数字人生产、客户服务场景、全息投影、动画/电影/电视剧制作、专业摄影和动作捕捉工作流程等[4] * 从传统的拍摄-编辑-制作-发布工作流程转向AIGC辅助的流程,可将整体生产效率提升60%以上[4] * 在数字人和电子商务直播中,数字人可以持续降低劳动力成本,允许更个性化的广告材料,并可以24/7工作,其输出效率远超传统基于人工的生产模式[4] **4 瑞银对快手的积极看法和投资建议** * 瑞银对快手持建设性观点,考虑因素包括:1)核心业务增长且估值合理(2025/26年预期市盈率为13/11倍,2024-26年预期每股收益复合年增长率为20%,或剔除Kling因素后2026年预期市盈率为10倍);2)视频生成AI进展带来的基本面和估值上行空间;3)投资者持仓仍相对较低[5] * 瑞银对快手给予“买入”评级,目标股价为95.37港元(截至2025年11月14日股价为67.10港元)[20][26] **其他重要内容** **风险因素** * 中国互联网行业的主要风险包括:1)竞争格局演变和竞争加剧;2)技术以及互联网用户需求和偏好的快速变化趋势;3)不确定的变现能力;4)流量获取、内容和品牌推广成本上升;5)IT系统的维护;6)向国际市场扩张;7)市场情绪的不利变化;8)监管变化[7] * 快手的具体风险包括:1)竞争加剧导致用户增长低于预期以及用户时间被分流;2)在线视频、直播和网络游戏行业监管收紧;3)变现速度慢于预期;4)中国经济放缓可能导致在线广告收入增长降低;5)投资超预期且盈利能力弱于预期[8]
万兴科技已接入Veo3等模型 产品曾获谷歌商店全球首页首屏推荐
智通财经· 2025-11-20 15:14
谷歌AI模型Gemini 3发布与市场影响 - 谷歌发布最新AI模型Gemini 3,其Gemini 3 pro版本在LMArena大模型竞技场中以1501得分排名榜首 [1] - Gemini月活跃用户超过6.5亿,超过70%的谷歌云端客户正在使用其AI服务,有1300万名开发者利用其生成式模型进行开发 [1] - 伯克希尔首次投资Alphabet,展现对谷歌产品生态和AI布局的认可,提升全球市场对AI公司的预期 [1] 万兴科技与谷歌的合作及业务表现 - 万兴科技已接入谷歌Veo3及Nano Banana模型能力并应用于旗下多款产品 [2] - 公司视频创意产品万兴喵影/Wondershare Filmora亮相2025谷歌开发者大会,作为唯一受邀视频剪辑产品展示“AI一键成片”能力,并获得Google Play应用商店全球首页首屏推荐 [2] - 公司业务覆盖全球200多个国家和地区,累计活跃用户突破20亿 [2] - 2025年前三季度,万兴科技的AI服务器调用量已超过8亿次 [2]
万兴科技(300624.SZ)已接入Veo3等模型 产品曾获谷歌商店全球首页首屏推荐
智通财经网· 2025-11-20 15:14
谷歌AI模型Gemini 3发布与市场影响 - 谷歌发布最新AI模型Gemini 3,其Gemini 3 pro版本在LMArena大模型竞技场中以1501得分排名榜首[1] - Gemini模型月活跃用户超过6.5亿,超过70%的谷歌云端客户正在使用其AI服务[1] - 有1300万名开发者利用谷歌的生成式模型进行开发[1] - 伯克希尔公司首次投资Alphabet,显示对谷歌产品生态和AI布局的高度认可[1] 万兴科技与谷歌的合作及业务表现 - 万兴科技已接入谷歌Veo3及Nano Banana模型能力,并应用于旗下多款产品[2] - 公司视频创意产品万兴喵影/Wondershare Filmora于2025年8月亮相谷歌开发者大会,作为唯一受邀现场展示的视频剪辑产品呈现AI功能,并获得Google Play应用商店全球首页首屏推荐[2] - 公司业务覆盖全球200多个国家和地区,累计活跃用户突破20亿[2] - 2025年前三季度,万兴科技的AI服务器调用量已超过8亿次[2]