AI视频生成
搜索文档
北水动向|北水成交净买入41.01亿 北水继续加仓科网股 全天买入美团(03690)近6亿港元
智通财经网· 2025-12-02 17:57
港股通资金流向 - 12月2日港股市场北水成交净买入41.01亿港元,其中港股通(沪)净买入10.3亿港元,港股通(深)净买入30.71亿港元 [1] - 北水净买入最多的个股是美团-W、小米集团-W、阿里巴巴-W,净卖出最多的个股是腾讯、中芯国际、中国人寿 [1] 个股资金流向详情 - 阿里巴巴-W港股通(沪)净流入+3.67亿港元,买卖总额51.26亿港元,港股通(深)净流出-995.66万港元 [2][3] - 美团-W港股通(沪)净流入+1.71亿港元,买卖总额24.95亿港元,港股通(深)净流入+4.21亿港元 [2][3] - 腾讯控股港股通(沪)净流出-6.84亿港元,买卖总额21.30亿港元,港股通(深)净流入+3.03亿港元 [2][3] - 小米集团-W港股通(沪)净流出-4105.95万港元,买卖总额17.58亿港元,港股通(深)净流入+4.21亿港元 [2][3] - 快手-W港股通(沪)净流入+1.38亿港元,买卖总额8.42亿港元,港股通(深)净流入+1.13亿港元 [2][3] - 中芯国际港股通(沪)净流入+5920.24万港元,买卖总额8.56亿港元,港股通(深)净流出-1.35亿港元 [2][3] - 中海油港股通(沪)净流入+1.17亿港元,买卖总额6.94亿港元,港股通(深)净流入+2.32亿港元 [2][3] - 中兴通讯港股通(沪)净流入+9383.77万港元,买卖总额14.81亿港元,港股通(深)净流入+54.24万港元 [2][3] - 小鹏汽车-W港股通(沪)净流出-4491.58万港元,买卖总额12.64亿港元,港股通(深)净流入+4956.87万港元 [2][3] - 巨子生物港股通(沪)净流入+1.32亿港元,买卖总额9.17亿港元 [2] - 中国人寿港股通(深)净流出-1642.32万港元,买卖总额3.92亿港元 [3] 公司动态与催化剂 - 美团-W获净买入5.92亿港元,大和报告指其外卖业务经营亏损已于第三季见顶,第四季亏损预期回落至约130亿元人民币,公司将专注于拓展高价值订单及通过会员制提升用户忠诚度 [4] - 小米集团-W获净买入3.8亿港元,小米汽车累计交付已超过50万台,11月交付量持续超过4万台,2025年交付量已超过年初设定的全年目标35万台,公司斥资约4.02亿港元回购1000万股 [4] - 阿里巴巴-W获净买入3.57亿港元,公司发布图片生成及编辑模型Qwen-Image的重磅更新,新模型在图像编辑中保持更高一致性,并在多视角转换、多图像融合等方面取得进展 [5] - 快手-W获净买入2.5亿港元,其可灵AI正式发布全新产品“可灵O1”,定位为首个大一统的多模态创作工具,基于全新的视频和图像模型整合多模态输入 [5] - 巨子生物获净买入1.31亿港元,公司计划行使回购股份授权,获准购回不超过1.036亿股股份,即已发行股份数目的10% [5] - 中芯国际遭净卖出7627万港元,国科微终止收购中芯宁波94.366%的股权,交易终止后中芯控股仍持有中芯宁波14.832%的股权 [6]
快手可灵也吃上了香蕉,一通离谱prompt测试,好好玩要爆了
量子位· 2025-12-02 17:32
文章核心观点 - 在ChatGPT发布三周年之际,快手旗下可灵AI视频发布了“全球首个统一多模态视频模型”——O1模型,该模型将视频修改、镜头延展、多主体参考等多种功能整合进一个统一模型中,实现了深层语义理解的“一把梭” [1] - 通过实测,O1模型在多主体元素一致性、局部编辑自然度、长视频生成(支持3-10秒)等方面表现稳定,为长视频创作者提供了便利,有望将以往需要在多个工具间切换的工作一站式完成 [6][12][53] - 可灵在发布AI视频O1模型的次日,紧接着发布了图片O1模型,进一步扩展了其多模态生成能力 [55][56] 模型核心功能与亮点 - **全能指令**:支持以照片、视频、文字作为指令,一句话即可调度多模态素材 [10] - **全能参考**:在镜头转换中能保持主体的高度一致性,并支持多个角色的自由组合 [11] - **超多创意**:支持组合不同技能,一次生成多种创意变化,并允许用户自由设定3-10秒的生成时长 [12] 多图参考生成能力实测 - 该功能的核心挑战在于保持镜头连贯性与主体一致性,实测中,例如生成“蒙娜丽莎逃离卢浮宫”的剧情视频,从画框到走廊再到大厅的转场自然顺滑,镜头跟踪稳定 [13] - 但在处理更细致的动词指令(如“蹑手蹑脚”、“捉到”)时,模型的理解尚未完全到位 [15] - 在生成包含多个特定人物(如硅谷大佬)的复杂场景时,可能出现人物角色混淆或背景环境与文化契合度不足的情况 [20] 视频局部编辑能力实测 - 用户可以对视频中的局部元素进行替换、删除或增加,类似于将PS的局部功能应用于视频 [22] - 实测案例显示,即使在主体移动状态下(如将遛狗视频中的狗替换为赛博机器狗),模型也能保证画面元素不崩坏,处理效果良好 [25][27] - 在改变视频画风或元素(如将像素风视频中的“东方明珠”替换为“雪王”)时,处理结果自然,几乎没有违和感 [30][32] 镜头延展与动作捕捉能力实测 - **动作捕捉**:实测中,模型能根据参考舞蹈动作,让“魔性企鹅”近乎1:1地还原舞蹈动作,动作捕捉成功 [34][36] - **镜头延展**:基于一段5秒的原视频,模型能根据提示词生成后续剧情镜头,在测试中保持了不错的人物一致性,但对某些特定动作指令(如“落在肩上”、“回头”)的执行可能不完整 [37][39][41] 其他创意玩法实测 - **OOTD换装**:通过拖拽服装、配饰元素,模型可快速生成动态版换装效果,便于直观展示服装上身效果 [43] - **3D特效生成**:例如,让一张干裂土地的明信片“长出枝芽”并呈现3D立体效果,模型能逼真地展现破土而出、迅速生长的过程,立体感强 [45][46][48] - **画面元素活化**:例如,让明信片中的丹顶鹤振翅飞出画框并激起涟漪,模型在保持周围环境元素一致性、避免穿帮方面表现到位 [50][52][53]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经· 2025-12-02 17:09
AI视频生成模型竞争格局 - 2025年12月1日,海外AI视频初创公司Runway发布新一代视频模型Gen-4 5,国内公司可灵AI几乎同时宣布全新视频模型可灵O1上线,行业竞争激烈[3] - 根据Artificial Analysis基准测试榜单,Runway Gen-4 5以1247分位列文生视频模型第一,谷歌Veo3以1226分排名第二,快手可灵2 5以1225分排名第三,与第二名仅1分之差[7] - 其他主要竞争者包括排名第七的OpenAI Sora2 pro(1205分)和排名第八的MiniMax海螺02(1198分)[7][8] Runway Gen-4 5技术突破 - 模型在预训练数据效率和后训练技术方面取得突破,擅长执行复杂的序列指令,可指定镜头调度、场景构图、事件时间安排和氛围变化[9] - 实现了前所未有的物理精度和视觉精度,物体以真实重量和动力移动,液体动力学流动逼真,表面细节渲染出色,头发和材料编织等细节在运动中保持一致[15] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,效果可能先于原因出现,物体可能意外消失或出现[18] 行业动态与公司背景 - Runway成立于2018年,目前公司估值达35 5亿美元,2023年2月发布第一代视频模型Gen-1,7月实现文生视频和图生视频功能[18] - 公司CEO强调凭借约100人团队击败了万亿美元规模的公司,体现极度专注和勤奋可触及技术前沿[18] - 2024年起AI视频生成领域竞争白热化,2025年谷歌Veo系列确立行业领先地位,初创公司生存空间收窄,国内快手可灵和MiniMax形成竞争力[19] - Runway通过新品确立地位的重要性凸显,公司新一轮融资仍在推进中,行业期待谷歌Veo4发布,竞争将持续[19]
视频模型战火再燃!Runway超过谷歌登顶,可灵也来了
第一财经资讯· 2025-12-02 15:16
行业竞争格局 - 2025年12月初,视频生成模型领域竞争加剧,海外初创公司Runway与国内公司可灵AI几乎同时发布新一代视频模型,火药味很浓 [1] - 根据Artificial Analysis基准测试榜单,Runway的Gen-4.5以1247分位列文生视频模型第一,超越谷歌的Veo3(1226分)和快手可灵2.5(1225分)[3] - 行业领先者还包括Luma Labs的Ray 3(1211分)、OpenAI的Sora 2 Pro(1205分)以及MiniMax的海螺02(1198分),竞争格局呈现多强并立态势 [4] - 从2024年开始,AI视频生成领域竞争白热化,谷歌Veo系列在2025年逐渐确立行业领先地位,挤压初创公司空间,而国内如快手可灵、MiniMax也形成了竞争力 [12] Runway公司及Gen-4.5模型 - Runway于2025年12月1日正式发布新一代视频模型Gen-4.5,在基准测试中超越谷歌Veo3登顶 [1] - 公司表示Gen-4.5在预训练数据效率和后训练技术方面取得突破,擅长理解和执行复杂的序列指令,能指定镜头调度、场景构图、事件时间及氛围变化 [5] - 该模型在精确遵循提示词、逼真的物理运动效果、风格控制和视觉一致性方面有新的进展 [5] - Runway强调Gen-4.5实现了前所未有的物理精度和视觉精度,物体能以真实的重量和动力移动,液体流动符合动力学,表面细节渲染逼真 [7] - 公司承认模型仍存在局限性,如在因果推理和对象恒存性方面不足,可能出现效果先于原因或物体意外消失的情况 [11] - Runway计划逐步开放Gen-4.5的使用权限,并以与当前订阅套餐相近的价格全面开放,即“加量不加价” [4] - Runway成立于2018年,根据PitchBook数据,公司估值已达到35.5亿美元,其于2023年2月发布第一代视频模型Gen-1,行业布局较早 [11] - Runway CEO表示,公司仅靠一百人的团队就击败了万亿美元规模的公司,认为极度专注和勤奋能触及技术前沿 [11] 可灵AI及行业其他参与者 - 在Runway发布Gen-4.5后约1小时,国内视频生成公司可灵AI在海外平台宣布上线全新视频模型可灵O1,并将其定义为“首个统一多模态视频大模型” [1] - 截至新闻发布时,基准测试榜单上尚未包含可灵O1的评分,但其被视为Gen-4.5潜在的有力竞争对手 [12] - 快手旗下的可灵2.5 Turbo 1080p模型在2025年9月发布,在基准测试中以1225分位列第三,与第二名谷歌Veo3仅一分之差 [3][4] - MiniMax的海螺02 Standard模型于2025年6月发布,在榜单上以1198分排名第八 [4] - 行业也在期待谷歌下一代视频模型Veo4的发布,围绕视频生成模型领先地位的较量预计将持续 [12]
千问App上线Wan 2.5和Qwen-Image:支持对口型、对话修图
凤凰网· 2025-12-02 14:42
公司产品发布 - 千问APP正式上线视频生成模型通义万相Wan 2.5和图片生成及编辑模型Qwen-Image [1] - 用户可无限次免费使用这两款新模型 [1] 视频生成模型通义万相Wan 2.5功能 - 支持多语种音画同步,包括中英文和方言 [1] - 支持文字指令直出多人对话类AI视频 [1] - 生成的AI视频最长可达10秒 [1] - 用户可免费体验AI采访、全民舞王等各种热门玩法 [1] 图片生成及编辑模型Qwen-Image功能 - 可精准编辑、修改图片中的文字 [1] - 支持双图“拼贴”与“融合”功能 [1] - 支持基于参考图进行编辑 [1] - 生成亚洲人像更真实,中文更稳定 [1] - 海报设计能力达到商用级别 [1] 产品性能与基准测试 - Qwen-Image基础版在多个基准测试中取得最先进的性能 [1] - 在通用图像生成的GenEval、DPG和OneIG-Bench基准测试中表现优异 [1] - 在图像编辑的GEdit、ImgEdit和GSO基准测试中同样表现出色 [1] - 展现出在图像生成与图像编辑方面的强大能力 [1]
拍我AI(PixVerse)V5.5AI视频大模型上线 音画同步可一键生成
环球网· 2025-12-02 13:51
产品发布与核心升级 - 爱诗科技正式发布PixVerse V5.5,国内版为拍我AI V5.5,标志着AI视频生成从“镜头生成”向具备“完整叙事能力”的实用阶段进化 [1] - 新版本可生成具备叙事结构的短片,视频质量接近“成片”,与以往只能产出单镜头或零散画面的大模型不同 [1] 核心技术突破 - 此次更新首次支持音频与多镜头同步生成,并强化了多角色音画同步能力 [3] - V5.5成为国内首个可以在一次生成中实现“分镜 + 声音”的AI视频生成大模型,画面生成时自动融合人物对白、口型、表情、动作、环境声和背景音乐 [3] - AI能够根据用户输入的提示词自动理解并生成完整的故事段落,而非仅提供单一镜头素材 [3] 功能与用户体验 - 用户只需输入简短提示,AI即可完成镜头推进、景别切换、人物对白、环境声和背景音乐的生成,直接输出可用的叙事片段 [3] - 在拍我AI中,用户可在V5.5大模型下生成5秒、8秒、10秒的视频 [3] - 用户现可在提示词中直接控制“音效、台词、音色、音乐、镜头”,AI能自动理解叙事意图并设计推拉、摇移、切换等镜头语言,运镜节奏更自然 [3] - 该功能使创作者无需额外调参或上传音频,便能生成近乎“直出成片”的高质量视频,带来“成为导演”般的创作体验 [3] 行业影响与创作方式变革 - 根据海内外创作者社区的测试反馈,V5.5的多镜头能力足以改变短视频的创作方式 [4] - 过去创作具有“黄金三秒开场节奏”的镜头需要依赖摄影师和剪辑师配合,现在AI能自动生成这部分内容 [4]
腾讯元宝上线AI视频生成能力
观察者网· 2025-11-21 16:58
产品发布与核心参数 - 腾讯混元大模型团队于11月21日正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [1] - 模型能力已上线腾讯元宝最新版,用户可通过输入文字描述实现文生视频,或上传图片配合描述实现图生视频 [1] 核心功能与技术能力 - 模型具备全面核心能力,支持中英文输入的文生视频与图生视频,图生视频能力展现出图像与视频的高度一致性 [3] - 模型具备强指令理解与遵循能力,能精准实现多样化场景,包括运镜、流畅运动、写实人物和人物情绪表情等多种指令 [3] - 模型支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [3] - 模型可原生生成5–10秒时长的480p和720p高清视频,并可通过超分模型提升至1080p电影级画质 [3] 模型性能对比 - 在文生视频任务中,HunyuanVideo 1.5对比Seedance pro胜率为+11.02%,对比Kling2.1胜率为+12.6%,对比Wan2.2胜率为+17.12% [4] - 在文生视频任务中,HunyuanVideo 1.5对比Veo3胜率为-10.32% [4] - 在图生视频任务中,HunyuanVideo 1.5对比Kling2.1胜率为+9.72%,对比Wan2.2胜率为+12.65% [4] - 在图生视频任务中,HunyuanVideo 1.5对比Veo3胜率为-3.61%,对比Seedance pro胜率为-5.77% [4]
元宝上线AI视频能力
贝壳财经· 2025-11-21 16:40
产品发布与技术能力 - 公司官宣推出“一句话生视频”能力,其底层技术基于腾讯混元最新开源的HunyuanVideo 1.5模型 [4] - 该功能支持中英文的文生视频与图生视频,能实现图像与视频在色调、细节上的高度一致性,并精准遵循运镜、流畅运动等多样化指令 [6] - 模型以仅8.3B的轻量尺寸实现开源最强效果,可在14G显存的消费级显卡上流畅运行 [6] 产品功能与测试效果 - 测试显示,输入“大熊猫在长城上吃竹子动画”提示词后,产品在约3分钟时间内生成一个长度约6秒、以梦工厂“熊猫阿宝”为蓝本的符合要求的视频 [5] - 该功能上线标志着产品正式实现了从文本、图片、音频到视频的“图文音视”全模态覆盖 [7]
并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
机器之心· 2025-11-20 17:35
公司技术与产品突破 - 推出Model 2.0视频生成系统,可生成长达五分钟的富有表现力、可媲美专业水准、以人为中心的视频,破解了行业“视频时长”难题[1] - 突破性进展在于采用并行扩散架构,通过同时运行多个较小的扩散算法并用双向约束连接,避免瑕疵累积,从而生成长视频[5][6] - 模型训练数据除互联网抓取外,还聘请专业工作室使用高帧率摄像系统拍摄演员,获取高质量自有素材以避免运动模糊[6] - Model 2.0是“视频到视频”转换模型,以图像和行车视频为输入,利用人物动作生成输出视频,并能保留人物身份、情感和细微差别[7] - 系统可在约15分钟内生成30秒低分辨率视频,具备先进的唇形同步和手势对齐算法,确保嘴部动作和肢体语言与音轨同步[7] 市场竞争定位与优势 - 公司产品被视为OpenAI的Sora和Google的Veo的强有力竞争者,因其视频时长远超当前行业佼佼者(如Sora 2上限仅为25秒)[1][5] - 不同于大多数视频生成企业聚焦消费者创意工具,公司瞄准ToB市场,专注于为企业(尤其是软件公司)制作培训、营销和发布视频[9] - 公司视频帧率更高,解决了行业中的“8秒AI视频难题”,可能彻底改变公司处理培训、营销和故事讲述的方式[8] 创始人背景与公司战略 - 公司由全球最广泛使用的计算机视觉库OpenCV的创建者Victor Erukhimov创立,其曾联合创立并领导Itseez,后于2016年被英特尔收购[3] - 公司近期完成一轮200万美元融资,创始人并不认同“巨额资金是成功的先决条件”,强调高质量数据比大量计算预算更重要[9] - 公司下一个重大发展方向是开发“文本转视频”模型,允许用户直接从脚本生成长篇内容,并正在开发对移动镜头场景的支持[9] 潜在商业价值与行业影响 - 长视频生成能力可为难以扩大视频制作规模的企业(用于培训、营销和客户教育)带来巨大商业价值[3] - 网友评价认为,公司利用并行传播和专有数据打造长篇AI视频是明智之举,突显了深厚计算机视觉技术可克服计算预算限制,满足企业对时长至关重要的持续内容的关键需求[7]
把龙做成菜,一个会计是怎么用AI做出740万播放的视频的?
后浪研究所· 2025-11-17 17:35
AI视频内容创作的成功要素 - 视频《把远古沧龙做成六道菜(上)》上线三天播放量达700万,总播放量达740万,B站粉丝数涨至7.1万[5][11][13] - 成功关键在于故事编排、密集热梗和画面快速切换(1-2秒切换镜头),而非单纯依赖AI技术[16] - 创作者通过故意加入穿帮镜头(如人物手放滚烫锅上)引发讨论,推动视频进入更高流量层级[18][20] AI视频制作的技术细节 - 视频时长6分23秒,需拼接至少75个5秒片段,实际生成超1000条素材,部分镜头“抽卡”次数过百[10] - 使用多模型组合:Gemini和ChatGPT优化脚本提示词,Veo 3负责80%视频生成,可灵处理东方题材,wan 2.2优化动作生成,Heygen和Minimax用于配音[28] - 保持人物一致性依赖图生视频技术(首帧固定人物形象)和精细化提示词描述(如面部轮廓细节)[32] 创作者背景与行业趋势 - 创作者为28岁会计,通过三年自学掌握AI视频制作,从月产一小段提升至日产多段[11] - 行业出现AI替代传统拍摄趋势,部分品牌已用AI完成宣传片,替代90%实景拍摄[40] - 内容平台(如B站、快手)积极推广AI生成内容,B站热门视频多含AI元素,快手计划赋能创作者生产AI长内容[12] 内容创意与成本投入 - 选题聚焦“未见过的生物”(如恐龙、麒麟),结合《地狱厨房》等流行文化元素,避免同质化切石头、小猫做饭等内容[24] - 月成本包括上千元会员费、额外token费用及本地算力,总成本约四五千元,时间成本高(每日工作至凌晨3点)[31] - 创作者计划拓展至30分钟至1小时影视级长视频,探索剧集式内容形态[39]