多模态视频生成
搜索文档
【早报】沪深北交易所:优化再融资一揽子措施;高德打车被约谈
财联社· 2026-02-10 07:12
宏观政策与监管动态 - 国家强调科技自立自强是建设社会主义现代化强国的关键 将集中力量攻关以解决突出短板问题 [1][3] - 沪深北交易所宣布优化再融资一揽子措施 旨在支持优质上市公司创新发展并提高再融资效率 同时修订规则以更好适应科创企业“轻资产、高研发投入”特点 [3][5] - 公安部要求严厉打击网络平台制售假劣食品及保健品虚假宣传等涉网食品安全犯罪活动 [6] - 财政部等三部门公告 明确2026年1月1日至2027年12月31日期间 对符合条件的跨境电商出口退货商品免征进口关税和进口环节增值税、消费税 [6] 行业动态与价格趋势 - 交通运输新业态协同监管部际联席会议办公室约谈高德打车 指出其存在对合作网约车平台管理不到位、压低运价等问题 要求全面整改 [4][5] - 商务部召开汽车企业座谈会 研究汽车流通消费工作 计划在2026年会同相关部门优化实施汽车以旧换新 开展改革试点以推动消费扩容提质 [4] - 稀土主流产品价格整体上行 其中氧化镨钕均价79.88万元/吨 上涨4.13万元/吨 金属镨钕均价97.63万元/吨 上涨6.19万元/吨 [4] - 分散染料部分品种价格再度调价 主要产品分散黑报价近期累计上涨5000元/吨 [8][14] - 人力资源社会保障部等七部门对美团、淘宝闪购、京东秒送等16家新就业形态企业开展用工行政指导 要求全面落实用工主体责任 保障劳动者权益 [6] 公司公告与项目进展 - 智光电气控股子公司签订10.04亿元储能系统买卖合同 [7] - 萃华珠宝因涉嫌信披违法违规 遭证监会立案 [2][14] - 源杰科技拟投资12.51亿元建设光电通讯半导体芯片和器件研发生产基地二期项目 [14] - 盟固利拟投资9.29亿元建设年产3万吨锂离子电池正极材料项目 [14] - 金徽股份拟以2.1亿元收购福圣矿业100%股权 后者拥有的老圣沟金矿采矿权生产规模为5万吨/年 [14] - 海南矿业拟收购丰瑞氟业69.9%股权 [14] - 宁德时代拟推出2026年A股员工持股计划 [14] - 协鑫集成股东前海金控拟减持不超过1.01%股份 [14] - 完美世界实际控制人在股票异常波动期间减持124.7万股 [14] - 捷强装备及实际控制人潘峰犯单位行贿罪 分别被判处罚金150万元 [14] - 三元生物公告 美国对中国赤藓糖醇反倾销、反补贴调查终裁结果公布 公司通过特定单独税率渠道出口美国的综合执行税率达93.58% [9] 前沿科技与产业趋势 - 小马智行与丰田中国、广汽丰田合作的首台量产版铂智4X Robotaxi正式下线 搭载第七代自动驾驶系统 行业分析指出Robotaxi车辆成本已降至30万元级别 商业化闭环有望在2026年加速到来 [16] - 字节跳动旗下Seedance2.0视频模型进行内测 支持生成5到15秒视频 分析认为其广泛应用将带动推理端算力需求呈指数级增长 AI视频正改写传统影视制作逻辑 [17] - 因苹果计划推出可折叠手机 三星显示正在评估扩大面向苹果的OLED面板产能 [4] 全球市场与融资动态 - 美股三大指数集体收涨 纳指涨0.9% 道指涨0.04% 标普500指数涨0.47% 大型科技股多数上涨 [10] - COMEX黄金期货收涨2.1% 报5084.2美元/盎司 COMEX白银期货收涨8% 报83.05美元/盎司 [12] - WTI原油期货收涨1.27% 报64.36美元/桶 布伦特原油期货收涨1.45% 报69.04美元/桶 [11] - 谷歌母公司Alphabet计划通过发行美元债券筹集200亿美元 超过了此前预期的150亿美元规模 此次发行吸引了超过1000亿美元的认购 [13]
东方证券:视频生成进入精准控制时代 创作平权带动BC两端加速渗透
智通财经· 2026-02-09 10:24
行业核心观点 - 应重视垂类多模态AI应用的投资机会 看好技术突破与成本优化将加速产业发展 带动用户增长、付费渗透和商业化进程再上台阶 [1] - 尤其关注有多模态AI应用出海布局的公司 其起量速率可能更快 [1] 多模态视频生成技术发展 - 年初至今 多模态视频生成赛道国产模型加速迭代 推动行业技术整体上行 与海外技术差距显著收窄 [2] - 国内视频生成厂商模型研发节奏加快 例如快手可灵从25年4月的2.0版本迭代至26年2月的3.0版本 即梦Seedance从25年6月的1.0版本迭代至26年2月的2.0版本 [3] - 随着最新模型发布 国内供给侧技术天花板提升 物理规律合理性、运动流畅性、指令遵循能力等基础属性显著增强 并补齐了分镜能力、音画同出等功能 [3] - 与海外模型的差异化在于支持图片、音频、视频等多模态输入的参考生成 以及视频二次编辑能力 [3] - 视频生成赛道进入类似25年大语言模型(LLM)的竞争状态 在基础能力均达到较高水准后 后续各家差异化或在于具体落地场景 [3] 技术演进与产业趋势 - 智能分镜功能降低了用户进入门槛 多模态统一架构支持创作意图表达更高效灵活且可控性提升 [2] - 判断2026年B端和C端市场拓展均会有较大进展 [2] - 模型厂商在竞争技术的同时 应重点观测景气内容赛道的AI渗透情况 [2] - 最大的边际变化在于从随机生成转向精准可控 最新模型如Vidu Q3、可灵3.0、Seedance2.0支持多模态输入参考生成 可控性更强 抽卡成品率显著提升 [4] - 生成时长更友好 单次生成增至15秒左右 进一步降低了B端和C端用户的创作门槛 [4] - 国产模型基本补齐多镜头叙事功能 使泛C端用户能借助工具实现创作 B端创作者则降低了对分镜功底的要求 [4] - 模型支持对生成内容进行精细化的增、删、改操作 实现快速二次调整 [4] - 判断2026年模型的技术迭代将更侧重于生产流程落地 帮助创作者高效表达意图、实现可控创作 [4]
昆仑万维全新SkyReels正式焕新上线
证券日报网· 2025-11-04 15:41
产品发布与定位 - 昆仑万维旗下AI视频创作平台SkyReels于11月4日正式上线Web端与移动端App [1] - 平台核心定位为一站式与多模态AI创作平台 独家优势在于聚合全球顶尖AI多模态模型 [1] - 平台集成图片生成 视频生成 数字人 音乐生成等多种AI创作方式 [1] 核心技术能力 - 此次更新搭载自研模型SkyReels V3 代表一系列多模态视频生成模型 [1] - 模型基于Multi-modal In Context Learning框架预训练 并通过子任务精调优化 [1] - 核心更新能力包括无限画布 数字人 模板功能 专家Agent 视频延长和风格化 [1] - 所有AI功能和全球顶尖模型集成于同一创作空间 实现多模态内容无缝融合 [2] - 用户可通过AI编辑 Agent Chat和拖拽三种方式在无限画布上自由组合素材 [2] 智能系统与交互创新 - 平台推出Agentic Copilot模式 提供双核智能系统支持多模态输入输出 [2] - 未来将实现Super Agent(1个全能创意助手)与Expert Agents(28位行业专家)的相互协作 [2] - SkyReels V3是业内首个支持单镜头多人多轮对话的数字人模型 [2] - 模型能精确控制每个角色的说话时机与节奏 实现多角色自然流畅互动 [2] 数字人功能与应用场景 - 数字人功能覆盖全场景对口型 支持单人图片驱动 视频驱动及多人多轮对话的图片驱动对口型 [3] - 支持最长4分钟的连续对口型 并具备丰富的运镜组合 [3] - 模型可应用于影视级对话场景 电商双人口播 游戏素材创作等多种专业场景 [3] - 音频驱动的视频生成模型首次具备多人场景的生成能力 [3] 行业趋势与未来展望 - 视觉/音频等生成模型预计保持高速迭代与更新 [3] - 模态之间的融合创作将进一步加速 模型效果与可控性将持续提升 [3] - 内容生成成本预计持续降低 [3]
国泰海通|传媒:Sora2正式发布,加快推动AI视频发展
国泰海通证券研究· 2025-10-08 21:33
产品发布与核心特性 - OpenAI于9月30日正式发布视频生成模型Sora 2及同名IOS社交应用"Sora" [1] - Sora 2在视频真实性、音频同步和精细控制上实现重大突破,支持生成10秒沉浸式内容 [1] - Sora 2 Pro版本生成时长提升至15秒,画面分辨率更高,质感更接近电影 [1] - Sora App已成功登顶苹果美国"热门免费应用"榜单,目前采用邀请制,优先在美加开放 [1] 技术演进与行业影响 - 多模态视频生成逐步走向全局生成,通过文字、图片、视频提示词进行凭空生成,不依赖外部素材,可赋能传统视频制作工作流 [2] - 视频生成模型在稳定性、可控性、丰富度、生成时长方面持续提升 [2] - 该技术对内容制作呈现有效的降本增效,尤其在动画内容方面 [2] 应用场景与商业模式创新 - Sora App定位为共创平台,通过创新"Cameo"功能将用户肖像无缝融入生成场景,重新定义社交互动与内容创作 [1] - 在PGC方面,Sora 2将提供更具体的控制选项,让角色版权方自主决定是否允许用户使用其角色进行二次创作,并探索收费模式,可能形成"创作者+IP方+平台"的分账生态 [2] - 在UGC方面,AI视频可在娱乐社交、电商营销、教育等场景实现广泛应用,在创意视频、品牌广告等领域具备价值 [2] 投资方向 - 投资机会主要涉及四类公司:平台和模型公司、IP资源公司、内容多元创新公司、其他多元应用公司 [3]
阿里开源Wan2.2-S2V模型:静态图与音频合成电影级数字人视频
搜狐财经· 2025-08-27 23:54
产品发布与功能 - 阿里巴巴推出多模态视频生成模型通义万相Wan2 2-S2V 用户通过静态图片和音频可生成分钟级电影级别数字人视频 支持面部表情自然 口型同步和肢体动作流畅 [1] - 模型支持真人 卡通 动物和数字人等多种图片类型 涵盖肖像 半身和全身画幅 用户上传音频即可使主体形象说话 唱歌或表演 [1] - 引入文本控制功能 用户可通过输入Prompt对视频画面个性化调整 实现主体运动和背景变化多样化 例如上传人物弹钢琴照片 歌曲和描述文字可生成完整钢琴演奏视频 [2] 技术架构与创新 - 模型基于视频生成基础模型 结合文本引导全局运动控制和音频驱动细粒度局部运动 实现复杂场景下音频驱动视频高效生成 [3] - 采用AdaIN和CrossAttention两种控制机制 实现更准确动态的音频控制效果 通过层次化帧压缩技术将历史参考帧长度拓展至73帧 保障长视频生成稳定性和高质量 [3] - 训练使用超过60万个片段的音视频数据集 通过混合并行训练进行全参数化训练 支持多分辨率训练与推理 适应竖屏短视频和横屏影视剧等不同场景需求 [3] 市场表现与开源生态 - 模型在Hugging Face和魔搭社区上架 用户可直接下载或通过官网体验 [1] - 自2月以来通义万相已开源文生视频 图生视频和首尾帧生视频等多款模型 下载量超2000万次 成为开源社区最受欢迎视频生成模型之一 [4] - 实测显示Wan2 2-S2V在视频质量 表情真实度和身份一致性等核心指标上取得同类模型最佳成绩 [4]
多模态视频生成模型通义万相“Wan2.2-S2V”正式开源
第一财经· 2025-08-26 21:57
公司技术发布 - 全新多模态视频生成模型通义万相"Wan2.2-S2V"正式开源 [2] - 模型仅需一张静态图片和一段音频即可生成电影级数字人视频 [2] - 生成视频具有面部表情自然 口型一致 肢体动作丝滑的特点 [2] - 模型单次生成的视频时长可达分钟级 [2] - 模型已在通义万相官网上线 [2] 行业应用影响 - 模型大幅提升数字人直播行业的视频创作效率 [2] - 模型大幅提升影视制作行业的视频创作效率 [2] - 模型大幅提升AI教育等行业的视频创作效率 [2]
腾讯混元推出全新多模态视频生成工具 现已开源并上线官网
搜狐财经· 2025-05-10 22:48
腾讯混元推出多模态视频生成工具Hunyuan Custom - 腾讯混元于5月9日正式推出并开源全新多模态定制化视频生成工具Hunyuan Custom [1] - 该工具基于混元视频生成大模型Hunyuan Video打造 [1] Hunyuan Custom的核心功能 - 具备强大的多模态融合能力,可同时处理文本、图像、音频、视频等多种输入形式 [3] - 相比传统视频生成模型,在生成质量和控制力方面有显著提升 [3] - 提供多种视频生成模式:单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑 [3] - 单主体生成能力已开源并在混元官网上线,其他能力将于5月内陆续开源 [3] 技术优势 - 突破传统模型在人物一致性和场景变换方面的限制 [3] - 单主体生成模式下,只需上传一张图片和文本描述即可生成连贯自然的视频内容 [3] - 支持多主体视频生成,让多个主体按要求出现在视频里 [3] 扩展应用场景 - 音频驱动模式下可生成数字人直播、虚拟客服、教育演示等场景的音视频同步效果 [4] - 视频驱动模式下支持将图片中的人物或物体自然地替换或插入到任意视频片段中 [4] - 适用于创意植入、场景扩展、视频重构与内容增强等应用 [4]
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 17:35
多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变,HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容,支持音频驱动让视频中人物"开口说话",支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块,在训练与推理阶段实现图像、语音、视频等模态的解耦控制,为多模态生成提供灵活接口 [6] - 在对比测试中,HunyuanCustom在主体一致性(0.627)方面显著领先其他模型,DINO-Sim得分达0.593,整体视频质量评分(DD)为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系,覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架,结合结构化标注和mask增强策略,提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线,用户可在"模型广场-图生视频-参考生视频"中体验,其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]
腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成
快讯· 2025-05-09 12:22
腾讯混元团队发布多模态视频生成工具 - 腾讯混元团队于5月9日发布并开源多模态定制化视频生成工具HunyuanCustom [1] - 该工具基于混元视频生成大模型(HunyuanVideo)打造 [1] - 在主体一致性效果方面超过现有开源方案,可媲美顶尖闭源模型 [1] HunyuanCustom技术特点 - 融合文本、图像、音频、视频等多模态输入生成视频的能力 [1] - 具备高度控制力和生成质量的智能视频创作工具 [1]
快手-W:看好快手可灵卡位,多模态视频生成全球领先-20250317
东方证券· 2025-03-16 16:23
报告公司投资评级 - 维持“买入”评级,目标价 75.96 港元/股 [4][5][69] 报告的核心观点 - 多模态视频生产工具带动内容生态新周期可期,快手(可灵)卡位和领先优势值得重视 [8] - 可灵技术目前全球 TOP3(国内 TOP1),尤其在核心评价指标上属全球领先卡位 [8] - 快手可灵能持续领先,原因在于技术能力强、战略重视、资源倾斜、组织架构稳定统一以及高质量视频语料库 [8] - 用户端表现和商业化进展可侧面验证可灵实力,建议持续跟踪边际变化 [8] - 社区流量稳健,商业化、电商业务稳步推进,目前估值处于中位偏低,2025 年基本面稳健,提供较好安全边际 [8] 根据相关目录分别进行总结 前言:多模态视频生产工具打开新周期内容生态方式 - 技术平权趋势下内容创作门槛下降,带来内容社区生态繁荣和多元变现模式 [14][15][16] - 多模态视频生成技术进步将降低内容创作门槛,形成下一代内容生态,快手(可灵)卡位和领先优势值得重视 [17] - 可灵若持续领先,有望带领快手经历 PUGC 用户工具产品、平台多场景赋能、新流量平台三阶段 [19] 一、视频生成模型进入高速发展期,可灵、Sora、Veo2 综合实力领先 1.1 视频生成模型以 DiT 为主流架构,以快手为代表的国内厂商快速取得技术突破 - 视频生成模型以 DiT 为主流架构,发展迅速,快手可灵等采用该架构 [22] - Sora 发布后国内厂商迅速追赶,快手 4 个月后上线可灵并快速迭代 [23] - 现有厂商中,Tier1 为谷歌 Veo2、OpenAI Sora、快手可灵等,视觉质量和精确控制是核心指标,可灵在这两维度领先 [26][27][31] 1.2 现为视频多模态阶段一,除技术外,可跟踪产品和商业化边际变化 - 24 年主流产品快速迭代,快手迭代速度领先,预期 2025 年产品迭代加快,可灵有望持续领先 [33] - 视频生成产品访问量快速增长,海螺、可灵、Sora 领先,但与 Top AI 产品访问量量级有差距,行业商业化处于早期阶段 [37][38][44] - 目前商业化以工具属性收费为主,未来随着技术进步和成本降低,商业模式会变化,或出现变现更高的模式 [44][45] 二、快手可灵领先地位,期待多模态视频进一步发展 2.1 技术基因不容小觑,可灵持续领先下有望顺利转型 AIGC 内容社区 - 快手早期凭借 GIF 动图制作技术转型短视频社区,可灵可能帮助快手从移动互联网时代转型 AIGC 内容社区 [49] 2.2 快手战略聚焦+组织架构统一协调,带来高效执行贯彻 - 快手将文生视频模型提到战略级地位,算力和卡全力支持可灵,组织架构稳定统一,决策顺畅,执行力高 [51] - 可灵核心团队经验丰富、技术过硬,核心骨干包括万鹏飞、Xin Tao 等人 [52] 2.3 国内短视频数据具备优势,可灵有望持续领先 - 快手数据量和质量有优势,每天超 4000 万条新视频上传,且对视频进行清晰标注,视频数据资源是拉开迭代差距的重要因素 [54] 三、公司流量稳健,基本面稳定,提供较好安全边际 - 快手流量稳健,MAU、DAU 保持增长,DAU/MAU 稳定,单 DAU 日均时长在 132 分钟 [58] - 25 年预计电商 GMV 增速 13.5%,收入增速 10.9%,在线营销服务、其他业务、直播收入分别为 841/204/365 亿,同比分别变动 15.6%/16.1%/-1.0%,总收入 1410 亿元,同比增长 10.9% [64] - 预计 2025 年毛利率提升到 56.5%,Non - GAAP 净利润为 201 亿 [66] 投资建议 - 持续关注视频生成模型技术迭代和可灵竞争优势,关注 AI 对主业赋能,采用 PE 估值法,维持 25 年 15xPE 估值,对应合理价值 3017 亿 CNY,折合 3269 亿 HKD,目标价 75.96 港元/股,维持“买入”评级 [4][68][69]