AI 视频生成
搜索文档
14B规模竟也能单卡实时生成视频?多亏这个强大的开源底座
机器之心· 2026-03-07 12:20
行业技术趋势 - 春节期间Seedance 2.0爆火,再次将视频生成推上风口[1] - AI视频生成社区共识正愈发清晰:SOTA视频生成能力正快速向以Diffusion Transformer(DiT)为核心的统一范式收敛,模型比拼从基础画质堆料转向更高层级的语义理解深度与多模态协同效率[6] - 视频生成领域正迎来属于自己的“视觉版LLaMA时刻”,一个高性能、低成本且自主可控的视频大模型底座正加速演化为产业侧可复用的视频生成基础设施[13][14] 字节跳动Helios模型 - 字节跳动携手北大、安努智能和Canva共同开源了具备实时生成能力的视频模型Helios家族,包含Helios-Base、Helios-Mid与Helios-Distilled三个版本,全面覆盖T2V、I2V、V2V及交互式生成任务[1] - Helios模型以14B参数量实现高达19.5 FPS的单卡生成速度,做到了“质量”与“速度”齐飞[1] - 项目发布首日即实现对昇腾NPU的Day-0级别支持,并同步兼容Diffusers、vLLM-Omni、SGLang-Diffusion等主流推理框架[2] - Helios成功登顶Hugging Face Daily Papers,在GitHub上发布一两天后star数已超过520[3] - Helios模型的核心开发团队是北京大学袁粒课题组,该模型与团队之前开源的Open-Sora Plan(OSP)项目技术栈高度同源,与UniWorld-OSP2.0存在三分之一到二分之一的代码复用[3] - Helios是对其核心技术的一次有效验证,性能比OSP团队此前基于UniWorld-OSP2.0开发的OSP-RealTime 14B更胜一筹[4] 北京大学UniWorld-OSP2.0模型 - Open-Sora Plan团队推出的UniWorld-OSP2.0是业界首个开源的超百亿级(21B)视频生成大模型,也是首个实现“双原生”(昇腾原生及自回归+Diffusion混合架构)统一范式的大模型体系[6] - 在VBench-I2V基准测试中,UniWorld-OSP2.0在多项关键指标上表现优越,其整体表现已稳步进入开源阵营第一梯队[9] - 具体在VBench-I2V基准上,UniWorld-OSP2.0(14B)在主体一致性(96.21)、背景一致性(97.71)、运动平滑度(98.47)、动态程度(46.10)、美学成像质量(66.55)等指标上超越Wan2.1等模型[10] - Open-Sora Plan项目已累计获得约1.2万GitHub star和千万级下载量,多次登上Trending榜单,在实际代码活跃度上进入开源视频模型第一梯队[11] - 目前已有包括字节、腾讯WXG、阿里达摩院、小红书、哔哩哔哩等多家团队基于该框架展开二次开发,海外多家AI公司亦同步跟进[14] - 团队宣布将进一步开源12类风格化数据集及完整模型权重[14] UniWorld-OSP2.0技术架构与创新 - 整体架构由三大核心组件构成:因果变分自编码器(Causal VAE)、VLM增强的多模态条件模块、以及扩散Transformer(DiT)主干网络,这套“VAE+VLM+DiT”架构构成了其强大性能的基石[19] - 一大核心技术优势是FlashI2V机制,旨在解决图像生成视频(I2V)中的“条件图像泄漏”问题,该问题会导致生成视频动作僵硬或画面崩坏[20][21] - FlashI2V通过两个关键设计协同发力:潜空间偏移(Latent Shifting),通过修改流匹配分布隐式整合条件图像信息,减少去噪器过度依赖;傅里叶引导(Fourier Guidance),通过傅里叶变换提取图像高频特征以校准细节[27] - FlashI2V使得模型在多项I2V关键指标上成功超越了Wan2.1,并取得了最低的域外FVD[30] - 两大主要创新:一是引入冻结的预训练VLM(如7B参数的Qwen2.5-VL)作为多模态特征提取器,并通过轻量级Adapter与DiT对齐,大幅提升对细粒度信息的控制精度[33][34][35][36];二是推出I2SV(图像到风格化视频)范式,构建了包含12种典型艺术风格的数据集,实现一步输出时间连续且符合语义的风格化视频[38][40] - 在MMMU、MM-vet等视觉理解基准测试中,具备VLM加持的UniWorld-OSP2.0取得了优秀成绩(如MMMU 58.6, MM-vet 67.1)[37] OSP-RealTime 14B与实时生成 - 袁粒课题组基于UniWorld-OSP2.0训练了OSP-RealTime 14B模型(Helios系列底层的核心技术),在单块昇腾Atlas A3系列产品上把文生视频帧率拉到了10 FPS,成为第一个真正接近“交互式视频生成”的开源级扩散架构[42] - OSP-RealTime 14B将长视频生成重新定义为无限的视频续写任务,通过时间维噪声latent的拼接策略,在窗口切换时保持运动连续性,实现时间上的无限延展[43][44] - 在生成加速上做了三个关键优化:将噪声latent的帧数从21帧降到9帧,实现平方级算力节省;采用多尺度分辨率策略,先低分辨率生成大结构再逐步细化;通过DMD蒸馏将扩散推理步数从50步压缩到4步[47] - 工程优化包括:采用特征缓存方案(Latents Cache),预计算并存储引导词特征,使多轮迭代训练时间缩短约30%,并释放20%的显存资源;模型全程在昇腾Atlas A3系列产品上完成训练与推理,深度融合了MindSpeed-MM套件的分布式训练等原生特性[49] - OSP-RealTime 14B让14B参数规模的模型进入实时区间,为互动视频、生成式游戏场景、实时虚拟世界等应用提供了算力基础[50] 生态与产业意义 - 支撑OSP系列项目的算力引擎指向了一套庞大的国产化算力生态——鲲鹏与昇腾算力[7] - 北京大学鲲鹏昇腾科教创新卓越中心的赋能和算力支持,使这些开源项目得以成为现实[6] - UniWorld-OSP2.0在昇腾算力平台上跑通了工业级视频生成闭环,依托昇腾底座定义了视频生成的“公共基础设施”[52] - 该项目为以昇腾为核心的国产智算生态提供了一份高价值的工程落地手册,解决了底层通信算子的精度误差与非并行切分层的推理崩溃隐患,开发者无需从零训练高耗能组件即可获得成熟工具链[52]
Seedance2.0和人形机器人春晚出圈
东吴证券· 2026-02-23 22:02
核心观点 - 全球AI产业在算力、模型与应用三端协同推进,正为AI视频生成技术规模化扩张与人形机器人现实落地夯实基础,算力集中与模型效率优化正加速推动AI视频内容工业化与人形机器人场景化落地 [2] - AI应用正由技术展示阶段迈向高强度场景检验阶段,内容生成与实体执行两条路径同步进入商业化前验证周期,其中春晚的AI应用实战或成为本轮春季躁动行情的核心催化 [5][6] 算力与基础设施 - **全球AI产业出现超大规模资本开支与全球化布局**:海外方面,OpenAI提出到2030年实现约6000亿美元算力支出,并启动规模或超1000亿美元融资;谷歌宣布在印度投资150亿美元基础设施,OpenAI携手塔塔建设1000兆瓦级数据中心 [3] - **国内算力生态协同加强**:月之暗面完成超12亿美元融资并启动新一轮百亿美元估值融资,获得阿里、腾讯等互联网巨头联合加持,显示生态协同将成为竞争关键 [3] 模型技术演进 - **模型发展转向“架构效率优化”与“性价比”竞争**:阿里开源新一代Qwen3.5-Plus,实现从纯文本到原生多模态统一建模的跃迁,其token价格仅为竞品Gemini 3的1/18;Anthropic发布Claude Sonnet 4.6,在维持中端定价下实现接近旗舰模型的智能水平 [4] - **技术向高效化、平价化与端侧化演进**:科研层面,清华、北大与维信诺联合发布柔性存算一体芯片FLEXI,实现可弯曲硬件上的本地AI推理,拓展端侧计算形态 [5] 应用场景验证与产业化 - **AI视频生成完成高规格实战检验**:Seedance 2.0大模型以央视春晚为首个公开应用场景完成首秀,深度参与《贺花神》、《驭风歌》等节目视觉制作,支撑“AI生成影像+实景舞台扩展”模式,验证了国产视频生成模型在文化内容创作领域的产业化潜力 [4][5] - **人形机器人从“舞台炫技”转向真实任务验证**:火山引擎与豆包等平台深度参与春晚合作,松延动力仿生机器人实现口型帧级同步,宇树机器人展示高动态协同控制能力,表明机器人正走向“能干活”的真实场景验证 [5] 市场表现与数据跟踪 - **美国主要科技股周度表现分化**:在2026年2月16日至20日期间,英伟达周涨跌幅为3.83%,亚马逊为5.69%,而微软周涨跌幅为-0.79%,特斯拉为-1.35% [8] - **主要科技指数收益表现**:报告期内展示了纳斯达克指数、恒生科技、创业板指、科创50等指数的归一化收益表现 [10][11] 人工智能产业链投资线索 - **人形机器人进入规模化量产元年**:特斯拉Optimus迭代顺利,预计2026年开启大规模量产,供应链进入缩圈状态,确定性方向关注Tier1、丝杠、减速机等环节,弹性标的关注灵巧手、电机、轻量化等技术迭代与降本方向 [14] - **AI算力建设催生多元投资机会**:报告梳理了包括AIDC发电(燃气轮机、内燃机等)、AI营销(千亿级市场)、钻针(AI算力建设)、钨制品、ASIC芯片、高速铜连接、液冷服务器、HBM等在内的多个细分赛道及相关标的 [7][14][15]
AI 视频生成时代,留给人类的只有演技?
机器之心· 2026-01-17 14:21
行业技术突破 - AI视频生成技术已实现实时、高精度的角色替换,仅需一张参考照片即可在视频中“扮演”目标人物,效果逼真且与背景无割裂感[3][4] - 核心技术突破之一是快手推出的Kling 2.6 Motion Control Pro,能够精准控制长达30秒的肢体动作和面部表情,实现“角色替换”[8][9] - 技术进步显著,唇形同步、眨眼及微表情模拟更加自然,足以达到以假乱真的程度,不同模型在物理效果模拟(如Sora 2)和运动真实性(如Kling)方面各有专长[16] 应用场景与影响 - 技术应用已从专业影视制作下沉至个人用户,以前需要专业团队、摄影棚和灯光道具的镜头,现在仅需一部手机和一个AI工具即可完成[9] - 该技术正催生“虚拟网红”和AI直播等新业态,个人用户可在家中低成本实现“一人分饰多角”,制作出唇部同步完美、微表情和肢体语言高度一致的视频内容[5][11][12][13] - 技术对好莱坞等传统内容制作行业产生直接而重大的影响,可实现角色的无限替换且成本几乎可以忽略不计,引发行业变革讨论[6][8] 市场与产品现状 - 市场上已出现一系列可实现实时AI换脸或基于静态图片生成视频的工具,包括Kling 2.6、Deep-Live-Cam、DeepFaceLive、Swapface、SwapStream、VidMage和Video Face Swap AI等[15] - 相关工具价格日益亲民,每月费用在10美元到40美元之间,降低了使用门槛[16] - 基于此类技术生成的视频在社交媒体上传播广泛,单个视频动辄获得超百万播放量,显示出巨大的市场关注度和用户兴趣[7] 未来趋势 - 随着AI视频生成技术的持续进步,许多前所未有的创意和想法将得以实现,内容创作的门槛和形式将被重塑[18] - 在视频内容领域,建模质量的重要性可能下降,内容的流行度将更取决于创意和“整活”能力[17]
告别抽卡!一手实测字节刚放出的视频模型Seedance 1.5 pro
机器之心· 2025-12-18 17:08
产品发布与核心升级 - 火山引擎在2025年冬季FORCE原动力大会上正式发布了新一代豆包视频生成模型「Seedance 1.5 pro」[2] - 该模型最大更新在于实现了原生音画高精同步,覆盖环境音、动作音、合成音、乐器音、背景音乐及人声等全场景,音画同步率全球领先[5] - 模型能够更好地遵循复杂指令,支持更多外国语言与中文方言的自然对白,更精准地捕捉运动细节,叙事理解与连贯性更强,人物情绪与表情呈现也更加细腻[5] 技术性能与评估 - 在视频能力评估中,Seedance 1.5 pro在文本生成视频的对齐度指标上取得领先,并在其他多项指标上位居前列[6] - 在音频能力评估中,Seedance 1.5 pro在生成质量、同步性、对齐度、表现力等多项指标上全方位超越谷歌Veo 3.1和昆仑万维Kling 2.6[6] - 相较于前代Seedance 1.0 pro,新版本完成了从视频生成模型到原生音视频联合生成基础模型的跃迁[54] 核心功能与实测表现 - 模型支持中文、英文、小语种及16种中文方言,包括陕西话、四川话、东北话、台湾腔、闽南语、粤语等[13][14] - 能够生成多人多语言对白视频,实现口型毫秒级精准对齐,对话语气、气口和语调自然[13][25] - 在影视级叙事张力上表现突出,能根据单张图像生成细腻的多种人物情绪表情,如开怀大笑、愤怒、悲伤、疲惫等[31][32][33] - 擅长处理复杂动态场景,如赛车疾驰、战争场面、第一人称追逐戏,运动幅度大且流畅,能精准捕捉多层次运动元素和环境音效[35][37][38] - 具备商业广告制作潜力,能严格遵循长而复杂的提示词,处理复杂空间变化,精准还原极简风格、科技感等抽象概念和品牌调性[40][41] 技术架构与创新 - Seedance 1.5 Pro在架构层面原生支持音视频联合生成,包括文本到音视频生成和基于图像引导的音视频生成[47] - 关键技术融合了统一的多模态联合生成架构、全面的音视频数据框架、精细化的后训练优化策略和高效的推理加速方案[49] - 在框架层面,提出基于MMDiT架构的统一建模框架,支持跨模态深度交互,确保视听信号时间精准同步与语义高度一致[50] - 在数据层面,构建了以实现音画一致、运动表现力为核心目标的高质量音视频数据框架[51] - 在后训练阶段,引入了为音视频场景定制的基于人类反馈的强化学习算法,使训练速度提升近三倍[52] - 在推理阶段,通过优化蒸馏框架和基础设施,在保持性能前提下实现了10倍以上的端到端推理加速[52] 产品可用性与稳定性 - Seedance 1.5 pro已上线火山方舟体验中心,预计12月23日通过火山引擎为企业用户提供API,个人用户可通过即梦网页版和豆包App使用[8] - 模型表现出极高的指令遵循度,基本不需要用户反复“抽卡”式生成,首次生成的视频效果往往最佳[43] - 对于日常内容创作、轻量级商业广告以及AI短剧制作,Seedance 1.5 Pro被认为完全够用[44] 行业意义与发展阶段 - Seedance 1.5 pro的发布是自2024年初Sora亮相以来,视频生成领域快速演进的一个缩影[58] - 行业技术已从“人类直觉可接受”阶段,开始真正迈向“创作级、生产级”阶段,使小团队能完成过去需影视工作室完成的内容[59] - 新版本在补全模型能力的同时,加快了体系化竞争的步伐,持续缩小模型输出与真实视频制作需求之间的差距[59] - 业界对视频生成领域有更高期待,例如马斯克希望其模型Grok能在2026年底前产出至少能看的电影[60] - 预计未来,视频生成大模型将以更成熟的方式参与从创意生成到内容制作的全过程,使用比重和承担角色将继续提升[61]
奈飞收购华纳兄弟,快手发布可灵o1
太平洋证券· 2025-12-07 22:42
报告行业投资评级 - 影视子行业评级为“看好” [3] 报告核心观点 - 奈飞收购华纳兄弟将拓展其内容制作能力并扩充IP资产,有望推动其付费用户持续增长,同时其线下乐园业务也有望借助华纳兄弟经典IP实现多样化发展 [3][5] - AI视频生成模型在一致性、可控性等方面持续迭代突破,有望推动电商、广告营销、影视等领域的AI应用落地 [5] - 建议关注博纳影业等公司 [5] 一周行情回顾 - 上周(2025年12月01日至12月07日)上证综指、深证成指、创业板指涨跌幅分别为0.37%、1.26%、1.86%,而传媒指数(中信)下跌3.59% [10] - 上周传媒互联网板块涨幅前十的个股中,联建光电周涨28.62%,博纳影业周涨23.60%,迅游科技周涨10.76% [12][13] - 上周传媒互联网板块跌幅前五的个股中,荣信文化周跌15.23%,蓝色光标周跌13.98%,掌阅科技周跌13.30% [14][15] 行业运行数据 游戏 - 2025年10月中国游戏市场实际销售收入为313.59亿元,同比增长7.83% [15] - 2025年12月06日,iOS国内畅销榜排名前三的手游为《王者荣耀》、《金铲铲之战》、《三角洲行动》 [15][17] - 2025年10月微信小游戏买量投放排名前三的游戏为《寻道大千》、《无尽冬日》、《向僵尸开炮》 [18][19] AI - 2025年11月全球AI产品应用MAU排名前三为:ChatGPT(7.76亿)、豆包(1.68亿)、夸克(1.52亿) [20][21] - 2025年11月国内AI产品应用MAU排名前三为:豆包(1.68亿)、夸克(1.52亿)、百度网盘(1.43亿) [22][23] 电影 - 2025年至今内地电影总票房为491亿元 [24] - 2025年12月05日单日票房为1.57亿元,票房前三影片为《疯狂动物城》(日票房1.39亿元)、《鬼灭之刃:无限城篇》(日票房523万元)、《猎杀游戏》(日票房195万元) [24][25] 电视剧 - 2025年12月04日CSM71城省级卫视黄金剧场电视剧收视率排名第一为上海东方卫视《四喜》(收视率1.835%) [26][27] - 截至2025年12月05日,电视剧集播映指数排名第一为《枭起青壤》(播映指数80.71) [30][31] 综艺节目 - 截至2025年12月05日,综艺节目播映指数排名第一为《喜人奇妙夜第二季》(播映指数80.40) [32][33] 直播电商 - 2025年11月24日至11月30日,抖音直播主播销售额排名第一为“与辉同行”(销售额1亿+) [34][35] 广告营销 - 2025年上半年全国户外广告投放刊例花费为1206亿元,同比增长6% [35][36] 重点公司重要公告速览 - **吉比特**:制定未来三年股东回报规划,原则上每年进行三次利润分配,现金分红比例不低于年度归母净利润的50% [38] - **世纪华通**:回购股份约5612万股,成交总金额约9.99亿元;同时拟将此前回购的128万股股份注销以减少注册资本 [38] - **新媒股份**:拟每10股派发现金11元(含税),总计约2.51亿元;特定股东计划减持公司股份约25万股 [38] - **电魂网络**:公司董事、副总经理计划减持公司股份不超过约244万股 [38] 行业要闻 AI - **海外**:Runaway发布最新视频模型Gen-4.5,在文本转视频基准测试中获得1247 Elo评分,达到SOTA水平 [40];Mistral AI发布Mistral 3系列模型,其中Mistral Large 3总参数量达6750亿 [41] - **国内**:DeepSeek发布DeepSeek V3.2正式版模型,推理能力达到GPT-5水平 [42];快手发布全球首个统一多模态视频模型“可灵AI视频o1” [43]及“可灵图片o1”模型 [44];字节发布豆包Seedream 4.5模型,提升生图和P图能力 [45];腾讯发布自研大模型混元2.0,总参数量4060亿 [46] 游戏 - 腾讯游戏《洛克王国:世界》定档2026年3月26日 [47] - 吉比特游戏《九牧之野》公测定档2025年12月18日,全平台预约量已突破100万 [48]
9月板块热度延续,关注三季度业绩兑现
2025-10-22 22:56
行业与公司 * 纪要主要涉及传媒行业 特别是游戏 影视 长视频 综艺以及AI多模态技术应用等领域[1] * 涉及的公司包括游戏公司如吉比特 世纪华通 网易 三七互娱 心动网络 恺英网络 完美世界 巨人网络[3] 影视公司如中影 光线传媒 上海电影 万达[6] 长视频平台如爱奇艺 芒果TV 腾讯视频 优酷[6][8][12] 以及AI技术公司如快手 阅文集团[4][21] 游戏板块核心观点与论据 * 游戏板块在6月版号释放和暑期档优异表现后曾大幅上涨 但节后因三季度业绩预期分化出现调整[1][2] 例如吉比特业绩预告不及市场乐观预期导致调整[3] * 当前板块估值处于明年15倍水平 预计年底有估值切换行情 头部公司估值或达25倍[1][3] 市场未来将更偏好拥有长青产品和清晰产品线的公司[1][3] * 游戏板块长期方向是游戏长青化 全球化 关注稳健流水和利润支撑的公司[2][15] 三季度季报分化是核心关注点 需关注已有产品延续性与新产品进展[2][15] * 用户情绪消费力提升 游戏设计需满足细分需求与兼顾广泛用户群体[2][15] 圈层分化深化 UGC玩法 女性向融合类玩法发展[15] * 上半年国内游戏市场规模增速约为14% 下半年因基数原因可能稍有下降[3] 影视与线下娱乐核心观点与论据 * 三季度影视行业表现平淡[1][5] 9月电影票房同比提升 但国庆档因头部影片欠缺票房同比下滑14%[5][6] * 年末及明年春节档有多部重点影片值得关注 如《即兴谋杀》 《疯狂动物城2》 《阿凡达》 《熊出没》等[6] * 大型演唱会票房同比增长9.8% 观影人次增长15.5% 场次增长9.6% 但中长期受艺人供给和场馆利用率限制增速平稳[6] * 电影公司三季度业绩前瞻显示 中影 光线传媒和上海电影等受益于主投影片票房弹性及衍生品收入增长[1][6] 预计万达利润约1.85亿 光线传媒净利润约1亿 上影利润约1.1亿[6] * 今年全国大盘票房预期维持490亿元水平[6] 长视频与综艺市场核心观点与论据 * 三季度国产剧上新数量同比增加7部至73部 但前20长剧有效播放量同比缩减约10%[7][8] 市场整体流量面临压力[8] * 三季度综艺前20有效播放量同比增长30%[7][9] 芒果TV在综艺方面保持领先地位 并在生活 游戏和喜剧题材上占据优势[1][9] * 爱奇艺三季度剧集市占率环比提升至35.3% 受益于《生万物》等独播剧[8] 各平台月度活跃用户数同比均有所回落[6] * 长视频行业内容创新是重点 政策为创新提供友好环境[2][11] 短期看积压剧释放及审核周期缩短促资金周转 中期加强"编导中心制" 长期通过系列化开发加强IP价值挖掘[11] * 广电总局818新规将剧集分类变更 显示对业态创新支持 8月备案公示剔除网络故事片后共有88部 相比7月77部有所提升[10] AI多模态技术进展与应用核心观点与论据 * AI视频生成领域取得显著进展 如Sovit发布带来更新[1][4] 工具提升影视生产效率 可能重构影视工业全流程[4] * ToC端改变用户生成和消费视频内容的方式 ToB端拓展影视制作能力[1][4] AI视频领域正从工具属性向生态构建发展[2][17] * B端技术在生成长度延展 物理规律模拟和生产流程革命方面取得进步[2][19] AI工具融入工作流支持多人协作 虚拟演员和数字替身等创新逐步应用[19] * 底层基建方面 内容生产升维至AGI实验田 Sora二代因物理真实性高被视为数据模型基础 多模态技术同步发展[20] * 重点关注布局多模态模型的大厂(如快手)和拥有高质量垂直模型并有实际应用场景的公司(如阅文集团在AI漫剧的应用)[4][21] 平台业绩预期与内容储备 * 爱奇艺预计11月18日发布三季度业绩 暑期档重点内容有望带动会员收入及内容成本环比增加 但净利润仍面临压力[13] * 芒果超媒预计10月24日发布三季度业绩 短期内容成本对毛利率产生负向影响 三季度利润预估约为3亿元左右[14] * 各大平台四季度至明年初有重点内容储备 如爱奇艺的《唐朝诡事录之长安天地》 腾讯视频的《造成者》 芒果TV的《水龙吟》 优酷的《新闻女王2》等[12] 其他重要内容 * 即时零售战争激烈 预计分众传媒环比业绩会有明显改善[5] * Sora APP的推出升级了社交互动模式 从传统图文交互提升到具身化社交 允许用户生成高保真数字分身并进行跨场景互动[18]
计算机行业“一周解码”:政策东风助推智驾崛起
中银国际· 2025-10-20 13:11
行业投资评级 - 计算机行业评级为“强于大市” [1][39] 报告核心观点 - 政策东风助推智驾崛起,智能驾驶基础设施迎来建设机遇 [1][14][16] - eSIM全国试商用开启“无卡时代”,加速智能终端与通信生态革新 [1][11][13] - 优必选人形机器人连续获得大额订单,标志具身智能进入规模化落地阶段 [1][17][19] - 谷歌发布Veo 3.1模型,AI视频生成进入“音画一体化”新阶段 [1][21][23] 重点关注事件总结 eSIM技术推广 - 三大运营商获批开展eSIM手机商用试验,推动通信“无卡化” [1][11] - eSIM技术可节省手机内部空间,使设计更轻薄,并提升防尘防水能力 [11] - 中国联通自2018年推出eSIM可穿戴业务,已累计适配终端75款,服务用户数百万 [12] - 苹果iPhone Air全面采用eSIM制式,对安卓阵营产生示范效应 [12][13] - 相关企业包括美格智能、新恒汇、广和通等 [6] 智能驾驶政策支持 - 住建部等9部门发布行动方案(2025-2027年),推动车路协同设施建设 [14][16] - 方案明确提出推进以智慧多功能杆为载体的路侧感知系统和城市云平台建设 [14] - 政策旨在推动智能驾驶从“单车智能”迈向“车路云一体化”的体系化发展 [16] - 相关企业包括光庭信息、千方科技、四维图新、中科创达等 [4][6] 人形机器人产业进展 - 优必选继9月获得全球单笔最大订单后,再签3200万元采购合同 [1][17] - 截至目前,优必选Walker系列人形机器人已获得近5亿元合同 [17] - 优必选上半年实现营收6.21亿元,同比增长27.5%;研发费用2.18亿元,占营收35.1% [18] - 新款Walker S2搭载自主换电技术,可实现7×24小时不间断作业 [18] - 相关企业包括润和软件、智微智能、创耀科技等 [6] AI视频技术升级 - 谷歌发布Veo 3.1模型,新增原生音频生成功能,实现音画同步生成 [21][23] - 新模型提升了提示词遵循度,并支持将视频延展至30秒甚至1分钟以上 [21] - 由其驱动的Flow平台已生成超过2.75亿个视频 [22] - Veo 3.1标志着AI视频从“视觉生成”迈向“多模态叙事”的进化 [23] - 相关企业包括万兴科技、当虹科技、昆仑万维等 [6] 行业新闻动态 芯片及服务器 - OpenAI与博通计划于2026年推出定制数据中心芯片 [24] - 甲骨文与AMD深化合作,OCI将于2026年第三季度开始部署5万枚AMD GPU [24] - 上海市印发行动方案,强调提升智能算力终端规模,牵引自主GPU等核心部件应用 [24] - 英伟达公布NVIDIA Vera Rubin NVL144服务器技术规格 [24] 云计算 - 明蔚京西云计算数据中心1-5号机房楼已建成投运 [25] - 谷歌计划在印度投资100亿美元建设大型数据中心和AI中心 [25] - OpenAI计划在阿根廷建设数据中心枢纽,投资额最高可达250亿美元 [25] 人工智能 - 三星、谷歌与高通联合打造的安卓XR头显“Project Moohan”将于下周发布 [26] - 商汤科技与寒武纪签署战略合作协议,围绕国产化AI基础设施构建等方向合作 [26] - 沃尔玛与OpenAI合作,推出基于ChatGPT的购物功能 [26] - 贝莱德、微软和英伟达等组成的财团将以约400亿美元收购数据中心运营商Aligned [26] 工业互联网 - 工信部总工程师表示将实施工业互联网和人工智能双向赋能行动,发展工业智能体 [29] - 工信部等七部门印发方案,深化“5G+工业互联网”融合创新和规模化应用 [29] - 山东省上线全国首个省级工业互联网安全公共服务平台 [29] 公司动态摘要 - 广电运通控股子公司运通智能进行股份制改造 [3][30] - 创业黑马涉及诉讼,涉案金额23,711,178.08元,暂无法预计对利润影响 [3][31] - 经纬恒润首发限售股21,474,504股于2025年10月20日上市流通 [31] - 浪潮信息完成增持计划,累计增持1,607,400股,增持金额10,048.69万元 [31]
Sora2与SoraAPP重磅发布,AI视频的“GPT-3.5时刻”
海通国际证券· 2025-10-15 13:42
行业投资评级 - 报告看好国产算力及AI应用的长期发展空间,建议关注AI视频图像相关标的 [4] 核心观点 - OpenAI于2025年9月30日发布Sora App和Sora2模型,标志着AI技术从文本、图像进入高质量视频生成与社交应用新阶段 [4] - Sora2被官方誉为“视频领域的GPT-3.5时刻”,在物理运动、人物表演、一致性等方面取得重大突破 [4] - Sora App以“纯AI生成内容+强社交”为定位,通过Cameo和Remix功能重塑用户角色,使消费者转变为创作主体 [4] - 云服务商和数据中心运营商将直接受益于持续增长的算力需求 [4] 产品技术特点 - Sora2能精准还原物理规律,逼真模拟复杂运动如奥运会体操、桨板后空翻 [4] - 具备跨镜头一致性控制能力,支持多镜头切换下的场景连贯呈现 [4] - 拥有多模态协同能力,可同步生成环境音、对话音效,并实现人物口型与发音精准对齐 [4] - 当前版本局限包括视频长度固定为10秒、清晰度仅360P、不支持参数调节,复杂场景易出现面部模糊和中文文字生成错误 [4] 市场表现与定位 - Sora App率先登陆美区iOS平台,采用抖音式上下滑动交互界面,但完全剔除真人拍摄内容,仅保留AI创作素材 [4] - 发布后迅速攀升至美国免费应用排行榜第三位,国内市场出现邀请码倒卖现象 [4] - 平台采用非成瘾性推荐算法,设置青少年内容限额与家长控制功能,并通过邀请码分享机制快速构建社交网络 [4] 重点标的 - 报告列出AI视频图像相关重点标的,包括虹软科技、合合信息、金山办公等公司 [4] - 提供详细盈利预测表,涵盖各公司收盘价、总市值、EPS及PE数据,例如金山办公总市值达1465.96亿元,2025年预测EPS为4.03元 [5]
计算机行业“一周解码”:Sora带动AI应用预期,Figure03机器人将发布
中银国际· 2025-10-13 09:26
报告行业投资评级 - 计算机行业评级为“强于大市” [6] 报告核心观点 - AI视频生成与人形机器人是当前核心投资主线,技术迭代与商业化落地正在加速 [1][4] - OpenAI发布Sora 2.0模型,显著降低视频创作门槛,推动AI视频内容创作进入大众化应用时代 [1][11][12] - AMD与OpenAI达成大规模战略合作,计划部署6GW算力,合作规模达数百亿美元,标志着AI算力竞争格局生变 [1][15] - Figure 03即将发布,聚焦成本控制与量产,同时国内出现亿元级订单,表明具身智能产业迈入规模化发展新阶段 [1][18][19] 重点关注事件总结 OpenAI发布Sora 2.0 - Sora 2.0是OpenAI迄今最先进的视频生成模型,能以“高度逼真”的方式生成场景与声音,并推出iPhone应用 [11] - 其“客串”功能允许用户通过简短录制将自身形象融入AI生成的视频场景中 [11] - 应用上线后头两天在美国和加拿大获得16.4万次下载,市场潜力巨大 [12] - 2024年AI视频生成全球市场规模为6.15亿美元,预计2025年达7.17亿美元(同比增长17%),到2032年将达25.63亿美元(2025-2032年复合增速20%) [12] AMD与OpenAI战略合作 - 双方计划在未来数年内部署总计6GW的AMD Instinct系列GPU算力,合作规模预计达数百亿美元 [15] - 6GW算力相当于全球TOP500超级计算机总算力的3倍,可支撑OpenAI未来3年10万亿参数大模型的研发需求 [15] - 首批1GW算力部署成本约175亿美元,AMD将供应OpenAI数十万个AI芯片 [15] - OpenAI获得可购买最多1.6亿股AMD普通股的认股权证,若完全行权将持有AMD约10%的股份 [15] Figure 03发布与具身智能进展 - Figure 03在设计上有多项升级,包括集成触摸传感器的手掌摄像头、镂空足弓等,旨在改善操控与平衡能力 [18] - 研发重点聚焦“成本控制与大规模量产”,采用注塑成型等工艺,成本已降低约90% [18] - Figure计划未来四年内实现大规模部署,新工厂年产能达10万台机器人 [18] - 国内出现两笔亿元级订单:智元机器人获龙旗科技数亿元近千台订单;原力无限获时华文旅2.6亿元智慧景区项目订单 [19] 行业新闻动态总结 - **芯片及服务器**:芯原股份第三季度新签订单15.93亿元,同比增长145.80%,其中AI算力相关订单占比约65% [21] - **人工智能**:OpenAI员工股份交易估值达5000亿美元,使其成为全球最具价值初创公司;深圳市深创投成立规模15.5亿元的人工智能和具身机器人产业基金 [23] - **云计算**:谷歌计划未来两年在比利时追加投资50亿欧元扩展AI基础设施 [22] 公司动态总结 - **光洋股份**:拟共同投资设立总规模3亿元的机器人产业基金,其中公司出资1.5亿元,占50% [3][27] - **索辰科技**:全资子公司以7425万元收购昆宇蓝程55%股权,交易对方承诺标的公司2025-2027年净利润分别不低于1000万元、1200万元、1400万元 [3][28] 投资建议 - 报告建议关注AI视频生成和人形机器人方向的企业,包括万兴科技、当虹科技、杰创智能、索辰科技、科大讯飞、虹软科技等 [4]
快手-W(01024):OpenAI 发布 Sora APP,AIGC 需求加速增长
国信证券· 2025-10-08 22:46
投资评级 - 对快手-W(01024 HK)的投资评级为“优于大市”,且为维持评级 [2][7] 核心观点 - OpenAI发布新一代视频生成模型Sora 2及同名社交应用Sora APP,推动AI视频生成技术从实验性工具迈向大众化应用,有望加速AI视频的商业化落地 [4][6] - Sora 2作为“世界模拟器”升级版,在图像分辨率、风格操控和指令遵循方面有突破,整合音视频同步生成技术,并显著提升物理仿真精度 [4] - Sora APP构建了集创作、分发、互动于一体的AI原生社交生态,采用类似TikTok的竖屏短视频信息流界面,其“客串”和“二创”功能有望重塑短视频生态 [4][5] - 在仅限美加地区邀请制的情况下,Sora的iOS应用在9月30日和10月1日上线后头两天内总计获得16.4万次下载,并迅速攀升至美国App Store总排行榜第三位 [4] - 根据Artificial Analysis榜单(未更新Sora2),快手可灵Kling 2.5 Turbo在全球文生视频模型中排名第一,ELO得分为1,246分 [10] - 报告建议关注AI视频相关公司快手,认为其可灵在AI视频领域领先,且Sora2的出现有望拉平其他短视频平台与抖音的内容差距,重塑内容和UGC生态 [6] 行业与公司分析 - Sora2社交互动有三大支柱:“客串”功能可创建用户数字分身并嵌入AI生成场景,有望开创IP变现新模式;“二创”功能支持对视频内容解构与重组,激发社区创作活力;类TikTok的社交信息流形成创作、消费和社交互动的闭环生态 [5] - 在文生视频全球模型排名中,快手Kling 2.5 Turbo位列第一,领先于谷歌Veo 3、Luma Ray 3、MiniMax Hailuo 02、阿里巴巴Wan 2.5 Preview等模型 [10] - 在图生视频全球模型排名中,快手Kling 2.5 Turbo同样位列第一,ELO得分为1,325分 [15]