文生视频
搜索文档
公司问答丨云从科技:在文生视频与生成式人工智能(AIGC)领域 公司已开展相关布局
格隆汇APP· 2025-10-11 17:36
公司技术布局 - 公司在文生视频与生成式人工智能领域已开展相关布局,重点聚焦于AI驱动的虚拟数字人技术及平台建设 [1] - 公司推出的数字人产品"云月"已上线,融合了自主研发的语言、视觉及跨模态大模型等核心能力 [1] - 公司将持续跟踪Sora等新型视频生成技术的突破,并积极探索多模态技术在实际应用中的创新融合 [1] 产品应用场景 - 公司数字人产品及AIGC技术的应用场景涵盖虚拟直播、智能客服、动画内容及视频创作等 [1] - 数字人产品"云月"可实现数字人生成与多类型内容生产 [1]
巨头激战文生视频领域三大投资主线浮现
中国证券报· 2025-10-11 04:57
行业竞争态势 - OpenAI发布Sora App和Sora2模型,Sora App迅速攀升至美区iOS免费应用排行榜第三位,被定义为视频领域的GPT-3.5时刻,构建AI创作加社交互动的新生态 [1] - xAI推出Grok Imagine v0.9模型,支持从静态图像直接转化为动态视频并集成音效,是自7月v0.1版后的首次重大迭代,在视觉质量、运动流畅度和音频生成方面实现升级 [2] - 业内认为Grok Imagine v0.9的推出是战略性产品重塑,将直接对标并挑战OpenAI的Sora2,拉开全能型AI视频生成器竞争的序幕 [2] 技术突破与模型能力 - Sora2模型在物理运动、人物塑造等方面取得巨大突破,能精准还原复杂运动、具备跨镜头一致性控制能力以及多模态协同能力,可同步生成环境音和实现口型对齐 [2] - AI视频生成技术正由辅助创作迈向自主生成阶段,模型在时序连贯性、角色稳定性、光影控制及语义理解等方面持续突破 [2] - Sora2展示了文生视频模型性能提升远未达到上限,AI视频有望从业余娱乐创作向商业化创作拓展 [3] 市场表现与资本影响 - A股市场相关公司出现上涨,10月10日初灵信息大涨12.94%,开普云涨超4%,视觉中国、科大智能、海康威视等跟涨 [1] - OpenAI模型与产品持续迭代将助推OpenAI估值上涨,其带动的相关企业也有望受益 [3] - 文生视频的快速发展将带动算力和存储需求,有望提振相关领域的投资情绪 [3] 商业化应用与产业链影响 - 文生视频应用行业发展形成模型能力-用户场景-商业变现的完整链路,以数据飞轮加社交网络的双重护城河巩固领先地位 [1] - 随着算法能力与算力成本优化,影视、广告、游戏等行业将降本增效,创新的AI应用商业形态及产品有望涌现 [2] - AI让内容板块迎来生产新范式,数字营销板块、社区平台领域也值得关注,新供给将推动传媒走向智媒方向 [3] 投资主线与机会 - 投资主线一:受益于AI视频规模化落地,算力需求将呈现爆发与架构多元化趋势,带动单位算力需求曲线长期向上,建议围绕AI芯片及元器件-设备-绿电-运营四环节做超长周期配置 [4] - 投资主线二:AIoT推动智能终端从数据采集器向自主决策体跃迁,入口价值凸显,预计AR眼镜、人形机器人、AI手机三大品类2025年起将复制新能源汽车渗透率曲线进入快速放量期 [4] - 投资主线三:AI加视频成为拉动流量并快速变现的最佳赛道,C端流量爆发将反哺B端效率提升,带动金融、医疗、教育三大场景出现数据-模型-收入的飞轮效应 [4]
全球应用格局生变,Sora2开启的赛道藏着下一个巨头|AI产品榜·应用榜9月榜
36氪· 2025-10-09 21:35
AI行业发展趋势 - Sora2标志着AI从生产力工具正式迈入娱乐消费新阶段,其极低的文字生成视频门槛将带来用户规模的十倍增长[6][9] - 与抖音等传统内容平台不同,Sora2创造了一个纯粹的虚拟内容环境,所有内容均由AI生成,不能上传外部视频[11] - 从生产力工具转向娱乐消费产品是AI应用的重要演变,类似微信朋友圈默认发图片而非文字的低门槛用户体验逻辑[8][10] 头部AI应用市场格局 - ChatGPT以7.58亿月活用户位居全球总榜第一,已进入全球十大应用(含非AI应用)排名第九,比X(Twitter)月活多两个多亿[14] - 全球总榜前五名中,国产AI应用占据四席(夸克、豆包、百度网盘、Deepseek),数量占比80%,流量占比40%[18] - 即梦AI在2025年9月国内增速榜排名第一,增速达31.98%,月活用户4289万,较2025年1月的361万增长11.88倍[14] 细分赛道增长动态 - 文生视频赛道潜力巨大,即梦AI、纳米AI、可灵、PixVerse等产品被认为最有可能参考Sora的成功路径[14] - 全球增速榜显示,AI Picasso以245.31%的增速位居第一,其次是Chat AI(191.88%)和Gemini(149.08%)[31] - 出海总榜前五名为Deepseek、Cici、Talkie、PixVerse、PictureThis,其中PixVerse为视频生成类创意工具[27] 市场表现与用户获取 - 全球下载榜中,ChatGPT新增下载1.036亿次位居第一,Gemini新增9062万次排名第二[35] - 国内下载榜前五名为豆包(2900万次)、腾讯元宝(1428万次)、夸克(1420万次)、即梦AI(1416万次)、Deepseek(1215万次)[38] - 订阅收入榜显示,ChatGPT年化订阅收入达18.33亿美元位居第一,FaceApp(1.56亿美元)和PictureThis(1.34亿美元)分列二三位[40] 产品形态演变 - Sora2定义了文生视频的产品形态,预计将进入全球十大AI应用,未来用户规模可能超过ChatGPT[15] - 目前大多数AI产品仍延续ChatGPT的Chatbot形态,缺乏根本性变化,Sora2代表了产品形态的重要创新[14][12] - 字节跳动旗下即梦AI是目前唯一具备内容消费属性的社区,结合字节的推荐算法优势,有望在文生视频赛道取得突破[14]
晚报 | 10月9日主题前瞻
选股宝· 2025-10-08 22:28
黄金 - 纽约商品交易所黄金期货价格历史上首次突破每盎司4000美元大关,现货黄金价格也突破此关口 [1] - 中国人民银行截至9月末黄金储备为7406万盎司,环比增加4万盎司,为连续第11个月增持 [1][5] - 金价上涨核心驱动因素包括美国政府债务问题及去美元化交易的中长期逻辑 [1] 核聚变 - 紧凑型聚变能实验装置BEST项目主机关键部件杜瓦底座研制成功并完成吊装,标志主体工程建设步入新阶段 [1] - BEST装置总投资85亿元,总装工作于2025年5月初启动,比原计划提前2个月,预计2027年完成建设并首次演示聚变发电 [1] - 核聚变行业累计融资金额超71亿美元,行业有望在“十五五”期间迎来资本开支加速周期 [2] 算力 - OpenAI将部署6吉瓦的AMD GPU算力,利用AMD Instinct系列GPU为其下一代AI基础设施提供动力 [2][6] - 与OpenAI的合作预计为AMD带来数百亿美元收入,并加速OpenAI的AI基础设施建设 [2] - 随着类Sora模型广泛部署,推理计算消耗将多于训练计算消耗,视频将占据更大存储空间,进一步打开存力、算力市场空间 [2] 柔性电池 - 中国科学院金属研究所研发出新型材料,基于该材料构建的一体化柔性电池可承受20000次反复弯折 [3] - 柔性电池被世界经济论坛列为《2023年十大新兴技术报告》之首,预计到2032年中国市场规模达369.78亿元,年复合增长率超20% [3] - 可穿戴设备、柔性显示屏等柔性电子产品快速发展对柔性电源产生迫切需求,为商业化应用奠定基础 [3] AI视频 - OpenAI发布新版AI视频模型Sora2及短视频平台Sora,上线3天登顶美国App Store免费榜 [4] - Sora2在物理运动上更精准,人物表演以假乱真,可控性有质的飞跃,将潜力转化为可落地、高实用的创作能力 [4] - 此次发布被定义为“视频领域的GPT-3.5时刻”,构建“AI创作+社交互动”全新生态,打破传统短视频平台内容生产逻辑 [4] 宏观与行业政策 - 国家发展改革委下达今年第四批690亿元超长期特别国债支持消费品以旧换新资金 [5] - 财政部、商务部开展国际化消费环境建设工作,对超大特大城市每个城市合计补助4亿元 [5] - 国务院办公厅通知,政府采购中自2026年1月1日起给予本国产品20%的价格评审优惠 [5] 公司动态与技术进展 - 特斯拉宣布第三代人形机器人明年量产,马斯克预计2030年前年产100万台 [6] - 腾讯混元图像3.0全球“盲测”登顶第一,智谱发布GLM-4.6适配寒武纪、摩尔线程芯片,推理成本大降 [6] - 全国首个大容量钠离子储能电站扩容工程投运,Robotaxi服务已进入北京三环复杂路况行驶 [5][6] 题材复盘相关板块 - 闪存板块受隔夜美股存储公司集体大涨影响,涉及公司包括德明利、中电鑫龙、深科技、江波龙 [9] - 有色金属板块因全球最大锡出口国印尼下令关闭1000个非法锡矿而受关注,涉及公司包括精艺股份、锡业股份、江西铜业等 [9] - 固态电池、人工智能大模型、机器人、光伏、锂电池等板块均有相关上市公司被提及 [10][11]
OpenAI 2025 开发者大会及 Sora2 点评:OpenAI 推出 Sora2,Apps SDK 重塑 AI 生态入口,对 AI 应用叙事有何影响?
光大证券· 2025-10-08 20:51
行业投资评级 - 互联网传媒行业评级为买入(维持)[6] 报告核心观点 - OpenAI通过推出Apps SDK和吸引第三方应用入驻,将应用入口迁移至“AI门户”,其掌握C端AI流量入口的战略愈发清晰[4] - Sora2展示了文生视频模型性能提升远未达到上限,AI视频有望从业余娱乐创作向商业化创作拓展[4] - OpenAI展现的流量入口战略显示AI对传统SaaS是赋能而非替代,有望缓和市场对大模型替代论和SaaS商业模式动摇的悲观情绪,助力AI应用公司估值修复[4] - 谷歌、Meta、微软等科技巨头激烈争夺AI入口,有望继续坚定AI研发和基础设施投入,建议关注AI算力、AI数据中心基建产业链[4] OpenAI开发者大会关键更新 - ChatGPT每周活跃用户达8亿,较上月增长10%以上[1] - OpenAI拥有400万开发者,API每分钟处理80亿个token[1] - 推出新一代视频生成模型Sora2[1] 新产品与开发生态 - **Apps SDK**:可无缝接入开发者自有数据源,可渲染完整UI并在对话流中嵌入复杂界面,用户无需离开ChatGPT即可调用第三方应用(如Spotify, Zillow)[2] - **AgentKit**:包含Agent Builder可视化画布、Connector Registry管理工具连接、ChatKit定制化聊天界面,HubSpot利用其改进了Breeze AI工具[3] - **Codex**:专注于软件工程领域的智能体,可实现无代码复杂编程[3] - **新增API**:包括高阶模型GPT-5 Pro、轻量级语音模型GPT-realtime-mini、音视频生成模型Sora 2[3] 投资建议与关注标的 - **美股关注**:广告与精准营销(AppLovin、Salesforce、Hubspot)、AI+电商(Shopify)、AI+多媒体(Figma、Reddit)[5] - **港股推荐**:快手-W、美图公司、金蝶国际、迈富时,关注第四范式[5]
实测可灵AI的新视频模型,它生成的动作戏酷到封神。
数字生命卡兹克· 2025-09-22 09:33
产品能力提升 - 可灵2.5在动作和表演方面实现显著进化 包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化 能够丝滑衔接多个动作 如下落、奔跑、骑摩托等 并注重真实感细节 如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化 能够准确表达多层次情绪 如从愤怒到克制的转变 以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升 仅靠提示词即可生成至少一半的案例 无需首尾帧 [10][55] - 理解能力有巨幅提升 解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳 而2.1只能保持人物基本不崩坏 环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实 而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变 而2.1表演没层次 表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头 如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞 如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景 如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头 并做出急迫感 如猛然加速追逐 [14]
9款图生视频模型横评:谁能拍广告,谁还只是玩票?
锦秋集· 2025-09-01 12:32
文章核心观点 - 图生视频模型在语义理解、动作逻辑和物理规律方面仍存在显著瓶颈 但已能有效解决创作流程中的"微任务" 未来需向段落生成和工作流嵌入方向演进 [50][51][52][53][54][55] 测评产品与范围 - 测试覆盖9款主流图生视频产品 包括Google Veo3 快手Kling 2.1 字节Seedance 1.0 MiniMax Hailuo 02 生数Vidu Q1 Runway Gen-4 Midjourney V1 Pixverse V5和百度蒸汽机2.0 [7] - 测试时间为2025年8月 所有模型在统一条件下生成5秒视频 不调整除提示词外的附加参数 [9][13] 测试场景设计 - 测试包含三大类场景:职场与商业场景(品牌开场视频/企业节日物料) 轻创作与社交表达(宠物拟人/风格混合) 概念演示及创意实验(奇幻场景/ASMR音画同步) [11][16] - 评估维度包括语义遵循度(核心要素还原) 物理规律(动作自然性) 画面表现力(分辨率/光影/流畅度) [16] 关键测试结果 - **文字生成能力薄弱**:除Hailuo外所有模型均未能准确生成"JinQiu Capital Annual Summit 2025"字样 出现乱码或忽略指令 Veo3存在跨语言处理缺陷 [17][18][19] - **音画同步能力分化**:仅Veo3和百度蒸汽机默认输出音效 Veo3音画契合度最高 在ASMR测试中其玻璃质感音效表现最佳 [20][49] - **复杂动作链断裂**:宠物递礼盒任务中无一模型实现"从身后取出-递出"完整动作 变身企鹅任务中仅Pixverse基本实现变身牵手跳舞 [30][35][39] - **物理规律普遍违规**:潮汐墙形态异常 物体受力不合理(如飞船受力错误) 礼盒凭空出现或形态变化等问题广泛存在 [25][36][44][45] - **文化语义理解差异**:春节机器人拜年任务中仅Hailuo和百度蒸汽机准确生成中国传统"拱手"动作 其他模型呈现为双手合十 [26] 模型性能对比 - **综合表现领先模型**:Veo3在品牌场景结构完整性和音画同步方面突出 Hailuo在文字生成和文化动作准确性上优势明显 [21][26] - **可直接使用场景**:Veo3的节日物料视频具备直接使用价值 Midjourney在宠物任务中真实感强 Pixverse在变身任务动作连贯 [25][31][36] - **功能覆盖差异**:Veo3仅支持英文输入 百度蒸汽机与Kling具备中文音视频一体化能力 各模型定价策略差异显著(月费10-80美元不等) [12][19] 行业技术瓶颈 - 当前模型仍处于"点状生成"阶段 无法实现段落级叙事构建 在风格迁移测试中全部失败(如辛普森真人化转换) [51][55] - 核心限制包括动作链条断裂 物理规律脆弱 文字生成与跨语言处理薄弱三大短板 [39][45][51] 应用价值定位 - 核心价值在于解决"微任务":快速生成会议开场动画 社交媒体轻量化内容 创意视觉草图和ASMR片段 [52][56] - 无法替代拍摄剪辑 但可作为生产流程的辅助工具用于前期预演和过渡片段生成 [54] 技术演进方向 - 需从"能动"升级至"能演" 重点突破动作连贯性 镜头语言和情绪节奏控制 [53] - 从趣味生成工具转向工作流嵌入式组件 实现人机协同编导的多轮交互模式 [54][55]
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 13:06
技术突破 - 清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所联合推出S²-Guidance方法 通过随机丢弃网络模块动态构建弱子网络实现生成过程自我修正 避免繁琐参数调整并实现即插即用效果 [1][3] - 该方法在文生图和文生视频任务中显著提升生成质量与连贯性 具体表现为动态感增强、细节更精致、伪影减少、艺术表达丰富及物体协调性改善 [4][6][19] 技术原理 - S²-Guidance通过随机模块丢弃策略在前向传播时临时跳过部分网络模块 动态构建轻量化内生子网络 利用模型冗余特性暴露完整模型在高不确定性区域的错误倾向 [10] - 采用负向引导修正机制 通过引导公式"最终引导方向=标准CFG引导方向-子网络预测的高不确定性方向"实现自我纠错 精准规避低质量生成区域 [11][12] 性能优势 - 在SD3模型T2I-CompBench基准测试中 S²-Guidance在颜色(59.63%)、形状(58.71%)、纹理(56.77%)维度得分均超越CFG-Zero(52.70%/52.84%/53.37%)和CFG(53.61%/51.20%/52.45%) [27] - 在VBench视频评测中 Wan1.3B模型总分80.93分超越CFG-Zero(80.71) Wan14B模型总分82.84分超越CFG(82.65) 且在语义一致性(74.65)和对象类别(89.08)指标表现突出 [28] 应用效果 - 视频生成解决CFG两大痛点:物理真实性方面消除卡车横向漂移等失真现象 复杂指令遵循方面完整还原"金线环绕人脸+发光粒子"等复杂描述细节 [24][25] - 计算效率几乎无损耗 实验证明单次随机丢弃(N=1)效果与多次平均相当 通过多步迭代自然平均随机抖动实现高质量输出 [36][37]
“盗梦空间”成为现实 文生视频迎来重大进展
21世纪经济报道· 2025-08-08 09:08
技术突破 - 谷歌DeepMind发布首个实时交互通用世界模型Genie 3 支持通过单句话生成动态3D虚拟环境并实现长达数分钟的沉浸式探索 [1] - 该模型实现24fps实时交互与720p分辨率输出 在一致性和真实感方面较前代模型及视频生成模型有显著提升 [1] - 模型具备持续数分钟的一致性表现 为当前同类技术中实时交互能力的首创 [1]
A股早评:沪指低开0.14% 统一大市场概念盘初拉升
格隆汇· 2025-08-01 09:40
市场开盘表现 - 沪指开盘下跌0.14% [1] - 深证成指开盘下跌0.08% [1] - 创业板指开盘下跌0.19% [1] 统一大市场概念板块 - 国家发改委强调纵深推进全国统一大市场建设并破除"内卷式"竞争 [1] - 申通快递股价上涨超8% [1] - 韵达股份股价上涨超6% [1] 文生视频概念板块 - 阿里开源电影级AI视频模型推动概念活跃 [1] - 易点天下股价上涨超7% [1] CPO概念板块 - 东田微股价下跌近5% [1] - 生益电子股价下跌近5% [1] 军工装备板块 - 北方长龙股价下跌超7% [1] - 国瑞科技股价下跌超5% [1]