多模态生成技术 - 财报，业绩电话会，研报，新闻

多模态生成技术

搜索文档

观察者网· 2026-02-12 16:55

文章核心观点 - 字节跳动发布的AI视频生成模型Seedance 2.0凭借多项关键技术突破，在视频生成质量和可控性上跨越了关键门槛，引发了全球范围的广泛关注和行业震动，并带动了相关资本市场板块的活跃 [1][3][4][6] 技术突破与产品特性 - Seedance 2.0被定义为“可根据文本或图像创建电影级视频”的AI视频生成模型，于2026年2月7日开始小范围测试 [3] - 模型核心突破在于具备“导演思维”，关键技术包括：1）自动规划分镜和运镜（如全景、特写、平移）[3]；2）支持同时输入最多9张图片、3段视频和3段音频作为多模态参考，以精准复刻动作、风格和声音 [3]；3）原生音画同步生成，可实现精准口型同步和情绪匹配 [3]；4）能生成包含多镜头切换的完整叙事片段，并保持角色一致性 [3] - 模型仅凭一张人脸照片就能生成高度相似的原声，并能“想象”出照片中建筑物背面的细节 [4] 市场反响与行业评价 - 科技界人士埃隆·马斯克在社交平台转发评论并感慨模型发展速度“太快”（It's happening fast）[1][4] - 《黑神话：悟空》制作人冯骥评价其为“当前地表最强视频生成模型，没有之一”，并在使用手册上看到“Kill the game!”的标注 [3] - 电影导演贾樟柯表示“Seedance 2.0确实厉害”，并准备用它制作短片 [4] - 海外社交平台上，用户称赞其生成效果媲美好莱坞大片，相关演示视频播放量破百万 [4] - 模型测试期间出现系统“崩溃级拥堵”，即使付费使用“加速”功能，排队用户仍超1000人，等待时间达3小时 [8] 资本市场影响 - Seedance 2.0内测消息带动A股传媒板块异常活跃：2月10日，读客文化、荣信文化20%涨停，光线传媒、中文在线均涨超10%，国安股份、欢瑞世纪等多股涨停 [6] - 港股AI概念股也受到带动，智谱、MINIMAX等公司股价出现大幅上涨 [6] - 机构研报指出，该模型有望大幅降低AI漫剧、短剧的制作成本与周期，推动相关产业链规模扩张 [6] 商业模式与行业竞争 - Seedance 2.0功能目前仅向付费会员开放，会员分为年费659元、1899元和5199元三档 [9] - 视频生成采用积分消耗制，生成一条10秒左右的视频约需60积分，会员等级越高，购买积分价格越低、每日赠送积分越多 [9] - 行业研报认为，Seedance 2.0的发布标志着AI视频赛道进入白热化竞争阶段，类似2025年大语言模型的竞争状态，后续各家发展将体现在具体落地场景的差异化上 [9] 争议与风险管控 - 模型“复刻”创作者声音和“想象”未输入场景细节的能力，引发了关于训练数据来源与版权的广泛讨论 [6] - 字节跳动在内测阶段采取了风险防控措施，限制了以真人图片/视频作为主体参考的功能，要求通过活体认证才能生成真人视频 [6]

Artificial Intelligence

AI视频生成

多模态生成技术

Artificial Intelligence

Seedance 2.0

Grok

Artificial Intelligence

AI视频生成

多模态生成技术

Artificial Intelligence

Seedance 2.0

Grok

清华系创企拿下国内视频生成领域最大单笔融资！技术领跑，商业落地双提速

搜狐财经· 2026-02-09 23:40

公司融资里程碑 - 生数科技完成超过6亿元人民币的A+轮融资刷新了国内视频生成领域的单笔融资纪录此前纪录由爱诗科技保持金额为4.3亿元 [1] - 本轮融资由中关村科学城公司和星连资本领投万兴科技视觉中国等产业资本战略入局老股东持续加码 [1] 公司背景与技术实力 - 公司成立于2023年3月是典型的“清华系”企业联合创始人朱军唐家渝鲍凡均拥有深厚的清华大学背景 [3] - 团队是全球最早研究多模态生成算法的团队之一 2022年9月提出的U-ViT架构比OpenAI的DiT架构早三个月 [3] - 公司于2024年推出文生视频大模型Vidu 2026年1月30日发布的最新Vidu Q3模型在国际权威基准测试中位列中国第一全球第二综合性能仅次于xAI的Grok 超越了Runway Google和OpenAI的同类模型 [3] - Vidu Q3模型支持16秒声画同步 1080P高清及丰富的镜头语言瞄准专业影视制作场景 [3] 商业化进展与生态合作 - 2025年公司实现了用户和收入超10倍的增长业务覆盖全球超200个国家和地区 [4] - 影视行业客户覆盖超过九成的头部内容方与平台包括索尼电影腾讯动漫爱奇艺等 [4] - 互联网与硬件行业服务于字节跳动三星支付宝荣耀等巨头用于内容生产与产品交互创新 [4] - 公司与智谱AI等企业深度合作通过MaaS平台输出能力并曾获得百度华为蚂蚁集团等产业资本的投资 [4] 公司战略与未来愿景 - 公司的终极目标在于构建理解真实物理规律的“世界模型” 以端到端支持机器决策未来计划向机器人具身智能等物理AI场景拓展 [7] - 公司目前的“参考生视频”技术已能解决商业视频中复杂的多主体一致性难题为高阶应用奠定了基础 [7] - 此次融资标志着中国视频生成AI创业公司从技术追赶进入与全球巨头并行竞赛的新阶段 [7]

多模态生成技术

物理AI

Artificial Intelligence

Artificial Intelligence

文生视频大模型Vidu

Vidu Q3模型

阜博集团20260112

2026-01-13 09:10

涉及的行业与公司 * **公司**：阜博集团（Vobile Group）[1] * **行业**：数字内容版权管理、AI多模态内容生成与商业化、影视娱乐、流媒体[2][4][5][9] 核心观点与论据 * **行业趋势与变革** * **AI技术加速渗透**：2026年AI应用收入已占软件行业总收入的接近5%，行业正迎来红利点[3] * **国产模型密集发布**：春节前后Deepseek V4、千问3.5和豆包2.0等顶尖国产模型发布，增强了市场信心[2][3] * **影视行业重大变革**：2025年四季度Sora 2推出及Disney与OpenAI合作，标志传统版权方与新兴大模型方开始合作，版权管理和商业化模式面临深刻变革[2][5] * **内容制作成本下降**：大模型发展推动内容制作更简单、成本更低，AI漫剧成本已降至传统漫剧的20%甚至10%[7][11] * **发行渠道将迎巨变**：当前AI影响主要集中在生产端，未来随着制作到变现能力发展，发行端也将发生重大变化[8] * **阜博集团的战略与能力** * **核心战略：“元素级管理”**：突破传统拷贝销售模式，对内容中的可识别特征元素（如钢铁侠形象）进行管理、传播和变现，实现管理资产的指数级增长[2][5][6] * **技术基石**：基于过去20年的保护、交易及变现能力扩展至元素级管理，拥有行业垄断性的指纹识别和监测体系[2][4][6][9] * **合作模式**：作为基础设施提供者，致力于建立确权能力，确保版权持有者获得收益，无需主动推动大型内容方与模型方的合作[14] * **全球化布局**：为全球市场提供服务，在美国与潜在合作伙伴深入沟通推动转型[2][4][6] * **具体业务进展与预期** * **AI漫剧市场**： * **中国市场成功原因**：用户对内容形式容忍度高、网络文学资源丰富、大平台支持（红果平台占据约80%发行渠道）[4][12] * **市场占比**：AI漫剧已占漫剧市场至少1/3甚至接近一半[11] * **海外盈利潜力**：巨大，通过管理YouTube等海外平台的盗版内容变现渠道，可带来可观收益，使整体收入大幅增加[4][13] * **与红果平台合作**： * 合作始于2025年底，已产生千万人民币级别收入，目前处于边用边试阶段[15] * 红果平台对服务非常满意并计划增加使用量，阜博的保护能力已成为微短剧和慢剧发行平台的重要标配[15][16] * **增长预期**：预计2026年合作在体量、区域及形式上将有显著提升[15] * **与迪士尼及大模型方合作**： * 自2007年起与迪士尼合作，通过技术胜出获得其投资，共同应对流媒体化过程中的盗版挑战[4][9] * 在大模型层面，为大型版权方提供独家版权保护服务以获取侵权证据，未来将继续参与大型版权方与大模型方的具体合作[9] * 预计2026年上半年将展示出与内容方和大模型方融合的能力[14] * **竞争与法律环境** * **中美竞争**：中美两大经济体在大模型领域竞争激烈[10] * **诉讼倾向**：版权方在与大模型厂商的诉讼中胜诉机会较大，因主要文化创意国家拥有强大的法律体系保障[13] * **行业共识**：预计伴随诉讼，最终会形成行业共识以推动商业化进展[9] 其他重要内容 * **多模态技术应用**：目前主要应用于动态漫画、短剧等AI生成内容领域[4] * **内容传播价值差异**：内容多平台扩散传播的价值显著高于单一平台发布，元素授权使用和跟踪及变现能力至关重要[2][8] * **NFT与区块链布局**：阜博集团在NFT市场有早期布局，通过区块链技术进行版权管理[4][9] * **国内业务关注点**：尽管主要业务在海外，但公司将持续关注并拓展国内多模态模型业务，特别是AI漫剧领域[10][11] * **产品升级**：公司正在迅速升级产品，并与多模态内容平台进行产品测试和商务沟通[14]

英伟达存储架构变化如何影响NAND-Flash的需求测算

2026-01-08 10:07

纪要涉及的行业或公司 * 行业：半导体存储行业，具体涉及NAND Flash存储芯片[1] * 公司：英伟达（NVIDIA），其产品架构变化直接影响存储需求[1] 纪要提到的核心观点和论据 * **英伟达新架构明确增加NAND Flash需求**：英伟达在2026年CES大会上推出的推理上下文内容存储平台，将大模型推理中的KV Cache数据卸载到NAND Flash，以解决HBM和DDR内存容量不足的问题[1][3] * **需求测算变得清晰**：新架构提供了每个GPU额外增加16TB NAND Flash的明确数据，改变了以往依赖GPU出货量估算HBM增速、难以测算NAND需求的模式[1][3] * **量化需求增量**：假设英伟达全生命周期出货量达800万张卡，对应的NAND Flash额外需求将增加136亿GB[1][3] * **增量规模显著**：上述136亿GB的额外需求，相较于当前925亿GB的总供给量增长约15%[1][3] * **增量落地时间**：该需求增量将在2026年至2027年持续落地[1][3] * **影响范围扩展**：不仅限于GPU，ASIC卡也会参考类似的比例关系进行NAND Flash需求测算[1][3] * **AI时代推动NAND需求持续扩容**：一方面通过GPU/ASIC与NAND的比例关系测算，另一方面多模态生成技术（文生图、文生视频）产生的大量温数据需要存储[1][4] * **应用场景增加**：与大模型交互过程中的用户历史信息也会记录在NAND Flash上，推理规模落地将进一步推动需求增长[1][4] * **依赖度提升**：以英伟达Ruby系列为例，若未来沿用当前比例关系，将额外增加约15%的NAND Flash需求，表明AI时代对高效存储解决方案的依赖显著提升[2][4] 其他重要但是可能被忽略的内容 * 纪要中提及的“柜内存储”概念，表明NAND Flash被集成到服务器机柜内部，作为近计算存储的一部分，这可能影响存储硬件形态和供应链[3]

腾讯混元图像 3.0 全球“盲测”登顶第一，多模态生成技术领先全球

搜狐财经· 2025-10-05 23:26

榜单排名表现 - 腾讯混元图像3.0在LMArena最新文生图榜单中，于全球26个大模型中排名第一位[1] - 该模型得分为1167分，以16分优势领先第二名谷歌Gemini 2.5 Flash Image Preview模型（1151分）[2][3] - 同时超越字节跳动Seedream 4系列模型（最高得分1144分）和谷歌Imagen 4.0系列模型（最高得分1142分）[2][3] - LMArena官方确认该模型被评为最佳综合文生图模型与最佳开源文生图模型[2] 评测平台权威性 - LMArena由美国加州大学伯克利分校推出，采用基于人类真实偏好的盲测机制[4] - 平台总投票数达到3,159,029次，评测机制贴近实际体验，是国际最权威的竞技场榜单[2][4] - 用户输入问题后，平台提供两个模型的匿名回答，用户根据偏好选择更优答案[4] 技术特性与能力 - 混元图像3.0是首个开源工业级原生多模态生图模型，具备常识并能够利用知识进行推理[4][8] - 模型语义理解准确度高，支持中英文文字生成和长文本文字渲染[4][9][11] - 具备极致美学质感，能生成真实的高质感图片，支持多格表情包生成[4][13][15] - 目前版本已开放文生图能力，图生图、图像编辑、多轮交互等版本将于后续发布[6] 市场认可与生态建设 - 模型发布后登上Hugging Face开源社区模型热榜第一名，持续一周稳居第一[4] - 混元已形成语言、图像、视频、3D模型的多尺寸、多模态开源矩阵[15] - 图像、视频衍生模型总数达到3000个，混元3D系列模型社区下载量超过260万[15] - 在3D生成领域，混元3D模型在图生3D和文生3D任务中均位列第一[15] 行业地位与竞争优势 - 此次是混元图像3.0首次夺得文生图榜单冠军，超越众多顶级闭源模型[3] - 多模态正在成为混元大模型的核心竞争力之一，图像生成模型与3D生成模型均处于行业顶尖水平[15] - 混元世界模型Voyager在斯坦福大学WorldScore基准测试中综合能力排名首位[15] - 公司提供接近商业模型性能的开源基座，是全球最受欢迎的3D开源模型[15]

腾讯控股(HK:00700)

多模态生成技术

Artificial Intelligence

混元图像3.0

Imagen 4.0

GPT Image 1

Gemini 2.5 Flash Image Preview

多模态生成技术

Artificial Intelligence

混元图像3.0

Imagen 4.0

GPT Image 1

Gemini 2.5 Flash Image Preview

生数科技完成数亿元A轮融资，CEO称多模态生成技术商业化仍处早期阶段

搜狐财经· 2025-09-19 14:53

融资情况 - 新一轮融资由博华资本领投，并获得百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等老股东的持续跟投 [1] - 产业合作方建发新兴投资加码跟投 [1] 公司背景与业务规模 - 公司成立于2023年3月，核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校及产业界的人才组成 [2] - 公司产品Vidu于2024年7月全球上线，全球首创“参考生”图片/视频概念，覆盖全球200多个国家和地区的超3000万用户和6000家开发者及企业 [2] - 通过Vidu累计生成视频数量超过4亿，其核心功能参考生视频和参考生图的数量已超过1亿，其中商业内容素材生成量占比超过50% [2] 行业前景与资金用途 - 多模态生成技术在数字内容产业中的商业化进程正在加速，但目前仍处于早期阶段 [2] - 预计在未来三年内，多模态生成将重塑全球数字内容的生产方式，全面渗透到各行各业，展现出巨大的市场空间与全球性增长潜力 [2] - 新一轮融资将用于模型研发和技术创新，探索多模态大模型的智能上限和应用广度，同时将持续加强产品拓展、用户服务、产业合作和全球商业布局 [2]

华为正式推出昇腾超节点技术，资金连续8日净流入场内规模最大的计算机ETF（159998）

21世纪经济报道· 2025-05-28 11:01

市场表现 - A股三大指数5月28日集体高开但计算机ETF(159998)下跌0.47% 成交额超2000万元 [1] - 计算机ETF(159998)近8个交易日连续获资金净流入累计1.12亿元居同标的第一 [1] - 该ETF最新规模达28.01亿元是场内规模最大的计算机ETF [1] - 云计算沪港深ETF(517390)近5个交易日中有4个交易日获资金净流入 [2] ETF持仓与跟踪指数 - 计算机ETF(159998)跟踪中证计算机指数(930651.CSI) 成分股包括信息技术服务、应用软件、系统软件、电脑硬件等业务上市公司 [2] - 前十大重仓股包括海康威视、科大讯飞、金山办公、恒生电子、润和软件等计算机龙头 [2] - 云计算ETF沪港深(517390)跟踪中证沪港深云计算产业指数(931470.CSI) 同时布局港股互联网企业、A股算力企业和计算机龙头 [2] 行业动态 - 华为在昇腾AI开发者峰会上推出昇腾超节点技术由12个计算柜和4个总线柜构成实现384卡高速总线互联是业界规模最大的超节点 [2] - AI板块正快速演进产业竞争焦点从模型规模转向用户体验和交互范式创新推动行业进入新一轮洗牌周期 [3] - 生成式AI从被动响应用户指令转向主动代理执行复杂任务显著提升实际应用场景和商业化潜力 [3] - 大模型公司从纯软件算法研发向软硬结合方向拓展 [3] 产业链影响 - 国内以昇腾为代表的AI算力生态持续完善通过底层架构革新、算子模板库、推理加速库等工具提升模型训练和推理效率 [3] - 带动高速连接器、液冷散热、服务器等相关产业链业绩增长 [3] - 随着通用推理能力进步 AI爆款应用有望从科研、编程等高价值场景率先解锁软件、互联网行业将受益 [3] - 硬件端需求将随多模态技术进步与应用不断提高中期维度持续看好AI算力板块投资机会 [3]