多模态生成技术
搜索文档
马斯克谈Seedance2.0:发展太快!
观察者网· 2026-02-12 16:55
文章核心观点 - 字节跳动发布的AI视频生成模型Seedance 2.0凭借多项关键技术突破,在视频生成质量和可控性上跨越了关键门槛,引发了全球范围的广泛关注和行业震动,并带动了相关资本市场板块的活跃 [1][3][4][6] 技术突破与产品特性 - Seedance 2.0被定义为“可根据文本或图像创建电影级视频”的AI视频生成模型,于2026年2月7日开始小范围测试 [3] - 模型核心突破在于具备“导演思维”,关键技术包括:1)自动规划分镜和运镜(如全景、特写、平移)[3];2)支持同时输入最多9张图片、3段视频和3段音频作为多模态参考,以精准复刻动作、风格和声音 [3];3)原生音画同步生成,可实现精准口型同步和情绪匹配 [3];4)能生成包含多镜头切换的完整叙事片段,并保持角色一致性 [3] - 模型仅凭一张人脸照片就能生成高度相似的原声,并能“想象”出照片中建筑物背面的细节 [4] 市场反响与行业评价 - 科技界人士埃隆·马斯克在社交平台转发评论并感慨模型发展速度“太快”(It's happening fast)[1][4] - 《黑神话:悟空》制作人冯骥评价其为“当前地表最强视频生成模型,没有之一”,并在使用手册上看到“Kill the game!”的标注 [3] - 电影导演贾樟柯表示“Seedance 2.0确实厉害”,并准备用它制作短片 [4] - 海外社交平台上,用户称赞其生成效果媲美好莱坞大片,相关演示视频播放量破百万 [4] - 模型测试期间出现系统“崩溃级拥堵”,即使付费使用“加速”功能,排队用户仍超1000人,等待时间达3小时 [8] 资本市场影响 - Seedance 2.0内测消息带动A股传媒板块异常活跃:2月10日,读客文化、荣信文化20%涨停,光线传媒、中文在线均涨超10%,国安股份、欢瑞世纪等多股涨停 [6] - 港股AI概念股也受到带动,智谱、MINIMAX等公司股价出现大幅上涨 [6] - 机构研报指出,该模型有望大幅降低AI漫剧、短剧的制作成本与周期,推动相关产业链规模扩张 [6] 商业模式与行业竞争 - Seedance 2.0功能目前仅向付费会员开放,会员分为年费659元、1899元和5199元三档 [9] - 视频生成采用积分消耗制,生成一条10秒左右的视频约需60积分,会员等级越高,购买积分价格越低、每日赠送积分越多 [9] - 行业研报认为,Seedance 2.0的发布标志着AI视频赛道进入白热化竞争阶段,类似2025年大语言模型的竞争状态,后续各家发展将体现在具体落地场景的差异化上 [9] 争议与风险管控 - 模型“复刻”创作者声音和“想象”未输入场景细节的能力,引发了关于训练数据来源与版权的广泛讨论 [6] - 字节跳动在内测阶段采取了风险防控措施,限制了以真人图片/视频作为主体参考的功能,要求通过活体认证才能生成真人视频 [6]
清华系创企拿下国内视频生成领域最大单笔融资!技术领跑,商业落地双提速
搜狐财经· 2026-02-09 23:40
公司融资里程碑 - 生数科技完成超过6亿元人民币的A+轮融资 刷新了国内视频生成领域的单笔融资纪录 此前纪录由爱诗科技保持 金额为4.3亿元 [1] - 本轮融资由中关村科学城公司和星连资本领投 万兴科技 视觉中国等产业资本战略入局 老股东持续加码 [1] 公司背景与技术实力 - 公司成立于2023年3月 是典型的“清华系”企业 联合创始人朱军 唐家渝 鲍凡均拥有深厚的清华大学背景 [3] - 团队是全球最早研究多模态生成算法的团队之一 2022年9月提出的U-ViT架构比OpenAI的DiT架构早三个月 [3] - 公司于2024年推出文生视频大模型Vidu 2026年1月30日发布的最新Vidu Q3模型在国际权威基准测试中位列中国第一 全球第二 综合性能仅次于xAI的Grok 超越了Runway Google和OpenAI的同类模型 [3] - Vidu Q3模型支持16秒声画同步 1080P高清及丰富的镜头语言 瞄准专业影视制作场景 [3] 商业化进展与生态合作 - 2025年公司实现了用户和收入超10倍的增长 业务覆盖全球超200个国家和地区 [4] - 影视行业客户覆盖超过九成的头部内容方与平台 包括索尼电影 腾讯动漫 爱奇艺等 [4] - 互联网与硬件行业服务于字节跳动 三星 支付宝 荣耀等巨头 用于内容生产与产品交互创新 [4] - 公司与智谱AI等企业深度合作 通过MaaS平台输出能力 并曾获得百度 华为 蚂蚁集团等产业资本的投资 [4] 公司战略与未来愿景 - 公司的终极目标在于构建理解真实物理规律的“世界模型” 以端到端支持机器决策 未来计划向机器人 具身智能等物理AI场景拓展 [7] - 公司目前的“参考生视频”技术已能解决商业视频中复杂的多主体一致性难题 为高阶应用奠定了基础 [7] - 此次融资标志着中国视频生成AI创业公司从技术追赶进入与全球巨头并行竞赛的新阶段 [7]
阜博集团20260112
2026-01-13 09:10
涉及的行业与公司 * **公司**:阜博集团(Vobile Group)[1] * **行业**:数字内容版权管理、AI多模态内容生成与商业化、影视娱乐、流媒体[2][4][5][9] 核心观点与论据 * **行业趋势与变革** * **AI技术加速渗透**:2026年AI应用收入已占软件行业总收入的接近5%,行业正迎来红利点[3] * **国产模型密集发布**:春节前后Deepseek V4、千问3.5和豆包2.0等顶尖国产模型发布,增强了市场信心[2][3] * **影视行业重大变革**:2025年四季度Sora 2推出及Disney与OpenAI合作,标志传统版权方与新兴大模型方开始合作,版权管理和商业化模式面临深刻变革[2][5] * **内容制作成本下降**:大模型发展推动内容制作更简单、成本更低,AI漫剧成本已降至传统漫剧的20%甚至10%[7][11] * **发行渠道将迎巨变**:当前AI影响主要集中在生产端,未来随着制作到变现能力发展,发行端也将发生重大变化[8] * **阜博集团的战略与能力** * **核心战略:“元素级管理”**:突破传统拷贝销售模式,对内容中的可识别特征元素(如钢铁侠形象)进行管理、传播和变现,实现管理资产的指数级增长[2][5][6] * **技术基石**:基于过去20年的保护、交易及变现能力扩展至元素级管理,拥有行业垄断性的指纹识别和监测体系[2][4][6][9] * **合作模式**:作为基础设施提供者,致力于建立确权能力,确保版权持有者获得收益,无需主动推动大型内容方与模型方的合作[14] * **全球化布局**:为全球市场提供服务,在美国与潜在合作伙伴深入沟通推动转型[2][4][6] * **具体业务进展与预期** * **AI漫剧市场**: * **中国市场成功原因**:用户对内容形式容忍度高、网络文学资源丰富、大平台支持(红果平台占据约80%发行渠道)[4][12] * **市场占比**:AI漫剧已占漫剧市场至少1/3甚至接近一半[11] * **海外盈利潜力**:巨大,通过管理YouTube等海外平台的盗版内容变现渠道,可带来可观收益,使整体收入大幅增加[4][13] * **与红果平台合作**: * 合作始于2025年底,已产生千万人民币级别收入,目前处于边用边试阶段[15] * 红果平台对服务非常满意并计划增加使用量,阜博的保护能力已成为微短剧和慢剧发行平台的重要标配[15][16] * **增长预期**:预计2026年合作在体量、区域及形式上将有显著提升[15] * **与迪士尼及大模型方合作**: * 自2007年起与迪士尼合作,通过技术胜出获得其投资,共同应对流媒体化过程中的盗版挑战[4][9] * 在大模型层面,为大型版权方提供独家版权保护服务以获取侵权证据,未来将继续参与大型版权方与大模型方的具体合作[9] * 预计2026年上半年将展示出与内容方和大模型方融合的能力[14] * **竞争与法律环境** * **中美竞争**:中美两大经济体在大模型领域竞争激烈[10] * **诉讼倾向**:版权方在与大模型厂商的诉讼中胜诉机会较大,因主要文化创意国家拥有强大的法律体系保障[13] * **行业共识**:预计伴随诉讼,最终会形成行业共识以推动商业化进展[9] 其他重要内容 * **多模态技术应用**:目前主要应用于动态漫画、短剧等AI生成内容领域[4] * **内容传播价值差异**:内容多平台扩散传播的价值显著高于单一平台发布,元素授权使用和跟踪及变现能力至关重要[2][8] * **NFT与区块链布局**:阜博集团在NFT市场有早期布局,通过区块链技术进行版权管理[4][9] * **国内业务关注点**:尽管主要业务在海外,但公司将持续关注并拓展国内多模态模型业务,特别是AI漫剧领域[10][11] * **产品升级**:公司正在迅速升级产品,并与多模态内容平台进行产品测试和商务沟通[14]
英伟达存储架构变化如何影响NAND-Flash的需求测算
2026-01-08 10:07
纪要涉及的行业或公司 * 行业:半导体存储行业,具体涉及NAND Flash存储芯片[1] * 公司:英伟达(NVIDIA),其产品架构变化直接影响存储需求[1] 纪要提到的核心观点和论据 * **英伟达新架构明确增加NAND Flash需求**:英伟达在2026年CES大会上推出的推理上下文内容存储平台,将大模型推理中的KV Cache数据卸载到NAND Flash,以解决HBM和DDR内存容量不足的问题[1][3] * **需求测算变得清晰**:新架构提供了每个GPU额外增加16TB NAND Flash的明确数据,改变了以往依赖GPU出货量估算HBM增速、难以测算NAND需求的模式[1][3] * **量化需求增量**:假设英伟达全生命周期出货量达800万张卡,对应的NAND Flash额外需求将增加136亿GB[1][3] * **增量规模显著**:上述136亿GB的额外需求,相较于当前925亿GB的总供给量增长约15%[1][3] * **增量落地时间**:该需求增量将在2026年至2027年持续落地[1][3] * **影响范围扩展**:不仅限于GPU,ASIC卡也会参考类似的比例关系进行NAND Flash需求测算[1][3] * **AI时代推动NAND需求持续扩容**:一方面通过GPU/ASIC与NAND的比例关系测算,另一方面多模态生成技术(文生图、文生视频)产生的大量温数据需要存储[1][4] * **应用场景增加**:与大模型交互过程中的用户历史信息也会记录在NAND Flash上,推理规模落地将进一步推动需求增长[1][4] * **依赖度提升**:以英伟达Ruby系列为例,若未来沿用当前比例关系,将额外增加约15%的NAND Flash需求,表明AI时代对高效存储解决方案的依赖显著提升[2][4] 其他重要但是可能被忽略的内容 * 纪要中提及的“柜内存储”概念,表明NAND Flash被集成到服务器机柜内部,作为近计算存储的一部分,这可能影响存储硬件形态和供应链[3]
腾讯混元图像 3.0 全球“盲测”登顶第一,多模态生成技术领先全球
搜狐财经· 2025-10-05 23:26
榜单排名表现 - 腾讯混元图像3.0在LMArena最新文生图榜单中,于全球26个大模型中排名第一位[1] - 该模型得分为1167分,以16分优势领先第二名谷歌Gemini 2.5 Flash Image Preview模型(1151分)[2][3] - 同时超越字节跳动Seedream 4系列模型(最高得分1144分)和谷歌Imagen 4.0系列模型(最高得分1142分)[2][3] - LMArena官方确认该模型被评为最佳综合文生图模型与最佳开源文生图模型[2] 评测平台权威性 - LMArena由美国加州大学伯克利分校推出,采用基于人类真实偏好的盲测机制[4] - 平台总投票数达到3,159,029次,评测机制贴近实际体验,是国际最权威的竞技场榜单[2][4] - 用户输入问题后,平台提供两个模型的匿名回答,用户根据偏好选择更优答案[4] 技术特性与能力 - 混元图像3.0是首个开源工业级原生多模态生图模型,具备常识并能够利用知识进行推理[4][8] - 模型语义理解准确度高,支持中英文文字生成和长文本文字渲染[4][9][11] - 具备极致美学质感,能生成真实的高质感图片,支持多格表情包生成[4][13][15] - 目前版本已开放文生图能力,图生图、图像编辑、多轮交互等版本将于后续发布[6] 市场认可与生态建设 - 模型发布后登上Hugging Face开源社区模型热榜第一名,持续一周稳居第一[4] - 混元已形成语言、图像、视频、3D模型的多尺寸、多模态开源矩阵[15] - 图像、视频衍生模型总数达到3000个,混元3D系列模型社区下载量超过260万[15] - 在3D生成领域,混元3D模型在图生3D和文生3D任务中均位列第一[15] 行业地位与竞争优势 - 此次是混元图像3.0首次夺得文生图榜单冠军,超越众多顶级闭源模型[3] - 多模态正在成为混元大模型的核心竞争力之一,图像生成模型与3D生成模型均处于行业顶尖水平[15] - 混元世界模型Voyager在斯坦福大学WorldScore基准测试中综合能力排名首位[15] - 公司提供接近商业模型性能的开源基座,是全球最受欢迎的3D开源模型[15]
生数科技完成数亿元A轮融资,CEO称多模态生成技术商业化仍处早期阶段
搜狐财经· 2025-09-19 14:53
融资情况 - 新一轮融资由博华资本领投,并获得百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等老股东的持续跟投 [1] - 产业合作方建发新兴投资加码跟投 [1] 公司背景与业务规模 - 公司成立于2023年3月,核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校及产业界的人才组成 [2] - 公司产品Vidu于2024年7月全球上线,全球首创“参考生”图片/视频概念,覆盖全球200多个国家和地区的超3000万用户和6000家开发者及企业 [2] - 通过Vidu累计生成视频数量超过4亿,其核心功能参考生视频和参考生图的数量已超过1亿,其中商业内容素材生成量占比超过50% [2] 行业前景与资金用途 - 多模态生成技术在数字内容产业中的商业化进程正在加速,但目前仍处于早期阶段 [2] - 预计在未来三年内,多模态生成将重塑全球数字内容的生产方式,全面渗透到各行各业,展现出巨大的市场空间与全球性增长潜力 [2] - 新一轮融资将用于模型研发和技术创新,探索多模态大模型的智能上限和应用广度,同时将持续加强产品拓展、用户服务、产业合作和全球商业布局 [2]
华为正式推出昇腾超节点技术,资金连续8日净流入场内规模最大的计算机ETF(159998)
21世纪经济报道· 2025-05-28 11:01
市场表现 - A股三大指数5月28日集体高开 但计算机ETF(159998)下跌0.47% 成交额超2000万元 [1] - 计算机ETF(159998)近8个交易日连续获资金净流入 累计1.12亿元 居同标的第一 [1] - 该ETF最新规模达28.01亿元 是场内规模最大的计算机ETF [1] - 云计算沪港深ETF(517390)近5个交易日中有4个交易日获资金净流入 [2] ETF持仓与跟踪指数 - 计算机ETF(159998)跟踪中证计算机指数(930651.CSI) 成分股包括信息技术服务、应用软件、系统软件、电脑硬件等业务上市公司 [2] - 前十大重仓股包括海康威视、科大讯飞、金山办公、恒生电子、润和软件等计算机龙头 [2] - 云计算ETF沪港深(517390)跟踪中证沪港深云计算产业指数(931470.CSI) 同时布局港股互联网企业、A股算力企业和计算机龙头 [2] 行业动态 - 华为在昇腾AI开发者峰会上推出昇腾超节点技术 由12个计算柜和4个总线柜构成 实现384卡高速总线互联 是业界规模最大的超节点 [2] - AI板块正快速演进 产业竞争焦点从模型规模转向用户体验和交互范式创新 推动行业进入新一轮洗牌周期 [3] - 生成式AI从被动响应用户指令转向主动代理执行复杂任务 显著提升实际应用场景和商业化潜力 [3] - 大模型公司从纯软件算法研发向软硬结合方向拓展 [3] 产业链影响 - 国内以昇腾为代表的AI算力生态持续完善 通过底层架构革新、算子模板库、推理加速库等工具提升模型训练和推理效率 [3] - 带动高速连接器、液冷散热、服务器等相关产业链业绩增长 [3] - 随着通用推理能力进步 AI爆款应用有望从科研、编程等高价值场景率先解锁 软件、互联网行业将受益 [3] - 硬件端需求将随多模态技术进步与应用不断提高 中期维度持续看好AI算力板块投资机会 [3]