Workflow
AI视频生成
icon
搜索文档
传媒ETF(159805)涨超2.3%,字节大模型海外爆火
新浪财经· 2026-02-09 10:22
字节跳动AI视频模型进展 - 字节跳动推出名为Seedance2.0的AI视频生成模型 该模型可根据文本或图像创建电影级视频 并采用双分支扩散变换器架构同时生成视频和音频 [1] - 用户只需提供详细提示或上传一张图片 Seedance 2.0即可在60秒内生成带有原生音频的多镜头序列视频 其独有的多镜头叙事功能可根据单个提示自动生成多个相互关联的场景 [1] 腾讯近期市场表现与机构观点 - 机构指出腾讯上周股价连续下跌的原因包括:市场对互联网平台加税的担忧 但实际游戏增值税无加税空间且未验证出新税种 元宝活动被封 以及第四季度业绩下调传闻 [1] - 机构认为 尽管存在上述因素 腾讯目前约15倍的市盈率仍具备性价比 同时元宝下载情况稳健 且腾讯在人工智能领域与大厂的差距可能缩小 机构继续推荐 [1] 传媒板块市场表现 - 截至2026年2月9日09:51 中证传媒指数强势上涨2.30% 成分股中文在线涨停上涨20.00% 海看股份上涨19.99% 捷成股份上涨10.73% 完美世界和上海电影等个股跟涨 [1] - 跟踪中证传媒指数的传媒ETF上涨2.35% 最新价报1.65元 [1] 中证传媒指数及ETF概况 - 传媒ETF紧密跟踪中证传媒指数 该指数从营销与广告 文化娱乐 数字媒体等行业中选取总市值较大的50只上市公司证券作为样本 以反映传媒领域代表性公司的整体表现 [2] - 截至2026年1月30日 中证传媒指数前十大权重股包括蓝色光标 分众传媒 利欧股份 巨人网络 岩山科技 昆仑万维 恺英网络 三七互娱 光线传媒和完美世界 前十大权重股合计占比53.71% [2]
字节又一款AI产品火了
财联社· 2026-02-09 09:49
Seedance 2.0模型技术特点 - 由字节跳动推出,可根据文本或图像创建电影级视频,采用双分支扩散变换器架构,可同时生成视频和音频[2] - 只需编写详细的提示或上传一张图片,即可在60秒内生成带有原生音频的多镜头序列视频[2] - 模型独有的多镜头叙事功能,能够根据单个提示自动生成多个相互关联的场景,AI会自动保持所有场景切换中角色、视觉风格和氛围的一致性[2] - 在视频的大范围的运动、分镜、音画匹配等方面均有可圈可点之处,分镜上具有“明显的角度切换”,能够“像真人导演一样,不断改变摄影机的位置”[5] - 在自运镜和分运镜、全方位多模态思考、音画同步生成、多镜头叙事能力等几个关键能力上实现突破,给用户提供“导演级”的控制精度[5] - 官方声称其生成2K视频的速度比Kling等竞争对手快30%[6] - 与Sora侧重于物理真实感、Kling侧重于运动控制不同,Seedance 2.0专注于制作具有原生音频的连贯多场景序列[6] 市场反响与行业影响 - 模型一经发布,大量用户纷纷主动尝试[2] - 知名科普博主影视飓风的评测视频加速了Seedance 2.0“出圈”[5] - 数家券商在研报中为Seedance 2.0给出好评,开源证券称其或为AI影视的“奇点”时刻[5] - 随着各家最新模型发布,国内供给侧的技术天花板进一步提升,视频生成赛道进入类似2025年大语言模型(LLM)的竞争状态[6] - 视频生成进入精准可控“仪表盘时代”,门槛降低带动B端和C端用户扩容[6] 投资机会与产业趋势 - Seedance 2.0有望在AI漫剧、AI短剧等短内容方面率先得到广泛应用,进一步推动漫剧/短剧制作大幅降本提效和产能供给释放[6] - 拥有IP储备、平台流量优势的公司或充分受益[6] - 应重视垂类多模态AI应用机会,看好技术突破、成本优化带来产业趋势加速发展,带动用户增长、付费渗透和商业化再上台阶[6] - 尤其关注有多模态AI应用出海布局的公司,起量速率或更快[6] - 快手旗下AI视频生成模型可灵(Kling)的“Motion Control”功能生成的视频拥有极高传播潜力,一度使APP登上韩国、新加坡等地的图形和设计类应用下载榜单首位,并推动其在美国地区流水收入不断增长[5]
AI应用正当时:字节发布Seedance2.0,AI视频生成迈上新台阶
长江证券· 2026-02-09 09:19
行业投资评级 - 投资评级:看好丨维持 [7] 报告核心观点 - 事件核心:字节跳动发布最新视频生成模型Seedance 2.0,该产品已在即梦平台上线,会员用户(至少69元)可直接使用,支持文本/图片生视频,也支持视频和音频作为参考素材输入 [2][4] - 行业阶段判断:2026年大模型进入“模型×场景”深度融合阶段,互联网平台在模型、算力与数据侧具备系统性优势 [2][10] - 市场方向:2C(面向消费者)入口争夺有望全面展开;在B端(面向企业),规则清晰、高价值的场景已具备规模化落地条件,也是海外头部厂商重点突破方向 [2][10] - 技术意义:Seedance 2.0等原生多模态世界模型正改写传统影视制作底层逻辑,商业竞争重心逐渐向下游审美主权与叙事内核转移 [10] 根据相关目录分别总结 Seedance 2.0的关键能力突破 - **接近“导演级”控制精度**:模型生成能力与稳定性大幅提高 [10] - **自分镜和自运镜**:可根据描述的情节自动规划分镜和运镜,用简单提示词生成堪比导演运镜的效果 [10] - **全方位多模态参考**:可同时输入最多9张图片、3段视频和3段音频,用于指定动作、特效、风格、外貌、场景氛围及声音效果,被视作“导演工具箱” [10] - **音画同步生成**:生成视频时可同步生成匹配的音效和配乐,支持口型同步和情绪匹配 [10] - **多镜头叙事能力**:能在多个镜头间维持角色和场景的一致性,可生成包含镜头切换的完整叙事片段 [10] 对行业的影响与变革 - **从“抽卡玩具”到“工业工具”**:AI视频有望迈入奇点时刻,成为工业级工具 [10] - **对漫剧Agent形成降维打击**:Seedance 2.0强大的原生意图理解能力,使Agent从工程修补转向深度定制 [10] - **引发传统影视成本崩塌**:根据极客公园,Seedance 2.0的三方实测可用率达90%以上,使实际成本无限逼近理论成本 [10] - **成本案例1**:制作一个90分钟的项目,成本从一万多块直接降至两千多块左右 [10] - **成本案例2**:5秒特效镜头的制作成本从三千元(人力一月)降至3元(AI两分钟) [10] - **技术本质是世界模型雏形**:模型从画面拼凑进阶到物理理解,能同时消化文字、图片、视频、音频,构建有内在逻辑的世界 [10] - **行业核心竞争力转移**:未来技术本身不再是瓶颈,核心竞争力将从技术实现能力转向内容生成质量与内核价值取向 [10] - **使用门槛降低**:当工具足够强大,用户不再关心模型能否实现,而是直接思考表达内容,真正的稀缺资源变为叙事的视角和内核的领先 [10]
童年的滚球兽「走进」现实?华为天才少年创业,全球首个虚实融合的实时交互视频模型来了
机器之心· 2026-02-09 09:18
行业背景与市场趋势 - 全球AI视频生成市场规模在2024年已达6.148亿美元,预计到2032年将飙升至25.629亿美元 [8] - 当前AI视频生成赛道多数玩家聚焦于文生视频,致力于为影视、广告等内容工业打造专业生产力工具,主要方向是提升生成画质、时长和分辨率 [8] - 现有视频生成工具对普通用户存在上手门槛高、生成等待时间长(从数秒到数十分钟)以及生成内容与日常生活缺乏关联等问题,导致大众参与感不足 [9] 公司产品与核心创新 - 公司Xmax AI推出了首个虚实融合的实时交互视频模型X1,其核心是让用户通过手机摄像头和简单手势,即可将虚拟角色实时融入现实环境并进行交互 [4][10] - 产品通过技术演示应用X-cam开放体验,其核心理念是“Play the World through AI(用AI玩转世界)”,旨在让AI生成内容融入日常生活 [6][28] - 与追求极致生成能力的Sora等模型不同,X1模型选择了一条差异化路线,聚焦于降低交互门槛和增强与现实世界的结合,让视频生成“人人可玩” [10][26] 核心技术能力与突破 - 模型X1具备强大的端侧实时生成能力,实现了四大核心玩法:次元互动(召唤角色)、世界滤镜(实时风格转换)、触控动图(操控静态图像运动)和表情捕手(实时生成动态表情包) [10][11][14][15][16] - 为实现极致实时交互体验,公司进行了架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归DiT,并通过技术优化将延迟压低至毫秒级,支持无限时长的连续生成 [19][24] - 为理解用户多样的自然交互意图(如手势),公司构建了统一的交互模型架构,使其能同时理解三维空间关系和二维平面触控操作 [20][24] - 针对“虚实融合交互数据”稀缺的行业难题,公司搭建了虚实融合数据的合成管线,以半自动化方式低成本、批量化生成了高质量训练数据,构建了行业壁垒 [20][24] 团队与技术背景 - 公司核心团队由兼具底层算法、工程化落地和产品嗅觉的成员组成,创始人出身于华为“天才少年”计划,联合创始人包括港科大(广州)助理教授及全栈工程师 [22] - 核心技术团队来自清华大学KEG实验室和HCI实验室,核心成员大多拥有字节、快手、华为、阿里等头部AI大厂的丰富技术落地实践经验 [22][23] 战略愿景与未来展望 - 公司的目标不仅是开发一款应用,更是试图搭建下一代内容交互引擎,重新定义用户与AI生成内容之间的个性化交互方式 [27] - 长远愿景是让影视和虚拟世界中的角色成为可走进现实的“数字生命体”,进入家庭成为虚拟陪伴或宠物,并在社交、娱乐、通讯等场景实现“万物可交互” [27]
硬刚马斯克,超越Sora2的国产模型强势登场了!支持16秒声画同出
搜狐财经· 2026-01-30 22:40
行业地位与技术突破 - 生数科技的AI视频模型Vidu Q3 Pro登上国际权威AI基准平台Artificial Analysis榜单,位列中国第一,全球第二,是首个打入国际第一梯队的国产视频生成模型 [2] - 该模型在榜单上的ELO评分为1,241分,仅次于xAI的Grok(1,246分),领先于Runway Gen-4.5(1,235分)、Google Veo 3.1(1,225分)和OpenAI Sora 2 Pro(1,209分)[3] - 模型完成了三项关键突破,成为全球首个支持16秒音视频直出的模型,并实现了镜头自由切换控制与画面内精准文字渲染 [5] 核心功能与性能 - 模型支持最长16秒的音视频一体生成,语音、旁白、对话、音效和音乐可同步输出并精准对口型,已覆盖中文、英文、日文 [9] - 具备镜头调度能力,可根据内容自动切换镜头视角,从远景到特写,模拟专业导演的调度方式,让生成的故事更有视觉语言 [10] - 可直接在画面中生成中、英、日三种语言的文字内容,支持广告语、环境标识等多种文字场景自然融入画面,无需后期贴图 [11] 应用场景与市场潜力 - 模型能够还原复杂的情节表达,支持分镜与情绪变化,适合用于制作短剧、漫剧等叙事类内容 [16] - 在广告与产品展示场景中,其“语音+镜头”联动生成能力可显著提升创作效率,免去脚本-拍摄-剪辑的多轮反复 [17][18] - 在自媒体、播客等轻制作领域展现出较强实用性,支持风格与人物设定,搭配对白和动态镜头,可批量生产具备良好观看体验的内容 [19][20] - 目标用户不仅包括内容创作者,还扩展至广告人、营销人、产品人,正在重新定义创作角色 [21] 实测表现与行业意义 - 实测生成一段16秒国漫风格短片,结果显示节奏自然,镜头切换清晰,角色对白与口型匹配度较高,画面构图和氛围协调 [13] - 不同镜头间的切换能精准对应动作转换节点,背景音乐层次分明,冷兵器碰撞声与角色台词均有良好呈现,未出现跳帧、错位等问题 [13][14] - 用户可通过提示词对人物对白、画面风格、动作节奏等多维度进行控制,可控感明显提升,出片效率较高,画面渲染稳定 [14] - 这标志着AI视频生成能力完成了从“能动”到“会讲”的关键跨越,AI正从“摄像机”转向真正的“导演”,进入工业级内容生产新阶段 [21][24]
马斯克还在卷10秒,中国AI直接掀桌!16秒一镜到底,全球唯一
搜狐财经· 2026-01-30 19:04
行业竞争格局 - 硅谷巨头在AI视频生成赛道竞争激烈,谷歌Veo 3.1凭借“素材生视频”功能、超强一致性和4K画质登场[2] - 马斯克的Grok Imagine已上线生成10秒视频功能,实现音画双飞跃[4] - Runway全新Gen 4.5模型同样致力于连贯叙事和高一致性,生成时长可达10秒[4] Vidu Q3核心产品发布 - 中国AI公司发布下一代旗舰模型Vidu Q3,定位为全球首个一键直出16秒音视频的模型[7] - 该模型能同时处理画面、声音、剧情推进和镜头调度,支持镜头控制与自由切换、多语言文字渲染以及专业级漫剧、短剧、电影制作[7] - 在Artificial Analysis最新榜单中,Vidu Q3位列中国第一、全球第二,超越了Runway Gen-4.5、谷歌Veo3.1和OpenAI Sora 2[7] 技术突破与关键能力 - Vidu Q3解决了AI视频生成领域时长过短(多为几秒)和缺乏声音(“哑剧”)的痛点[11] - 相比谷歌Veo 3最长支持8秒,OpenAI Sora 2最长支持15秒,Vidu Q3是业界唯一能做到单次生成16秒时长的模型,无需拼接或后期合成[11] - 模型实现了精准的镜头控制,允许用户像导演一样控制运镜节奏和视角切换,并能根据画面内容自动切镜[17][19][20] - 在文字渲染上实现质的飞跃,能够精准呈现中、英、日三种文字,解决了以往字母变形、笔画缺失等问题[23] 应用场景与行业影响 - Vidu Q3标志着AI视频从“演技生成”(让画面动起来)迈入“视听生成”新时代,交付完整的、声画共振的视听体验[8][23] - 对于影视行业,模型具备真正的“叙事密度”,能在16秒内构建完整戏剧冲突,处理复杂对白和情感递进,为从剧本到可视化提供极速通道[23] - 对于广告行业,模型在画面一致性和文字渲染上的突破,提供了一套“可控的商业化解决方案”[24] - 对于自媒体创作者,模型的音视频一体化生成彻底简化了高质量视频制作流程,将释放创造力并可能催生更多“超级个体”[26][28] 产品功能与体验 - Vidu Q3已上线文生音视频和图生音视频功能,用户可通过Vidu.cn或Vidu API平台体验[9][10] - 演示案例显示其能力包括:根据六格分镜图生成步骤视频、复刻电影经典瞬间并匹配口型与音色、生成具有胶片质感和精准对白的“对手戏”场景、以及创建包含复杂运镜和音效的动画打斗场景[13][15][21]
这个真人版《火影忍者》竟然是AI做的,来自中国AI视频新王者Vidu Q3
量子位· 2026-01-30 19:02
生数科技Vidu Q3模型的核心能力 - 模型是全球首个支持一次性生成16秒音视频直出的AI视频生成模型 [2] - 模型在操作上具备“全自动”特性,支持中文、英文和日文等多种语言输入 [3] - 模型在权威AI基准测试机构Artificial Analysis的榜单中排名中国第一,全球第二 [5] - 模型的核心技术特点包括:音视频一次性生成、自由运镜和转场、支持文生和图生、生成清晰度支持1080P并可提升至4K、具备完整的叙事能力和精准的文字渲染 [6] Vidu Q3模型的具体功能与实测表现 - 图生视频功能允许用户上传首帧图片并输入提示词,可生成1至16秒的视频 [8][10] - 实测中,模型能根据单张图片和提示词生成如“主播连麦对话”等场景视频,效果逼真,并能自动识别场景补充细节(如弹幕) [11][12][13][14] - 模型能准确演绎不同情绪和场景的短剧,如愤怒的综艺导师点评、苦情的古装戏,并能自动补充风声、抽泣声等环境音效和动作音效 [16][17][18][19] - 模型具备在单段视频内完成一次性转场和换镜头的能力,并能自行补充符合场景的细节(如背景闪电、仰视角度) [20][21] - 文生音视频功能支持仅用自然语言生成视频,时长1-16秒,并提供16:9、9:16、1:1、4:3、3:4五种宽高比选择 [23][24] - 通过文生视频测试,模型能精准遵循复杂的分镜提示词,生成如3D皮克斯风格、国产修仙动漫等不同风格的连贯动画片段 [25][26][27] - 模型的文字渲染能力出色,能直接在画面中生成并渲染出如“Vidu”字样等复杂图形文字,利于一次性成片,减少后期加工 [29][30][31] AI视频生成行业的发展与趋势 - AI视频生成技术进化速度极快,从Sora引爆视觉震撼到业界实现有声视频直出,仅用了不到9个月,相较于电影史上从默片到有声电影用了32年,呈现历史性压缩 [34][35] - 行业竞争维度已从早期聚焦画面物理一致性、光影质感,升维至“音视频原生的多模态融合”,标志着AI从单纯生成画面进化到了理解声音与画面时序关联的“导戏”阶段 [36][37][38] - Vidu Q3的出现代表了技术能力的延伸,其16秒一镜到底的能力让AI具备了完整的短片叙事雏形,当音视频对齐和多语言表达不再困难时,行业的下一个突破点可能更快到来 [39][40] - 开年第一个月,国产AI视频生成领域的竞争非常激烈 [1]
快手:可灵AI创意生产力平台落地,持续领跑全球视频生成大模型赛道
经济观察网· 2026-01-30 12:31
公司AI战略与技术布局 - 公司以技术创新为核心驱动力,深耕人工智能领域研发,聚焦“AI赋能创意”核心方向 [1] - 公司组建专业大模型团队,通过自研大模型与场景化应用深度融合,打造覆盖视频、图像生成的全链路创意工具 [1] - 截至2025年8月,公司已自研或联合高校发表CCF-A类顶级论文70余篇,相关成果在计算机视觉领域累计被引超30000次,开源项目在GitHub斩获逾15000星标 [1] 可灵AI平台技术突破 - 平台通过四大技术维度创新解决AI视频生成领域动态效果生硬、风格一致性差、复杂指令响应不足等痛点 [2] - 在模型设计上,采用类Sora的DiT结构,以Transformer替代传统U-Net架构,并创新研发计算高效的3D Attention全注意力机制作为时空建模模块 [2] - 在数据保障层面,构建精细化标签体系筛选训练数据,研发专用视频描述模型生成结构化文本,以提升文本指令响应准确度 [2] - 在计算效率上,采用传输路径更短的flow模型作为扩散模型基座,在保证生成质量的同时提升运算速度 [2] - 在能力扩展方面,支持直接处理不同长宽比数据,研发自回归视频时序拓展方案,并可接入相机运镜、帧率等多类控制输入 [2] 可灵AI平台市场表现与成就 - 自2024年6月上线以来,该平台在全球赛道持续领跑 [2] - 2025年3月,其高品质模式以1000分的ELO评分登顶全球图生视频赛道 [2] - 2025年5月,新一代模型以1124分蝉联榜首 [2] - 2025年10月,全新Turbo模型上线10天内,便以1329分和1252分的成绩同时夺得图生视频与文生视频双赛道榜首 [2] 平台价值与未来展望 - 平台通过便捷操作与专业参数组合,显著降低了创意生产门槛 [3] - 其技术突破以“自研大模型+场景化应用”的模式,为行业提供了技术创新、用户价值与产业赋能的完整范式 [3] - 未来,公司将持续迭代模型能力,围绕更长时长、更高分辨率、更多交互形式的创意需求,深化“AI+内容”融合创新 [3] - 公司旨在为全球创作者提供更强大的生产力工具,为AI生成式技术的产业化发展注入新动能,持续巩固在视频生成大模型领域的全球领先地位 [3]
昆仑万维开源的SkyReels-V3,把马斯克请来带货了
机器之心· 2026-01-29 18:26
AI虚拟网红与视频生成行业现状 - AI生成的虚拟网红在社交平台上已获得广泛关注,手握品牌合作并坐拥百万粉丝,许多用户并未意识到其并非真人,依然进行互动、点赞和消费[1] - 有行业观点认为虚拟网红时代已经到来[2] SkyReels-V3模型开源事件与核心能力 - 昆仑万维旗下Skywork AI团队于1月29日宣布开源SkyReels-V3多模态视频生成模型系列[3] - 该模型系列在单一建模架构中集成了三大核心能力:参考图像转视频、视频延长和音频驱动虚拟形象,达到业界领先水平[3] - 模型完全开源,旨在让任何有想法的创作者都能快速搭建自己的虚拟IP,甚至批量生产内容矩阵[9] 参考图像转视频功能详解 - 功能允许用户上传1-4张参考图像,配合文本提示词,生成时间连贯、语义一致的视频,并精准保留身份特征与空间构图[11] - 在电商场景测试中,上传马斯克照片和小象玩偶图,能生成面部特征高度一致、动作自然流畅、商品展示角度恰当的视频[12][15] - 上传手袋商品图和模特照,能生成模特在都市夜景中展示产品细节的视频,人物动作优雅,构图专业[17][19] - 模型能同时处理多张不同参考图,精准还原人物特征并保证风格统一,例如生成《怪奇物语》演员在上海外滩自拍的互动视频[20][22][23][24] 视频延长功能详解 - 功能可将输入视频片段延伸为更长内容,保持运动动态、场景结构和视觉风格一致性,支持单镜头延长和镜头切换延长两种模式[26] - 单镜头延长模式下,能处理如“女孩笑着笑着突然严肃起来”的微表情过渡,保持面部特征、光影效果和视觉风格不走样[27][29] - 镜头切换延长模式支持切入、切出、多角度、正反打、切离五种专业转场,能理解如“Close-up”等专业摄影术语,增强画面张力[31][32] 虚拟形象模型功能详解 - 功能可从单张肖像图和音频片段生成音视频同步的视频,支持分钟级长度和多角色交互[34] - 基础单角色测试中,上传肖像照配音乐片段,能生成唇形与音频完全同步的唱歌MV,并保持画面稳定[35] - 模型泛化能力出色,能处理真实人物、卡通角色等不同风格[36] - 在多人物互动场景测试中,能自动识别图片形象,精准控制每个角色的开口时机,避免口型不同步的问题[37][38] SkyReels-V3核心技术解读 - 参考图像转视频功能建立在三层技术创新之上:数据构建层面从海量高质量视频中筛选动态素材并采用跨帧配对策略;利用图像编辑模型避免“复制粘贴”伪影;采用统一的多参考条件策略,支持最多4张参考图像的灵活组合[41][42] - 训练策略采用图像-视频混合训练方案,通过多分辨率联合优化提升对不同空间尺度和宽高比的鲁棒性[43] - 在涵盖电影电视、电商、广告等场景的200对混合测试集上,模型在参考一致性和视觉质量方面均处于国内领先位置[44] - 视频延长模块核心创新在于双模式延长机制设计,并开发了专门的镜头切换检测器自动分析转场类型[45] - 技术实现采用统一的多分段位置编码方案支持复杂运动建模,并通过分层混合训练实现平滑镜头切换[45] - 该模块支持480p和720p分辨率,单镜头延长可调节5至30秒长度,并支持多种宽高比[46] - 虚拟形象模型采用音视频精准对齐和关键帧约束生成机制,通过区域掩码建模实现语音与面部运动的对应关系[47][48] - 整体架构采用模块化设计,三大功能模块可独立使用或灵活组合,并通过企业级数据处理管线确保质量稳定[49] - 推理端融合了蒸馏、量化及算子优化等技术,打造出低延迟、高吞吐的推理引擎[49] - 训练效率方面采用了极致的显存与计算优化方案,支撑高分辨率长视频的千卡级稳定高效训练[50] 昆仑万维的技术积累与行业竞争 - SkyReels-V3的开源反映了AI视频生成领域的竞争态势,国内团队通过开源策略快速建立生态、获取反馈、迭代优化[51][52] - 昆仑万维在视频生成领域有长期技术积累:2025年2月开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1及SOTA级别表情动作可控算法SkyReels-A1;4月发布全球首个使用扩散强迫框架的无限时长电影生成模型SkyReels-V2;随后推出可控视频生成框架SkyReels-A2和任意时长全模态音频驱动数字人创作模型SkyReels-A3[53] - 迭代速度和技术深度显著[54] - 昆仑天工自研了包括语言大模型、多模态大模型、SWE代码大模型、Agent大模型、视频大模型、3D大模型、音乐大模型、音频大模型在内的8大模型矩阵,并持续开源几十个模型,在多个国际评测中取得开源最优成绩[54] - 视频模型是连接文本、图像、音频等多模态能力的关键节点[55] - 此次开源预示着AI视频生成的竞争正在进入更激烈的阶段,技术壁垒逐渐被打破[56]
万物皆可参考是种什么体验?Vidu Q2参考生Pro:特效、演技、细节全都要
机器之心· 2026-01-28 12:59
AI视频生成行业技术跃迁 - 行业在短短两年内从生成“抽象鬼畜”内容进化到“惟妙惟肖”的真智能水准,实现了翻天覆地的技术跃迁 [2] - 行业竞争焦点正从解决“有没有”转向追求“精不精”,站在追求“可控性”的关键转折点 [2] Vidu Q2参考生Pro产品发布与定位 - 公司于近期正式发布Vidu Q2参考生Pro,其全新Slogan“视频参考,创想无限”标志着对AI视频生产流的底层重构 [3] - 该产品是全球首个“万物可参考”的视频模型,将参考模态从静态图像扩展至动态视频与多维元素 [3][4] - 产品在短短数月内完成了从“生成”到“编辑”的闭环,其“视频参考”功能重新定义了AI的“模仿”与“创造” [3][4] 核心功能亮点:视频参考 - 功能极大丰富了参考类型,涵盖人物、场景、特效、表情、动作、材质纹理等 [4] - 能同时处理多段视频素材,实现百万级电影特效、细腻微表情、复杂流体纹理的一键迁移 [4] - 能精准拿捏细微情绪,让演技自然可信,让特效落地生根 [4] 核心功能亮点:视频编辑 - 支持对视频内元素的精准增、删、改、减,如改变人物站位、调整画幅、更换背景、美颜美发及复合编辑 [5] - 得益于支持2个视频加4张图片的多模态高并发输入能力,即便多次复合编辑,视频核心元素与画面一致性依然稳定 [5] - 让视频编辑告别了不可预测的“抽卡”模式 [5] 技术能力实测:复刻演技与特效 - 能完美复刻《X战警》魔形女的变身过程,实现“百万特效一键白嫖”,将传统需耗时数周、高成本的工业级特效制作边际成本压缩至几近归零 [17] - 能高精度复刻张曼玉在《甜蜜蜜》中的经典哭戏,眉眼间的情绪流转相当传神,实现了高精度的神态捕捉与生成 [22] - 支持多视频参考,能同时结合沈腾的动作与怪盗基德的服饰元素,生成效果丝滑,手部动作完美复刻,镜片高光、遮挡关系及服饰光影处理严丝合缝 [27] - 技术展现了惊人的“表演-特效”同步率,能同时驾驭高难度流体形变与读懂情绪代码 [27] 技术能力实测:材质纹理迁移 - 参考生视频中的材质纹理迁移意味着AI开始习得“质感语言”,理解光线在不同材质上的折射与粗糙度影响,使视频从“看起来像”进化到“感觉是真的” [29] - 能将普通杯子瞬间“烧制”成青花瓷,釉面反光与杯身曲面严丝合缝,毫无“贴图感” [30] - 能切换整体风格,如瞬间变为粘土风 [32] - 基于静态照片生成视频时,能精准构建画面的3D空间关系,完美还原环境并保持毛绒质感稳定 [36] - 在修改物体(如将碗换色)时,AI真正理解了物体的3D结构和光影关系,实现了物理层面的重构而非简单滤镜叠加 [37] 技术能力实测:精准视频编辑 - 视频编辑功能能精准修改细节,如完美删除指定物体(绿色餐具)并在指定位置添加新元素(蓝色碗中放苹果) [38] - 在官方演示中,能完美抹去手机并“脑补”出被遮挡的手指细节和掌纹,类似将Photoshop的“内容识别填充”应用于视频 [41] - 尽管在极度复杂画面下偶有瑕疵,但相比过去的崩溃体验,可用性已实现从0到1的质变 [41] 行业影响与产业应用前景 - 技术的生产力跃迁意味着影视创作将告别“唯预算论”的旧时代,工业级特效不再是昂贵的奢侈品,创作者的想象力成为衡量作品价值的唯一天花板 [17] - 高精度神态生成能力可极大拓展制作流程想象空间,降低短剧市场创意可视化门槛,让好故事不再受限于初期制作条件简陋 [22] - 在影视制作前期,可升级为更直观的Previz(预演)工具,让导演在开机前看到带有情绪色彩的动态分镜 [22] - 在动漫领域,该技术或能成为传统转描工艺的智能化升级,将真人表演韵律转化为特定画风动画,助力跨次元创作高效落地 [22] - 对于创作者而言,技术意味着能同时驱动虚拟角色的皮囊与灵魂,实现“一人就是一支特效剧组”,跳过繁琐后期 [28] - 精准的编辑能力为创作者直接省掉了无数次“重新抽卡”的垃圾时间 [42] 行业发展趋势总结 - AI视频生成正从一场凭运气拆盲盒的“概率游戏”走向“颗粒度掌控”,技术从“野蛮生长”走向精细化 [43] - AI视频的下半场,竞争焦点不是运气,而是控制力,这代表着创作自由的回归 [44]