AI视频创作
搜索文档
腾讯研究院AI速递 20260319
腾讯研究院· 2026-03-19 00:06
生成式AI - **OpenAI发布轻量级模型GPT-5.4 mini和nano,性价比显著提升**:GPT-5.4 mini在SWE-Bench Pro编码测试中得分达54.4%,仅比满血版低3.3%,在计算机使用OSWorld测试中达72.1%媲美旗舰版;其输入价格为每百万token 0.75美元,输出价格为4.5美元,仅为GPT-5.4价格的1/3;GPT-5.4 nano价格更低至输入每百万token 0.2美元,输出1.25美元,并已向ChatGPT免费用户开放 [1] - **OpenAI提出子智能体架构,优化资源使用**:公司提出“大模型决策+小模型执行”的子智能体架构,GPT-5.4 mini在Codex中仅消耗旗舰版配额的30%,尽管长上下文处理仍是短板,但分层调度思路正成为行业共识 [1] - **Anthropic推出跨设备Agent功能Dispatch**:通过Cowork新功能Dispatch,用户可通过手机扫码配对远程指挥Mac上的Claude操作电脑,实现从“盯着AI干”到“AI自己干”的跨设备Agent跃迁 [2] - **Dispatch功能实测表现与部署策略**:MacStories实测综合成功率约50%,能完成文件查找、Notion操作、邮件总结等任务,但打开应用、跨应用发送和Safari操作仍失败;该功能目前仅面向Max订阅用户,所有操作在本地Mac执行不经过云端,手机仅作为遥控器,与此前面向程序员的Claude Code Remote Control形成双线布局,覆盖GUI桌面和命令行两大场景 [2] - **MiniMax发布首个深度参与自我迭代的大模型M2.7**:M2.7是首个模型深度参与自身迭代的模型,能自主构建RL Harness、更新记忆、驱动强化学习并优化过程,在内部脚手架上自主迭代超100轮实现30%效果提升 [3] - **M2.7在多项专业测试中表现优异并支持多智能体协作**:模型在SWE-Pro编码测试中得分56.22%接近Opus水平,VIBE-Pro端到端项目交付测试得分55.6%,支持原生Agent Teams多智能体协作,40个复杂skills保持97%遵循率;在GDPval-AA专业办公ELO测试中得分1500为开源最高,可自主完成从研报分析、营收建模到PPT/Word/Excel全套交付,公司同步开源了互动娱乐框架OpenRoom [3] - **腾讯QClaw进行重大更新,降低使用门槛**:微信入口从客服号升级为小程序,支持直接接收电脑端文件,即将支持语音、图片等多模态交互;全新上线“灵感广场”功能,围绕办公提效、深度研究、娱乐游戏等场景预置常用任务和skills,用户无需编写指令即可一键运行 [4] - **QClaw基于OpenClaw封装并计划扩展功能**:该产品基于OpenClaw进行极简封装,主打下载即用的零门槛体验,后续将支持通过小程序创建定时任务、实时接收消息、远程切换底层模型等能力 [4] - **LiblibAI推出同时面向人与Agent的AI视频创作平台LibTV**:该平台同时为人类创作者提供无限画布专业工具和为Agent提供Skill接口,支持从剧本到成片的全流程闭环创作 [5][6] - **LibTV上线多项独家AI能力并实现高性价比**:一次性上线20多个独家AI能力,包括角色三视图、360度角度呈现、多机位9宫格、大师运镜、视频精准编辑等专业控制功能;已发布OpenClaw适配的Skill,Agent可一句话完成从剧本生成到视频剪辑全流程,平台集成可灵3.0等顶级模型,定价比竞品低最高达92% [6] 前沿科技 - **2025年图灵奖授予量子信息科学奠基人**:ACM将2025年图灵奖授予Charles Bennett和Gilles Brassard,表彰二人创建量子信息科学基础,这是图灵奖首次颁给与量子物理直接相关的研究 [7] - **获奖者贡献奠定了量子通信与互联网的基石**:两人于1984年提出的BB84量子密码协议,其安全性直接根植于量子力学定律而非数学假设;1993年又证明量子隐形传态可行,奠定了量子互联网的技术基石 [7] - **量子信息领域从边缘想法发展为战略领域**:二人合作始于1979年,历经四十余年将量子信息从边缘想法发展为拥有完整学科体系和国家战略的领域,BB84协议的变体已在全球量子通信网络中实际部署 [7] 报告观点 - **Anthropic内部Skill构建已形成体系化经验**:公司Claude Code团队内部已积累数百个活跃Skills,并将其归纳为9大类型,包括库和API参考、产品验证、数据获取分析、业务流程自动化等 [8] - **Skill构建的核心最佳实践**:核心经验包括将Skill视为文件夹而非单个Markdown文件,利用文件系统实现渐进式信息披露;内容应聚焦“常见坑”专区而非陈述显而易见的知识;给予方向而非剧本避免过度约束 [8] - **推荐实现Skill记忆与效果衡量的方法**:推荐使用日志文件或SQLite实现Skill记忆能力,通过PreToolUse Hook记录调用日志来衡量效果,并建议团队建立内部插件市场以实现Skills的发现与分发 [8] 行业动态与战略 - **月之暗面提出重构Transformer底层技术路线**:公司创始人杨植麟认为单纯堆算力不够,需对优化器、注意力机制和残差连接等底层基石进行重构,推出的Kimi Linear和Attention Residuals方案获得Karpathy和马斯克高度评价 [9] - **月之暗面将Kimi进化逻辑归纳为三个维度并实现高估值增长**:公司将Kimi进化逻辑归纳为Token效率、长上下文和智能体集群三个维度的共振,K2.5通过Orchestrator机制将复杂任务拆解给数十个子Agent并行处理;公司估值从去年底的43亿美元在不到半年内跳涨至180亿美元,正进行10亿美元融资,并计划继续开源MuonClip、Kimi Linear等底层创新 [9] - **英伟达CEO黄仁勋对AI影响持乐观态度并发布新产品**:黄仁勋表示AI不会让人失业,反而会让人更忙碌,因为30分钟完成过去一个月的工作意味着人们将持续处于执行关键任务中 [10] - **英伟达发布新一代产品并大幅上调收入预期**:公司发布Rubin架构的7颗芯片和5个机架等新品,将加速芯片收入预期提至1万亿美元;展望10年后,公司员工将从4.2万增至7.5万,并配备750万个全天候工作的智能体 [11] - **英伟达高度看好OpenClaw生态**:黄仁勋高度看好OpenClaw,称其为开源代理式AI标准,类比Linux生态将持续获得全球开发者贡献,英伟达已针对性推出NemoClaw软件栈 [11]
劝视频博主别拿龙虾起号,7×24小时全自动,碳基生物真卷不过
量子位· 2026-03-06 18:12
AIVideo Agent 产品功能 - 产品名称为 AIVideo Agent,由 AI视频创作平台 AIVideo.com 发布,是一个名为 Assistant 的“数字员工”功能,能够完全自主地完成视频制作流程 [1][4] - 该功能可实现全天候 7×24 小时不间断工作,自动化处理包括找选题、写脚本、找素材、剪辑、配音、加字幕、发布在内的完整视频工作流 [2][9][11] - 具体能力包括为视频添加音乐、转场、特效,并能自动将成品发布至邮箱、YouTube、Instagram、X 等平台,或上传至 Discord [2][3][6] - 产品深度集成了 Google 云端硬盘、文档、Notion、Discord、Gmail、网络搜索等功能,支持自动化检查任务、确定优先级、生成初稿等复杂工作流 [5][10] - 产品定位专注于视频制作领域,非通用型 AI 助手,能够理解分镜、空镜、粗剪、精剪、B Copy 等专业视频制作术语 [12][13] 产品使用与操作 - 用户上手门槛极低,无需配置 API 密钥、技术设置或复杂界面,仅需使用自然语言描述需求即可操作 [2][13][14] - 平台提供类似传统剪辑软件的界面,左侧为素材库,中间为视频轨道,右侧显示 AI 的思考流程与工具调用过程,并支持通过提示词交互 [28] - 用户可在生成的视频基础上直接进行手动修改,如分割、吸附、打点标记等,操作空间大 [35][36] - 视频生成速度较快,例如生成一个包含多个分镜并完成卡点剪辑的音乐视频仅需一两分钟 [29][30] - 右侧界面会完全列出 AI 的思考过程,例如如何进行节拍分析并实现卡点剪辑 [32] 商业模式与定价 - 该 Assistant 功能目前处于测试阶段,需要开通会员才能使用 [15] - 会员价格为每月 74 美元,提供的使用量额度约为 1100 个视频片段和 22000 张图片 [15] AIVideo.com 平台能力 - 平台功能齐全,支持制作专业音乐 MV、歌词视频、循环视频、可视化视频、PPT、剪贴风等多种视频类型 [24] - 支持从脚本开始创建视频,并具备图片转视频、音频转视频、文字转图像、文字转视频等多种生成功能 [24] - 针对电商和房地产行业推出了专门的视频创作模板 [25] - 在视频生成案例中(如以马斯克为主角的音乐MV),AI 能够根据提示词生成多个分镜,并按照伴奏节拍进行剪辑,但生成内容的人物一致性仍有提升空间 [27][29][30][31] 行业影响与市场反应 - 该产品的出现被部分观点认为可能“完全改写传统的视频生产流程”,使视频创作走向自动化 [38][39] - 行业类比认为,视频制作正走在与写代码类似的路径上,创作者角色更趋近于导演,而执行工作由 AI 智能体完成 [39] - 产品展示了在用户睡觉时自动完成从网络搜索新闻、撰写脚本、生成视频到发布的全流程自动化案例,凸显了其提升内容生产效率的潜力 [17][19][20]
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster
机器之心· 2026-03-06 12:31
行业技术演进 - 视频生成领域正从传统的单镜头生成迈入多镜头视频生成时代,近期可灵3.0、Seedance 2.0等产品已展示出多镜头叙事能力,支持一次生成多个导演级镜头[2] - 对于预算有限的开发者而言,参数量在10B(百亿)以上的大模型开发成本较高,100B(千亿)以上的模型更是令人望而却步[2] 公司/研究团队创新 - 大连理工大学、香港中文大学与快手可灵团队联合推出了名为“MultiShotMaster”的高度可控多镜头视频生成框架[2] - 该框架的创新性在于,即使在参数量约为1B(十亿)左右的小模型上,也能实现导演级的镜头调度和连贯叙事,并支持多图参考和主体运动控制[2] - 该论文已被CVPR 2026录用,基于Wan 1.3B和14B的多镜头模型的训练和推理代码已开源[4] - 开源版MultiShotMaster在由北大等高校举办、华为赞助的AAAI CVM Workshop竞赛中斩获冠军,竞赛重点考核世界知识一致性、相机移动一致性和跨镜头ID一致性[5] 技术框架核心 - MultiShotMaster调整了传统单镜头文生视频模型架构,使其能够生成多镜头视频,每个镜头单独通过3DVAE编码并在时序上级联融合[7] - 作者提出了“多镜头叙事RoPE”,在原始的3D RoPE基础上于镜头切换处施加相位偏移,这能显式标记镜头边界并维持叙事顺序,从而支持用户自由设定镜头数量和时长[7] - 框架构建了“总分式提示词结构”,使用全局提示词描述角色外观、环境及风格,镜头级提示词描述角色交互、场景布局、相机运镜,并防止跨镜头信息泄露[8] - 为实现可控性,框架设计了“时空位置感知的RoPE”,将指定时空区域的RoPE重采样为更细粒度后分配给参考图像tokens,从而实现参考图像在指定时空位置的注入[11] - 通过复制同一角色的Token并分配不同的时空RoPE,可以控制同一主体的运动轨迹[12] - 框架设计了“多镜头-多主体Attention Mask”,允许跨镜头视频tokens交互,但限制每个镜头的视频tokens仅能与视频内的参考tokens交互[12] - 整个框架没有引入外部参数,而是利用并改进了视频生成模型原有的3D-RoPE,实现了可控的多镜头视频生成,支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化以及背景可定制的场景一致性[12] 实验数据与结果 - 在定量和定性的比较中,MultiShotMaster在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能[17] - 定量实验结果显示,在文本对齐(Text Align.)指标上,带参考图的MultiShotMaster模型得分为0.227,高于对比模型VACE(0.201)和Phantom(0.224)[21] - 在镜头间语义一致性(Inter-Shot Consistency Semantic)指标上,带参考图的MultiShotMaster模型得分为0.702,高于其他对比模型[21] - 在叙事连贯性(Narrative Coherence)指标上,带参考图的MultiShotMaster模型得分为0.825,显著高于其他对比模型[21] - 在参考一致性(Reference Consistency)的多个子项(主体、背景、接地)上,带参考图的MultiShotMaster模型也取得了最佳或领先成绩[21] 数据构建方法 - 训练数据构建采用自动化流程:使用镜头切换检测模型TransNet V2将长视频裁切成短片段,再用场景分割模型SceneSeg聚合同一场景片段并采样多镜头视频[19] - 引入总分式提示词结构,使用Gemini-2.5-Flash生成全局描述和每个镜头的描述[19] - 整合YOLOv11、ByteTrack和SAM来检测、追踪和分割主体图像,再利用Gemini-2.5-Flash根据主体外观合并跨镜头的跟踪结果[19] - 使用OmniEraser获得干净的背景参考图[19] 总结与影响 - MultiShotMaster通过对RoPE的创新性改进,实现了高度可控的多镜头视频生成,其多镜头叙事RoPE与时空位置感知RoPE,在无需引入额外参数的情况下,实现了对镜头边界、角色一致性及运动轨迹的精细化操控[23] - 在仅约1B参数的模型规模下,该框架即展现出了卓越的叙事连贯性与跨镜头一致性,验证了其实现导演级控制的巨大潜力[23] - 自动化的多镜头数据标注流程及开源模型将为研究社区提供强力支持,有望推动AI视频创作进入一个叙事更连贯、表达更自由的新阶段[24]
中国AI视频双雄并起:Seedance 2.0与Vidu Q3组团席卷全球
36氪· 2026-02-12 20:39
行业趋势:AI视频生成模型的核心竞争力演进 - AI视频生成模型的核心竞争力正从基础的真实感,向具备“导演思维”的高级创意调度能力演进,这包括对故事结构、镜头语言、节奏的精准控制 [1] - 模型的“表演张力”与情绪表达的自然度成为评判AI视频质感的新重要标准,这要求模型在人物神情、情绪递进等细节上实现接近真人演员的稳定控制 [5][7] - 音画一体化的高完成度成为关键,领先模型能够实现环境音、动作声与画面节奏的高度协同,生成内容无需额外“补声”即可作为可用成片,特别适用于短剧、广告等商业场景 [8][9] - 模型对内容“起承转合”的掌控能力,尤其是在视频开头几秒制造视觉冲击力、在结尾进行情绪收束的能力,正变得至关重要,这直接关系到在短视频生态中的传播效率与用户留存 [10][13] - 创作的可控性成为AI视频工具进化的核心,具体体现在对镜头节奏、风格统一性、特效参数等方面的精细控制能力,这推动AI视频从生成工具向真正的创作工具转变 [14][15] 公司表现:Seedance 2.0 的核心特点 - Seedance 2.0 因具备“导演思维”而成功破圈,其特点在于剧本驱动、分镜清晰、节奏精准 [1] - 在情绪表达上,该模型能够使情绪的起伏与节奏感与剧情节点同步推进,增强画面张力与“表演感” [7] - 在镜头语言与节奏控制上表现稳定,例如在“毒液变身”等高强度特效场景中,能实现动作衔接流畅、闪光爆点处理得当,展现出极强的大片质感 [13] - 在快节奏场景(如李小龙风格动作片)中,其镜头切换自然、动作衔接流畅,具备很强的“剪辑感”,适合强调动感、爽感的内容创作 [14] - 该模型代表了AI视频创作中侧重“丝滑节奏与高上手效率”的路径,与Vidu Q3形成差异化竞争 [15] 公司表现:生数科技 Vidu Q3 的核心特点与市场地位 - Vidu Q3 登顶全球权威AI评测平台Artificial Analysis的视频生成模型排行榜,成为全球排名第一的视频生成模型 [2] - 该模型强调“为剧而生”,能够一次性生成16秒的完整叙事段落,并支持多角色、多语种对话,具备强烈的“导演感”与“表演张力” [3] - 在“表演感”上表现突出,生成的人物表情细节(如眼神、嘴角、眉弓)稳定性高,在情绪转折时能呈现接近真人的自然变化 [5][7] - 在风格控制能力上表现突出,支持特效参数设定与多参考素材输入,创作者可细致调节光效、镜头节奏、角色稳定性等维度 [15] - 该模型代表了“可控的内容表达、扎实的技术底盘以及高完成度的成片落地”的崛起路径,与Seedance 2.0的创意调度形成互补 [4][15] - 据Artificial Analysis数据,Vidu Q3 Pro的ELO评分为1,244分,领先于众多国际竞品 [3] - 在生成速度上,Vidu比OpenAI的Sora 2快10倍,相较Google Veo 3 Fast和Grok-imagine-video也有2倍优势 [16] - 公司开源的TurboDiffusion框架,将生成效率提升至单张RTX 5090显卡1.9秒生成5秒视频,效率相比传统扩散路径提升100-200倍 [18] 市场竞争格局 - 根据Artificial Analysis全球排行榜,当前领先的视频生成模型包括:排名第一的Vidu Q3 Pro(生数科技)、排名第二的grok-imagine-video(XAI)、排名第三的Runway Gen-4.5(Runway)等 [3] - 中国模型正在实现技术追赶与能力破圈,Seedance 2.0和Vidu Q3分别代表了创意调度与高水准输出的两个高点,正携手走上全球第一梯队 [16][18] - 相比海外模型,Vidu和Seedance更加强化结构控制与多角色协同,在短剧、广告、剧情类内容的成片落地方面更具适用性 [18] - 国产AI视频模型在生成速度、结构控制、情绪表现、风格自由度等多个核心维度上持续接近甚至超越海外同类产品 [19]
【热门行业】字节Seedance2.0重磅登场 AI视频产业景气上行(附产业链名单)
新浪财经· 2026-02-12 20:12
事件核心 - 字节跳动于2月12日正式发布视频创作模型Seedance2.0,该模型此前已在云雀App内测,其发布为AI视频创作领域注入新活力 [1][6] - 模型核心突破在于从“抽盲盒式生成”跃迁至高可控、可复用的“导演级”创作流程,升级为具备完整叙事与制作能力的“全能AI导演” [1][6] 技术突破与能力 - 实现四项巨大突破,带来模型能力质变:1)自分镜和自运镜,可根据用户描述自动规划分镜运镜 2)支持全方位多模态参考,最多可输入9张图片、3段视频和3段音频共12个参考文件 3)音画同步生成,可生成匹配音效和配乐,并支持口型同步与情绪匹配 4)具备多镜头叙事能力,能在多个镜头间维持角色和场景一致性 [1][7] - 模型已在真实商用场景落地,例如中文在线实现“一键转短剧/漫剧”,掌阅科技推出漫剧AI工坊,上海电影利用该技术对葫芦娃、黑猫警长等经典动画IP进行数字化重制 [2][7] 行业影响与市场反应 - 华泰证券判断AI漫剧与AI短剧的成本与效率优势将进一步放大,单集制作成本有望显著下降,制作周期或将从当前7-10天压缩至3天以内 [2][7] - 受消息提振,2月12日AI概念股逆市冲高,智谱涨39.56%,MINIMAX-WP涨14.62%,金山云涨7.82%,商汤-W涨6.77% [2][7] - 华鑫证券认为,Seedance2.0可生成智能长视频,有望推动视频生成新范式,标志AI视频从技术演示迈入商业可用阶段 [3][8] - 方正证券指出,发布直接利好影视相关板块,核心价值在于让创作者专注于内容与创意本身,竞争焦点已转向对创作意图的理解与执行效率的提升 [3][9] - 华泰证券进一步认为,发布有望加快行业渗透和放量节奏,伴随模型能力提升,AI视频应用场景有望向电影、电视剧进一步外延 [3][10] 产业链相关公司 - **上游算力与基础设施**:包括浪潮信息(字节AI算力核心供应商)、中科曙光(提供AI服务器与算力服务)、润泽科技(字节AIDC服务商)、工业富联(供应高端AI服务器)、海光信息(提供国产算力芯片)、寒武纪(推理端国产替代)、中际旭创(支撑高速数据传输)、网宿科技(承载AI视频带宽需求) [4][5][11] - **中游模型/算法/工具平台**:包括万兴科技(集成Seedance2.0插件)、商汤-W(布局AI视频生成)、昆仑万维(提供AI视频生成能力)、当虹科技(优化生成视频画质与传输效率)、海天瑞声(提供高质量训练数据)、拓尔思(支撑文本-视频转换)、虹软科技(提供视频图像增强与处理技术) [5][11] - **下游内容IP与制作**:包括中文在线(实现“小说转短剧”)、掌阅科技(首批接入模型,字节持股7%)、阅文集团(拥有1400万+作品IP)、华策影视(接入Seedance降本增效)、捷成股份(拥有50万+小时影视版权)、上海电影(合作开发短视频内容)、德才股份(获字节授权进行B端短剧定制)、芒果超媒(用AI提升内容制作效率) [5][11][12] - **下游营销与分发及版权服务**:包括蓝色光标(广告视频全自动化生产)、引力传媒(用Seedance做营销视频)、易点天下(用AI优化广告素材覆盖67国)、省广集团(受益AI内容营销)、视觉中国(为即梦AI提供合规素材与版权分成) [5][12]
你敢信?打打字就能拍电影!
债券笔记· 2026-02-11 18:55
产品核心功能与定位 - 产品为字节跳动自研的AI视频大模型Seedance2.0,其核心功能是通过文字输入想法,一键生成电影级短片,实现了“把想法变成画面”的简单方式[2] - 产品解决了传统视频创作需要设备、技术和长时间剪辑的痛点,使短片创作实现零门槛、高效率、高质感[2][3] - 产品上线12小时内,短片生成量突破百万,在AI创作圈引起巨大反响[2] 技术突破与产品优势 - 2.0版本实现了架构级革新,解决了AI视频常见的嘴型对不上、角色变脸、长视频崩坏等痛点,从“生成画面”升级到“交付完整成品”[3] - 生成短片具备4K超清画质、自动专业运镜、音画同步及风格统一等特点,可直接发布[3] - 产品能处理复杂剧情,输入简单脚本即可自动生成连贯且镜头切换自然的视频,堪比专业分镜[3] - 核心优势包括真正零门槛(打字即可,传统需5天的创作可缩短至最多5分钟)、可控性拉满(支持多模态参考素材输入,60秒内角色场景保持一致)以及全场景适配(覆盖普通人、自媒体、学生、企业等多类用户)[4] 行业影响与市场意义 - 产品将导演、摄影师、剪辑师的功能打包,大幅降低了专业短片创作的门槛[3] - 在AI时代,该工具的意义在于解放创作者,使创作核心从技术转向创意,未来能做好视频的将是创意鲜活的人[5] - 产品能帮助自媒体人快速出片追赶热点,帮助学生党轻松完成专业作业,并为企业创业者节省高达数万元的拍摄成本[4]
计算机行业周报:字节跳动Seedance2.0重磅上线,ClaudeOpus4.6发布-20260210
华鑫证券· 2026-02-10 23:32
报告行业投资评级 - 行业评级为“推荐(维持)” [2] 报告核心观点 - AI赛道呈现高景气与高确定性,谷歌等科技巨头在AI基础设施领域的巨额资本开支印证了算力需求的强劲,报告维持对AI硬件板块的看好 [7][63] - AI应用与模型技术持续快速迭代,字节跳动Seedance2.0在AI视频生成领域实现“世界模型”雏形的突破,ClaudeOpus4.6在编程与办公场景展现领先性能,行业竞争进入以创意和场景应用为核心的新阶段 [3][31][35] - 企业级AI细分赛道涌现新机会,Fundamental凭借差异化的大型表格数据模型获得市场认可,完成高额融资,开创了结构化数据处理的新赛道 [4][52][54] 算力动态总结 - **算力需求跟踪**:根据OpenRouter数据,2026年2月2日至8日,周度token调用量为9.81T,环比增长20.22% [16] - **市场份额分布**:在tokens规模市场份额中,Google以18.5%的份额位居首位,moonshotai以16.3%位列第二,Anthropic、OpenAI、Deepseek分别占据15.1%、10.5%、9.7%的份额 [17] - **算力租赁价格**:上周算力租赁价格保持平稳,例如腾讯云A100-40G配置价格为28.64元/时,阿里云同配置为31.58元/时,价格环比变化均为0.00% [23][24] - **产业突破**:字节跳动全新AI视频生成模型Seedance2.0正式上线,凭借“自分镜自运镜”等四大核心能力,实现了从“抽卡式生成”到“导演级创作”的质变,并展现出AI视频领域“世界模型”的雏形 [3][24][31] AI应用动态总结 - **应用流量**:在2026年1月31日至2月6日期间,Kimi的周访问量环比大幅增长23.49%,达到11.99M;其平均停留时长为8分56秒,环比增长3.28%,在主要AI应用中增速领先 [33][34] - **模型发布**:Anthropic于2026年2月6日发布ClaudeOpus4.6,其核心增强在于编程任务规划与执行的可靠性,并成为首个在beta阶段即支持高达100万token上下文的Opus级别模型 [3][35] - **性能表现**:ClaudeOpus4.6在多项基准测试中表现领先,特别是在处理海量文档信息时,“上下文衰减”现象显著改善,在MRCRv2测试的特定变体上得分达76%,远高于Sonnet4.5的18.5% [36] - **场景集成**:该模型深度集成于办公场景,支持Excel、PPT等应用,并引入“智能体群”模式,可调动多个智能体协作完成复杂任务,例如成功从零编写出一个约10万行代码的C编译器 [45] AI融资动向总结 - **融资事件**:AI企业Fundamental Technologies Inc.于2026年2月完成2.55亿美元融资,公司估值达到12亿美元 [4][52] - **技术特点**:公司自研的大型表格数据模型Nexus,采用与主流LLM不同的确定性架构,专为处理数十亿行级别的结构化数据设计,已获得多家财富100强企业的百万美元级订单 [4][53][54] - **行业意义**:此次融资印证了企业级结构化数据处理赛道的潜力,Fundamental的技术填补了行业空白,为金融、制造、零售等领域提供了新的AI应用方向 [54] 行情复盘总结 - **指数表现**:上周(2026年2月2日至6日),AI算力指数单日最大涨幅为3.25%,最大跌幅为-3.85%;AI应用指数单日最大涨幅为2.72%,最大跌幅为-2.59% [57] - **个股涨跌**:在AI算力指数内部,亚康股份录得最大涨幅+9.91%,开普云录得最大跌幅-32.80%;在AI应用指数内部,美迪凯录得最大涨幅+10.12%,蓝色光标录得最大跌幅-18.69% [57] 投资建议与公司关注 - **行业逻辑**:谷歌2025年第四季度云业务收入同比增长48%至176.64亿美元,年化营收突破700亿美元;公司2026年计划资本开支1750亿至1850亿美元,较2025年近乎翻倍,重点投向AI基础设施,持续拉动上游硬件需求 [5][7][63] - **建议关注**:报告中长期建议关注四家公司:加快扩张算力业务的精密零部件龙头迈信林、新能源业务高增的唯科科技、AI智能文字识别与商业大数据巨头合合信息、深耕工业AI与软件的能科科技 [7][64] - **公司盈利预测**:报告列出了四家重点关注公司的盈利预测与评级,均为“买入”评级 [9][65]
Seedance2.0开启“一句话成片”时代,传媒板块应声大涨
第一财经· 2026-02-10 19:16
核心观点 - 字节跳动AI视频生成模型Seedance 2.0的发布标志着AIGC技术进入新阶段,其强大的多模态参考能力和低使用门槛显著降低了视频创作成本,引发了传媒与AI应用板块的市场积极反应,并可能彻底重构内容产业的生产流程与组织结构 [1][3] - 技术进步在带来内容生产力解放的同时,也引发了关于虚假视频泛滥、知识产权与信任体系冲击的担忧,行业已出现因训练数据争议而暂停部分功能的案例 [3][4] - AI视频生成模型的竞争焦点已从基础生成能力转向对创作意图的理解与执行效率,不同模型(如Seedance 2.0与可灵AI3.0)在定位、受众、技术路线和定价策略上呈现差异化发展,行业正处于快速发展的黄金窗口期 [4][5][7][8][9] 市场反应与行业影响 - 在Seedance 2.0发布的带动下,Wind文化传媒主题指数(884111.WI)当日收涨4.51%,AI应用指数(8841683.WI)涨1.93% [1] - 方正证券研报分析认为,国内互联网大厂的密集动作已明确印证2026年AI应用产业周期正步入景气上行通道,板块机会将持续发散至AI漫剧、影视IP、数据要素等细分领域 [1] - Seedance 2.0的落地使得AI视频技术的竞争焦点已从基础生成能力,转向对创作意图的理解与执行效率的提升 [7] - 行业尚处于早期阶段,应避免过度聚焦竞争格局,当前是齐头并进快速发展的黄金窗口期 [9] 主要AI视频模型技术特点与对比 - **字节跳动Seedance 2.0**:支持图像、视频、音频、文本四种模态输入,“参考能力”是最大亮点,可精准还原画面构图、角色细节,并复刻镜头语言与复杂动作节奏 [1];其定位故事表达,适合日常短视频、漫剧等中低需求场景,定价更低 [5];对标Sora 2对视频复杂度的支持能力,开始具备镜头语言的雏形,懂分镜与节奏,带有短视频/广告片的网感 [4];大幅度降低了使用门槛,从成本到使用方法都比Sora 2便宜和简单,只要一句话或一张图就能快速成片 [7] - **可灵AI 3.0**:支持多模态输入输出大一统模型体系,从模型生成迈向理解 [1];主要面向P端与B端,目标瞄准影视级质量,主打降低AI味,加强活人感,追求还原真实肌肉、环境和运动表现,且采用高定价策略,精细度非常优秀 [4];定位专业级内容生产,清晰度更高,具备电影质感,细节更优,定价更高 [5] - **技术方向**:未来技术方向包括生成时长延长、清晰度提升、一致性优化,技术路线或将从DiT向自回归模型摸索,并与世界模型联动,增强物理理解与长视频生成能力 [8] 对内容产业的重构与挑战 - Seedance 2.0降低生产门槛,使一般性视频的制作成本无法再沿用影视行业的传统逻辑,并逐渐趋近算力的边际成本,内容领域将迎来史无前例的通货膨胀,传统组织结构与制作流程会被彻底重构 [3] - 技术门槛的降低意味着对创作者提出了更高的要求,现有的知识储备和审美认知可能还远远不够 [8] - 随着场景触达与模型能力提升,AIGC将像UGC一样通过大幅降低创作门槛释放远超传统模式的市场空间 [9] 引发的争议与风险 - 未来逼真的假视频将变得毫无门槛,而现有的知识产权与审查体系会面临空前冲击 [3] - 因科技博主Tim反映Seedance 2.0大量训练其相关视频,可自动生成带有其声音的视频,即梦运营宣布Seedance 2.0暂不支持输入真人素材作为主体参考的功能 [3] - 此次争议主要因Seedance 2.0的独特之处:模型能够在提示词之外“脑补”内容逻辑,即顶级的“过拟合”,而公众人物的公开视频进入模型训练的数据集难以避免 [3] - 从Veo 3、Sora 2再到Seedance 2.0均是如此,人类影像积累被机器汲取,给用户带来不安全感 [4] 行业参与者观点 - 游戏科学创始人冯骥称“AIGC的童年时代,结束了”,并将Seedance 2.0形容为“当前地表最强视频生成模型” [1][3] - 科技博主阑夕指出,Seedance 2.0与可灵AI 3.0的路线差异,并提及AI强大后需警觉被滥用 [3][4] - AI创作领域KOL@尾鳍Vicky认为,早期AI视频创作形态的泡沫破灭,真正的竞技场才刚刚开始,专业创作者的优势在于人类的情感 [7][8] - 东吴传媒互联网团队通过对比总结了两款模型的定位与定价差异 [5],并认为中国视频模型与海外差距小于文本模型,核心得益于多模态数据积累 [8]
首届京东AI影视创作大赛圆满收官 引领品牌与用户共创内容新风潮
证券日报网· 2026-02-06 19:43
公司动态与活动总结 - 京东于2月6日揭晓首届京东AI影视创作大赛获奖名单,从数千部参赛作品中评选出10支优秀作品[1] - 大赛由京东JoyAI大模型提供技术支持,主题为“1001个抓马的礼物”,于1月14日启动,历时三周[1] - 公司为参赛者提供最高10万元现金奖励和流量扶持,评审采用“数据热度+专业评审”双轨机制[1] - 大赛与美的、科大讯飞、小度、追觅等品牌合作,将AI视频的创意权与诠释权交给用户群体[1] - 公司未来将结合不同节日与主题持续举办AI影视创作大赛,为更多创作者提供展示舞台和奖励[2] 行业趋势与影响 - 赛事彰显AI视频正成为品牌营销的关键趋势[2] - 大赛验证了“用户共创”在品牌营销中的巨大潜力,引领品牌与用户共创内容的新风潮[1][2] - 案例显示,创作者可借助AI工具独立高效完成作品,例如冠军作品《年货特工队》由一人使用AI工具在一周内完成从配乐生成到画面优化的全流程[2] - AI技术降低了创作门槛,让创作回归创意原点,能够放大个体的审美、品味与思想实现能力[2]
实测可灵3.0 - 属于每个人的导演时代。
数字生命卡兹克· 2026-02-05 10:23
核心观点 - 可灵视频生成模型从2世代升级至3世代,实现了跨越式进步,将AI视频模型能力提升至新的天花板水平 [1][3] - 可灵3.0是一个无短板的“超强水桶”,其核心能力升级主要体现在分镜能力和语言能力两个特殊方向上 [7] - 结合可灵3.0与可灵3.0 Omni模型,可以覆盖约百分之九十的视频生成场景,预示着AI视频生产力将迎来巨大提升,未来可能进入“属于每个人的导演时代” [51][52] 分镜能力 - 可灵3.0允许用户生成3到15秒内任意时长的视频,并可规定视频包含的分镜数量及每个分镜的时长 [8] - 提供“智能分镜”功能,用户仅需提供简单提示词并开启开关,模型即可自动生成一系列分镜,极大简化了创作流程 [8][9] - 提供“自定义分镜”功能,用户可详细设定每个镜头的景别、内容、时长及音效,实现对画面的精细化控制 [16][17] - 模型具备强大的“正反打”镜头生成能力,能够丝滑实现对话场景及网球比赛等场景的镜头切换,解决了此前视频模型的难点 [19][20][23] - 分镜能力可用于制作产品广告短片等视频demo,使展示效果比单纯的分镜图更为直观 [24][26] - 支持“故事板生视频”的新玩法,用户可先用AI生成故事板图像,再结合提示词让可灵3.0生成完整视频,效果良好 [26][28][29] 语言能力 - 可灵3.0具备强大的多语言处理能力,能精准处理包含五六个人物、多种语言的复杂对话场景,指令遵循能力精准 [5][7][31] - 语言能力支持根据不同的语境和故事切换语气、口音,使表达与意图完美融合 [31][39] - 基于其语言能力,衍生出“邪修背单词”等创新玩法,可生成将单词谐音与含义巧妙融入剧情的学习视频 [31][33][36][37] - 语言能力可与分镜能力结合使用,例如生成一系列角色与不同客人说不同语言的快速切换镜头 [39][41] 可灵3.0 Omni模型 - 可灵Omni模型从O1升级至3.0 Omni,其核心能力是对现有视频进行编辑和修改 [42][44] - 与主打生成的3.0模型不同,3.0 Omni在视频修改方面表现突出,例如能完美替换视频中的主角并还原人物动作 [44][45] - 3.0 Omni的参考视频时长需控制在3-10秒内,适用于视频改视频的场景 [49] - 3.0与3.0 Omni均支持“视频提取主体”功能,可从本地或历史视频中提取主体,并添加主体音色参考 [45][49] - 两个模型能力互补:有视频编辑或视频参考需求可优先使用3.0 Omni;倾向于文生视频、文加图生视频或首尾帧生成则可用3.0 [51] 行业影响与未来展望 - 此次更新是一次全盘升级,目前优先向“黑金会员”开放,类似GPT新模型优先面向Pro会员的策略,预计不久将全量开放 [52] - 未来AI视频创作将变得更简单、平权,并越来越向真正的影视制作靠拢,例如解决普通人难以处理的分镜问题 [52] - 用户生成视频后,可提取其中的主体和声音用于后续创作,并可用Omni模型直接修改视频局部,结合分镜功能可完成视频剪辑与配乐,这将带来AI视频生产力的巨大提升 [52] - AI视频创作领域在沉寂一段时间后,可能即将迎来下一个盛世 [52][53]