可灵3.0系列模型
搜索文档
我国大模型密集落地 新技术加速普惠应用
央视新闻· 2026-02-14 11:11
行业动态:AI大模型集中发布与技术迭代 - 2025年开年以来,中国人工智能大模型领域迎来集中发布,行业技术迭代持续提速[1] - 大模型正从实验室研发阶段加速走向规模化、普惠化应用,成为数字经济发展的新亮点[1] - 2025年春节前后至今,国产AI技术发展步伐稳健[3] 公司进展:字节跳动发布豆包大模型2.0 - 字节跳动于2月14日正式发布豆包大模型2.0[1] - 豆包大模型2.0具备更强多模态理解能力,在多模态感知、图表理解、长视频理解等多个维度表现出色[1] 竞争格局:多家企业推出新一代模型与能力 - 智谱推出主攻复杂任务的GLM-5模型,并同步升级视频生成能力[1] - 可灵推出3.0系列模型,覆盖图片生成、视频生成、智能编辑、后期处理等核心环节,同时降低创作门槛[1] - 腾讯开源混元图像3.0图生图版本,可实现图片编辑、风格变换、老照片修复以及多图融合等能力[1] - 2025年1月20日,DeepSeek发布推理大模型DeepSeek R1,AI生图、生视频等生成技术随之加快突破[3] 应用落地:场景化应用加速普及 - 2025年下半年新上线的205个AI应用中,超过八成集中在图像处理、办公、教育等具体场景[3] - 截至2025年12月,中国生成式人工智能用户规模已达6.02亿,普及率持续提升[5] - 广阔的用户规模为技术落地提供了市场空间[5] 行业生态:备案数量增长与规范发展 - 2025年全年,平均每天有超过一个生成式人工智能服务在国家网信办完成备案[5] - 截至2025年,累计已有748款相关服务完成备案,行业发展日趋规范[5] - 行业规范为大模型技术普惠筑牢基础[5]
“导演级AI”出道:一场Seedance 2.0引发的产业冲击波
搜狐财经· 2026-02-10 21:59
Seedance 2.0模型发布与市场反应 - 字节跳动于2026年2月7日开始小范围内测新一代AI视频生成模型Seedance 2.0,其“文本生成多镜头电影级视频”的能力被业界称为“导演级AI” [3][5] - 该模型支持同时上传最多12个多模态参考文件(图片、视频、音频),能自动学习并复刻画面构图、角色特征、动作风格和镜头语言,支持分镜图直接生成视频,并在多个镜头中保持角色一致性、灯光连贯性和风格统一 [5] - 模型核心突破在于将AI生成与后期编辑融合,用户可直接修改不满意部分,并支持自动生成适配的背景音乐与音效,以及多种语言和指定歌曲歌词输入 [5] 资本市场对AI视频热潮的反应 - 2026年2月9日,A股文化传媒板块当天上涨4.79%,领涨所有行业板块,个股如荣信文化、中文在线、海看股份、捷成股份股价收获涨停板 [7] - 2月10日,中文在线股价收于42.34元,较前一日收盘价上涨20%并继续涨停,阅文集团收盘价43.58港元,较前一日收盘价上涨15.4% [3][9] - 市场分析认为,传媒板块上涨有春节档预期等多重因素,但Seedance 2.0的火爆为市场注入了新的增长逻辑 [8] 全球AI视频模型竞争格局 - 海外市场有OpenAI的Sora、Runway的Gen-3持续迭代,xAI的Grok Imagin 1.0版本全面上线,支持文生视频、图生视频,单次生成时长10秒,分辨率为720P [3][11] - 国内市场除Seedance 2.0外,快手“可灵”3.0系列模型支持最长15秒连续生成,截至2025年12月已拥有超过6000万创作者,生成超过6亿个视频,服务超过3万家企业用户,年化收入运行率2.4亿美元 [12] - 生数科技“Vidu Q3”在国际权威AI基准测试机构Artificial Analysis榜单中排名中国第一、全球第二,支持16秒音视频、音画同出、多人对话 [12] - 行业观点认为,中国视频模型与海外同行几乎同时起步,在Sora之后,中国各个视频模型的各种能力比海外同行有过之而无不及,评价标准高度场景化,很难简单比较强弱 [13] AI视频模型的技术进步与成本 - 体验者指出,Seedance 2.0在转场、人物一致性及对物理规则的遵循方面表现惊艳,解决了以往视频生成中的细节问题 [6] - 从成本角度看,视频模型用量大,一个3秒480P的视频生成成本约0.3元,720P的3秒视频成本接近1元,而字节跳动上一代模型Seedance1.0 pro每生成一条5秒的1080P视频成本为3.67元 [7] - Runway为证明其Gen 4.5模型生成视频的逼真度,进行了一项1000人参与的调查,只有约一半的人能分辨出模型生成视频与真实视频的区别 [13] 行业发展的潜在问题与应对 - 有创作者测试发现,模型仅凭一张人脸照片就能生成高度相似的声音,并“脑补”出从未展示过的场景视角,引发数据合规与版权边界担忧 [3][10] - 针对用户反馈,字节跳动于2月9日在其创作者社群中宣布,Seedance 2.0目前暂不支持输入真人图片或视频作为主体参考,正在进行紧急优化 [10] - 专家指出,AI的进步不会因争议停下,但当前阶段,由于声音和视频具有更强的个人与场景特定性,数据使用的责任与边界问题更加凸显 [11] AI视频模型的长期愿景与应用拓展 - 行业参与者布局思路各异,例如美团发布LongCat-Video模型,其整体思路是从视频内容生产逐步迈向世界模型,期望通过视频生成任务压缩物理世界知识,为未来内容创作、新型娱乐交互、自动驾驶机器人等场景提供技术底座,并将长视频生成作为核心方向 [13] - 未来,视频生成不仅服务于内容创作,更将成为模拟物理世界的重要载体,赛道竞争将不再局限于“谁能生成更逼真的画面” [13] - 中国独立电影制作人已开始大量使用Seedance 2.0制作电影,AI视频模型在创作者端掀起的热情与资本市场活跃形成情绪共振 [7]
未知机构:周观点2026年多模态模型有望迎来DS时刻开源计算机1-20260210
未知机构· 2026-02-10 10:10
纪要涉及的行业或公司 * **行业**:人工智能多模态模型行业,特别是视频生成领域 [1] * **公司**:OpenAI (Sora)、谷歌 (Gemini/Veo)、可灵AI (Kling)、字节跳动 (Seedance)、DeepSeek [1][2] 核心观点和论据 * **核心观点:2026年是多模态模型的“DeepSeek时刻”**,意味着在能力提升的同时,成本将大幅下降,从而推动应用落地 [1] * **论据1:技术演进类比**:将2024年2月的初代Sora比作视频领域的“GPT-1时刻”,将2025年9月底的Sora 2比作“GPT-3.5式突破时刻” [1] * **论据2:近期重大进展**:2025年10月谷歌发布Veo 3.1及Fast付费预览版,带来音频支持、叙事控制等升级;2026年初,可灵3.0系列和字节Seedance 2.0相继正式上线 [1][2] * **论据3:驱动因素**:借鉴DeepSeek通过开源与成本优势驱动文本大模型普及的经验,预计多模态模型将遵循类似路径 [1] * **核心观点:多模态领域竞争加剧,技术实现突破性进展** [2] * **论据1:可灵3.0系列模型**:于2月5日上线,基于All-in-One理念构建一体化视频模型体系,覆盖图片生成、视频生成、编辑及后期等影视级全流程链路 [2] * **论据2:字节Seedance 2.0模型**:于2月7日上线,具备生成1080p广播级视频、音视频同步、多镜头叙事、流畅运动合成、卓越提示词遵循等特征 [2] * **核心观点:商业化落地是2026年多模态模型厂商的重要命题** [3] * **论据1:商业化关键**:在于模型能力增强以提升用户体验,以及成本端下降以降低使用门槛 [3] * **论据2:标杆案例**:可灵AI是国内商业化最快的多模态模型之一,截至2025年12月,已拥有超6000万创作者,生成视频超6亿个,服务企业用户超3万,年化收入运行率达2.4亿美元 [3] 其他重要内容 * **技术细节**:谷歌Veo 3.1在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原 [1] * **产品定位**:可灵3.0系列标志着AI正式进入影视与创意内容的核心生产环节 [2]
AI应用“春节档”持续上新
财联社· 2026-02-09 18:42
AI应用“春节档”市场动态 - 2025年2月9日,字节跳动发布Seedance 2.0 AI视频生成模型,引发市场关注并带动A股“AI应用”板块多只概念股涨停,包括引力传媒、荣信文化、中文在线等[2] - 在“春节档”期间,多家头部科技公司已先后发布AI应用新产品,包括字节跳动、阿里千问、快手、百度等,后续预计还有更多新模型面世[2] 已发布的AI应用新产品 - **字节跳动**:发布Seedance 2.0(即梦)AI视频生成模型,核心能力为可根据文本或图像创建电影级视频[3] - **阿里千问**:发布Qwen3-Max-Thinking AI助理,核心能力为支持自适应工具调用和测试时扩展技术[3] - **百度文心**:发布文心OCR-VL-1.5 AI办公模型,核心能力为集成印章识别、文本检测与识别(异形框定位)等任务能力[3] - **快手**:发布可灵3.0系列模型,核心能力为覆盖图片生成、视频生成、编辑及后期等影视级全流程链路[3] - **上海AI实验室**:发布InternS1Pro AI4S模型,核心能力为万亿参数多模态,科学推理能力突破[3] - **面壁智能**:发布MiniCPM-o4.5 AI交互模型,核心能力为类人感知与交互沟通[3] - **清华大学与生数科技**:发布MOTUS世界模型,核心能力为统一VLA、世界模型、视频生成、逆动力学、视频-动作联合预测五种具身智能范式,首次实现“看-想-动”的完美闭环[3] 待发布的AI应用新产品 - **字节跳动**:计划发布豆包2.0(新一代旗舰大语言模型)和Seedream5.0(图像生成模型)[5] - **小红书**:计划发布OpenStoryline 1.0.0,具备可对话剪辑功能,效果类似即梦小云雀、商汤Seko 2.0,目前尚在测试阶段[5] - **阿里千问**:计划发布Qwen 3.5,据透露采用了全新的混合注意力机制,极有可能是原生可实现视觉理解的VLM类模型[5] - **Deepseek**:计划发布DeepSeekV4,或将首次整合融合R1的推理框架、Engram的记忆架构与OCR 2的视觉理解能力,打造一个更高效处理文本、代码与复杂文档的多面手[5]
利好!A股这个板块,“0”下跌
中国证券报· 2026-02-09 16:44
A股市场整体表现 - 2月9日,A股市场高开高走,三大指数均上涨,沪指涨1.41%,深证成指涨2.17%,创业板指涨2.98% [1] - 全市场成交额达22702亿元,较上一交易日增加1067亿元,超过4600只个股上涨 [1] 影视院线板块行情 - 影视院线板块涨幅居前,居同花顺板块涨幅榜首位,板块内个股无一下跌 [3] - 捷成股份“20CM”涨停,上海电影、横店影视、博纳影业、欢瑞世纪等多股涨停 [9] - 具体个股表现:捷成股份涨19.93%,上海电影涨10.01%,横店影视涨10.00%,博纳影业涨9.99%,欢瑞世纪涨9.99%,华智数媒涨7.40% [10] 影视行业催化剂 - 2026年春节档预售于2月9日开启,截至当日15:17,春节档新片总票房(含点映及预售)突破4500万元 [3] - 预售票房前三影片为《飞驰人生3》、《惊蛰无声》、《镖人:风起大漠》 [13] - 中原证券认为,春节档作为全年最重要档期,其表现对影视板块业绩及市场估值有显著影响 [13] - 电影市场面临需求增长瓶颈,影视公司正积极探索IP联名、潮玩、线下娱乐、AI内容等新商业业态以提升竞争力 [13] AI人工智能产业链行情 - AI人工智能产业链多点开花,Sora概念、AI语料、快手概念等板块涨幅居前 [3][14] AI行业动态与前景 - 近期AI产业链利好消息不断:字节跳动Seedance 2.0模型旨在生成带同步音频的1080p电影级视频 [17] - 可灵AI发布3.0系列模型,形成覆盖生成到编辑全链路的多模态一体化视频模型体系 [17] - 腾讯、阿里巴巴、字节跳动、百度正进行“AI红包大战”,携亿级资源和生态优势入局,旨在扩大用户覆盖、培养使用习惯 [17] - 中信建投证券认为,大厂集中投入将推动AI应用全民渗透并加速商业化落地,形成“用户积累—数据沉淀—模型优化—体验提升”的良性循环 [18] - 春节期间的用户行为数据将帮助大厂精准挖掘需求痛点,为广告植入、增值服务、B端解决方案等商业化变现提供新方向 [18] 其他活跃板块 - 光纤概念、BC电池、光伏设备等板块在2月9日市场表现也较为活跃 [3]
A股超4600股上涨,AI应用批量涨停,港股智谱狂飙近40%
21世纪经济报道· 2026-02-09 15:43
市场整体表现 - 2025年2月某交易日,A股三大指数高开高走,沪指上涨1.41%至4123.09点,深成指上涨2.17%至14208.44点,创业板指上涨2.98%至3332.77点 [1][2] - 市场成交活跃,沪深两市成交额达2.25万亿人民币,较上一个交易日放量1038亿人民币 [1] - 市场呈现普涨格局,万得全A指数覆盖的股票中,有4609只上涨,仅756只下跌 [2] 主要指数及板块行情 - 主要宽基指数全线上涨,科创综指涨幅最大,达2.47%,中证红利指数涨幅相对较小,为0.67% [2] - AI及多模态模型相关板块表现强势,中文在线、捷成股份等多只个股涨停或涨幅超过10% [3] - 光伏概念股表现活跃,协鑫集成实现4连板,TCL中环4天内收获2个涨停板 [4] - 半导体板块上涨,炬光科技涨超17%,芯原股份涨近15% [5] - 贵金属板块受现货价格大涨刺激而拉升,湖南白银涨停,现货白银日内涨幅达4.97%,最高触及82美元/盎司 [5] - 通信服务板块午后拉升,光环新网涨超10% [5] - 商业航天概念股走高,中超控股、顶固集创等多股涨停 [4] - 油气股走势相对较弱 [5] 行业与公司动态 - AI视频生成领域进展显著,国内厂商可灵AI于2月5日正式上线覆盖影视级全流程的3.0系列模型,字节跳动的多模态模型Seedance2.0也于2月7日完成重要更新,在多镜头连续生成中实现主体特征高度稳定 [4] - 开源证券研报认为,多模态模型能力的提升将释放其商业化潜力,并预计2026年该领域将迎来类似“DeepSeek时刻”的突破,推动影视、游戏、广告等内容创意行业繁荣 [4] - 杉杉股份因控股股东重整事项开盘涨停,实现两连板,根据公告,若重整成功,公司控股股东将变更为皖维集团,实际控制人将变更为安徽省国资委 [5] - 港股市场同步走强,恒生指数与恒生科技指数午后均涨超1%,AI大模型公司智谱股价一度涨超40%,创上市以来新高,市值逼近1300亿港元 [6] - 泡泡玛特港股股价涨近6%,报257港元,创2025年10月以来新高,公司在年会上披露,2025年全球注册会员超1亿人,其标志性IP产品LABUBU全年销量超1亿只 [8]
Open AI发新模型;千问App推30亿免单丨科技风向标
21世纪经济报道· 2026-02-06 11:28
巨头风向标 - OpenAI推出迄今能力最强的智能编码模型GPT-5.3-Codex,该模型整合了GPT-5.2-Codex的编码性能与GPT-5.2的推理和专业知识能力,速度提高了25%,能够承担涉及研究、工具使用和复杂执行的长期任务 [2] - 小米汽车澄清SU7 Ultra专业团队解散为不实信息,为优化销售服务体验,自1月底起SU7 Ultra的销售服务已向全国所有门店开放,原专属销售伙伴也可承接其他车型服务 [4] - 小米汽车通过OTA将辅助驾驶安全里程门槛从1000公里降至300公里,旨在让用户逐步熟悉功能并培养安全意识 [5] - 美团计划以初始代价7.17亿美元(约合人民币50亿元)收购叮咚买菜全部已发行股份,交易符合其在食杂零售领域的长期发展规划,叮咚买菜海外业务将剥离 [6][7] - 千问App上线“春节30亿大免单”活动,第一波活动覆盖2月6日至12日,用户可领取25元无门槛免单卡,用于AI语音下单覆盖全国30多万家饮品店,或用于淘宝闪购场景 [8] - 小马智行与摩尔线程达成战略合作,将聚焦L4级自动驾驶技术落地,围绕世界模型及虚拟司机系统的训练与优化展开协同,这是小马智行首次在关键训练环节规模化应用国产AI算力 [9] - 国际奥委会宣布基于阿里千问打造奥运史上首个官方大模型,已上线面向各国代表团的“国家奥委会AI助手”和面向公众的“奥运AI助手”,并基于Qwen-VL和万相大模型在直播制作与宣传素材生成中实现AIGC大规模应用 [10] - 快手可灵AI全球上线3.0系列模型,覆盖图片生成、视频生成、编辑及后期等影视级全流程链路,基于All-in-One理念构建一体化视频模型体系 [11] - 峰飞航空科技自主研发的全球首款5吨级eVTOL“V5000天际龙”成功完成转换飞行,成为全球首家实现5吨级eVTOL转换飞行的企业,将eVTOL起飞重量提升至5吨级以带来更大载重和更远航程 [12] 最芯见闻 - 英特尔与软银集团旗下子公司SAIMEMORY合作,共同开发名为Z角存储器(ZAM)的新型堆叠式DRAM架构,其性能超越当前HBM标准,旨在提升内存容量、降低功耗并改进封装技术,计划于2027年推出原型产品,2030年实现商业化 [13] - 德州仪器将以每股231美元的全现金交易方式收购Silicon Labs,企业总价值约75亿美元,旨在结合双方在混合信号、模拟及嵌入式处理方面的产品组合与技术,打造全球嵌入式无线连接解决方案领军企业 [14] - 英飞凌发布涨价通知,由于功率开关与相关芯片供给持续吃紧,以及原材料与基础设施成本攀升,公司将自2026年4月1日起对这部分产品价格进行上调,需求增长主要源于人工智能数据中心的大量部署 [16] 上市资本流 - 凯德石英公告,江丰电子及其一致行动人通过签署股份转让协议、表决权放弃协议等,将成为公司控股股东,公司实际控制人变更为姚力军 [17] - 润泽科技公告,正在筹划发行可转换公司债券购买资产并募集配套资金,标的资产为广东润惠科技发展有限公司除上市公司所持股权以外的剩余全部或部分少数股权,润惠科技经营范围包括软件开发、集成电路芯片设计及服务等 [18] - 国轩高科公告,拟定增募资不超过50亿元,用于年产20GWh动力电池项目、20GWh新能源电池基地项目、新型锂离子电池(20GWh)智造基地项目及补充流动资金 [19] - 金富科技公告,拟支付现金不超过7.14亿元购买佛山市卓晖金属制品有限公司和佛山市联益热能科技有限公司各51%股权,两家标的公司主要产品为液冷铜管、水冷头组件、铜水冷板等,应用于液冷散热系统,并已成为该领域头部客户的核心供应商 [20]
AI应用催化不断,人工智能AIETF(515070)持仓股石头科技涨超2.7%
每日经济新闻· 2026-02-05 14:29
AI应用落地进程加速 - AI应用落地明显加快 开源AI助手项目Clawdbot爆火 能通过日常通讯软件远程指挥模型执行本地电脑任务 如管理邮件、控制浏览器或文件、运行脚本等 引发海外开源社区大量讨论 [1] - 创业板软件ETF华夏(159256)持仓股中 网宿科技、昆仑万维、易华录等个股涨幅居前 [1] - 人工智能AIETF(515070)持仓股中 石头科技、海康威视涨幅超2% [1] AI应用近期催化事件 - 1月31日 可灵AI面向全球上线全新的可灵3.0系列模型 目前正在超前内测中 [2] - 1月26日 阿里推出新的旗舰推理模型Qwen3-Max-Thinking 模型性能媲美OpenAI的GPT-5.2-Thinking和谷歌的Gemini3Pro 标志着国产大模型在高阶推理领域实现重要突破 [2] - 1月27日 DeepSeek开源DeepSeek-OCR2模型 能够处理布局复杂的图片 在多模态领域实现了推理能力 [2] 行业观点与产业链定位 - 中金公司认为 AI应用端的价值重估将是下一阶段市场主线 [2] - 具备强大用户黏性、占据高频场景入口的公司 其流量与数据价值将通过AI实现货币化 [2] - 短期内 企业端(To B)的工具类应用(如代码生成、设计)及内容生成类应用商业化路径更清晰 [2] - 在AI产业链中 软件行业主要处于中游技术层和下游应用层 扮演着核心技术支撑和应用落地的关键角色 [2] - 软件行业在中游技术层主要提供AI框架、开发平台和算法模型 这些技术是AI应用开发的基础 [2] - 在下游应用层 软件行业通过将AI技术与各行业结合 推动AI应用的落地 [2] 相关金融产品 - 相关产品包括创业板软件ETF华夏(159256)、创业板200ETF华夏(159573)、人工智能AIETF(515070) [3]
可灵3.0系列模型正式上线 真实感和叙事能力全面升级
环球网· 2026-02-05 10:28
核心观点 - 可灵AI正式全球上线3.0系列模型,标志着AI正式进入影视与创意内容的核心生产环节,公司迈入3.0时代 [1] 产品发布与定位 - 可灵AI正式全球上线3.0系列模型,包括可灵视频3.0、可灵视频3.0 Omni及可灵图片3.0、可灵图片3.0 Omni模型 [1] - 模型覆盖图片生成、视频生成、编辑及后期等影视级全流程链路 [1] - 模型目前正面向黑金会员开放使用,预计将于近期全量上线 [1] 技术理念与架构 - 3.0系列模型基于All-in-One产品和技术理念构建,形成一个多模态输入与输出高度统一的一体化视频模型体系 [1] - 通过统一架构,将影像创作中的理解、生成与编辑整合为一个连续流程,在单一模型内完成闭环 [1] - 创作者可以同时使用文字、图片、声音与视频作为输入,并直接获得专业影像级输出结果 [1] - 在近期推出的O1和2.6模型基础上,进一步深化Multi-modal Visual Language交互理念,实现了从“基础生成”到“专业调度”的系统性跨越 [12] 关键性能与突破 - 通过整合视频主体上传、音色绑定及全球首创的“图生视频+主体参考”等技术,在人物形象、动作与声音的稳定性上取得突破性进展 [2] - 模型支持最长15秒的连续生成 [2][8] - 视频3.0与视频3.0 Omni均支持原生音画同出,覆盖多语种与多种地方口音 [4] - 图片模块支持4K超清输出,并新增系列组图生成功能 [4][11] - 模型适配多国语言及多种地方口音及方言,实现情绪饱满的音画同步表演 [8] - Omni版本通过特征解耦技术,使角色、道具等元素可在不同场景中自由复用,保持高度一致性 [9] 核心功能与应用 - 全新的智能分镜系统能深度解读剧本意图,自动调度机位与景别,大幅降低后期修正成本 [6] - “图生视频 + 主体参考”技术可对画面特定元素进行二次锚定,有效解决行业长期存在的“主体崩坏”痛点 [8] - 模型能够对镜头节奏、角色关系与视听结构进行系统级调度与协同,使创作者可以在一个模型内完成分镜组织、主体锚定与叙事推进 [12] - 在影视和广告领域,创作者可利用智能分镜等镜头调度能力快速验证创意 [12] - 在游戏与虚拟制作中,稳定的角色一致性则能大幅加速数字资产的构建 [12] 行业影响与公司里程碑 - 此次发布标志着AI正式进入影视与创意内容的核心生产环节 [1] - 可灵AI 3.0完成了从“可用”到“可控”,再到“专业调度”的三次关键跃迁 [11] - 公司从单点生成工具,向内容创意者下一代“创作接口”进化 [12] - 据公开数据,截至2025年12月,可灵AI已拥有超过6000万创作者,生成超过6亿个视频,服务超过3万家企业用户,年化收入运行率达到2.4亿美元 [12]
可灵3.0系列模型正式上线:All-in-One模型体系引领视频创作新时代
智通财经网· 2026-02-05 09:07
文章核心观点 - 可灵AI正式全球上线3.0系列模型,标志着AI正式进入影视与创意内容的核心生产环节,公司迈入3.0时代 [1] - 3.0系列模型基于All-in-One理念构建,实现了从“基础生成”到“专业调度”的系统性跨越,完成了从“可用”到“可控”再到“专业调度”的三次关键跃迁 [2][17] - 模型将AI从一个简单的生成工具转变为理解创作意图、执行分镜的创作协作者,属于每个人的导演时代已经来临 [18] 产品与技术理念 - 全新All-in-One产品和技术理念构建了多模态输入与输出高度统一的一体化视频模型体系,将影像创作中的理解、生成与编辑整合为单一模型内的连续闭环流程 [2] - 创作者可以同时使用文字、图片、声音与视频作为输入,直接获得专业影像级输出,创作过程不再被拆分为多个工具与步骤 [3] - 模型深化了Multi-modal Visual Language交互理念,在生成质量和专业可控两大创作维度上取得关键突破 [17] 关键性能与功能突破 - 在一致性上取得突破性进展:通过整合视频主体上传、音色绑定及全球首创的“图生视频+主体参考”等技术,使人物形象、动作与声音在复杂镜头切换中保持稳定,文字和品牌标识可识别,视觉风格与角色特征在多语言场景下高度统一 [3][9] - 支持最长15秒的连续生成,并引入智能分镜与自定义镜头控制,让创作者能够直接组织镜头节奏与叙事结构,使镜头具备情绪递进与画面张力 [3][7] - 音画能力达到影视创作标准:视频模型支持原生音画同出,覆盖多语种与多种地方口音,人物口型、情绪与表演更自然,画面真实感显著提升 [6] - 图片模型支持2K/4K超高清图直出,并新增系列组图生成功能,确保组图间风格、光影与细节的高度统一 [16] 具体模型版本能力 - **可灵视频3.0**:全新的智能分镜系统能深度解读剧本意图,自动调度机位与景别,支持复杂的跨分镜转场一键生成,大幅降低后期修正成本 [7] - **可灵视频3.0 Omni**:进一步强化角色一致性与指令响应敏锐度,创作者上传参考素材即可实现对特定主体视觉特征与音色的原生提取与绑定,基于特征解耦技术,角色、道具等元素可在不同场景中自由复用,始终保持同一张脸、同一种声音 [11] - **可灵图片3.0系列**:专注于强化静态画面的“叙事感”,能深度解构提示词中的视听元素,精准把控构图与视角逻辑,高度适配影视分镜、场景设定等专业需求 [16] 行业影响与创作方式变革 - 模型将原本需要多人协作、多轮修正才能完成的导演级表达,压缩进更直接、更可控的创作流程中,让更多创作者能够以接近专业制作的方式完成影像表达 [6] - 在影视和广告领域,创作者可利用智能分镜等镜头调度能力快速验证创意;在游戏与虚拟制作中,稳定的角色一致性则能大幅加速数字资产的构建 [18] - 可灵AI由此完成了从单点生成工具,向内容创意者下一代“创作接口”的进化 [17] 公司运营数据 - 截至2025年12月,可灵AI已拥有超过6000万创作者,生成超过6亿个视频,服务超过3万家企业用户,年化收入运行率达到2.4亿美元 [18]