AI Video
搜索文档
AI视频的“1毛钱战争”与“万亿生意”
36氪· 2026-01-29 09:31
行业技术迭代与竞争格局 - AI视频技术迭代速度极快,以“周”为单位更新,海外如PixVerse实现提示词同步生成视频,Runway Gen 4.5模型能在3秒内完成专业运镜且人脸纹理清晰[1] - 国内公司迭代同样迅猛,字节旗下即梦AI核心版本两年内历经9次关键迭代,快手的可灵AI自问世以来升级30余次,市场份额变化迅速,月初领先的模型月底可能被超越[1] - AI视频被视为“万亿蓝海”,其沉浸体验有望抢夺用户注意力,随着模型能力提升和推理成本降低,应用将蔓延至漫剧、游戏及电影等领域,可能迎来大爆发[2] - AI视频是技术进步,更是个性体验、内容生产和商业效率的“三重革命”,对于字节、快手等视频平台而言是一场不得不参与的牌局[3] 主要参与者技术路线与策略对比 - 字节(即梦AI)与快手(可灵AI)选择了不同的技术路线:可灵2.6生成的画面细节更丰富、电影感强,但排队时间超过30分钟;即梦3.5Pro无需等待,1分钟内生成视频且每日免费2次[4] - 当前AI视频生成质量不稳定,物理破绽(如六根手指)常见,外媒实测Sora2生成的视频中仅5%-10%可用于发布,剩余90%为废片,既耗时又烧钱[4] - 生成成本差异显著:根据第三方榜单,可灵2.6Pro每分钟生成成本为4.2美元,谷歌Veo 3.1平均成本高达10.5美元[4] - 字节采用多模态基础大模型(Seedance)路线,一个模型支持文生图、文/图生视频等,通过嵌入扩散变换器、任务并行处理及蒸馏机制来降低计算复杂度,实现用更少推理步骤生成更顺滑视频[6] - 快手聚焦打磨单一视频模型基座,通过产品交互创新提升可控性,例如可灵1.0推出首尾帧功能,2.0允许输入参考图像/视频,O1新增“主体库”以保持特征稳定[7] - 路线选择反映公司基因与资源:字节旨在定义下一代产品、抢占新超级入口;快手则务实聚焦服务P端(专业创作者)和B端客户,对C端保持探索[10] - 资源投入差距巨大:2025年字节在算力、芯片等方面的资本投入达1500亿元,断层领先第二名阿里50%,比快手“多了一个0”[10] - 字节采取“饱和式”投入和内部赛马机制,2025年即梦获得的算力资源同比增加300%,其5款视频生成模型来自4个不同研发团队,内部优胜劣汰[12][13] 市场表现、用户与商业化现状 - 用户增长数据对比:可灵发布一年内用户总量从600万飞升至4500万;即梦截至去年9月月活用户达2037万,是可灵的13倍[14] - 成本与性能榜单显示:在第三方评测中,快手可灵模型(如Kling 2.5 Turbo)表现更佳,而字节Seedance 1.5 pro生成视频的成本更低,为1.56美元/分钟[15] - AI视频用户留存率极低,据透露Sora的30天用户留存率仅1%,60天留存率近乎0%,揭示其当前并非一门好生意[16] - 创作门槛高企,90%的生成视频“根本不能用”,需要复杂的提示词公式和后期调整,导致大众市场产品变现困难[18] - 营收表现分化:即梦AI和Minimax的海螺AI年化营收(ARR)均未破亿;Runway的ARR在去年中已突破6亿元;快手2025Q3披露可灵累计收入达7亿元,预计全年达10亿[22] - 可灵近70%营收由P端订阅会员贡献,B端客户规模超2万家,证明专业创作者付费能力和意愿更强[24] - AI视频能显著提升效率,将传统视频制作时间从平均7小时缩短至45分钟,制作成本节省一半[24] 长期战略与未来展望 - 字节对即梦的长期定位是视觉化、低门槛的超级入口,内部判断其长期价值空间可能是剪映的十倍,参照剪映2024年近百亿收入,即梦有千亿级市场想象空间[25][27] - 为培育大众市场,即梦在产品设计、流量扶持和价格上积极布局:首页采用短视频信息流推荐AI作品;在抖音生态大量投流并形成“即梦生-剪映剪-抖音发”闭环,2025Q1该路径贡献37%新用户;定价极具侵略性,单条视频生成最低仅0.1-0.19元[27][28] - 可灵单条视频生成最低成本为1.25-1.5元,比即梦贵10倍,其会员定价也显著高于即梦[29] - 快手可灵采取“低头看路”的务实策略,先确保即时收益,未来再寻转型机会[30] - 行业挑战在于模型能力尚未全能,创作者倾向于组合使用多家产品,可能导致用户被更专精或更低价的模型抢走,竞争是艰难而曲折的持久战[33] - 行业未来形态未定,无论是快手的“务实当下”还是字节的“豪赌未来”,都在等待时间验证[34]
AI视频三岔路:Sora变现遇阻,可灵务实养家,即梦生态筑梦
36氪· 2026-01-26 12:28
AI视频赛道三大发展路径 - 全球AI视频领域已形成三条清晰的发展路径,分别由OpenAI的Sora2、快手的可灵AI和字节跳动的即梦AI代表,反映了对技术本质和商业化战略的不同认知 [1][5][8] - Sora2凭借技术先发优势迅速获得市场关注,其应用在2025年末推出后,仅用5天便在全球斩获100万下载量,并登顶多国应用商店榜首 [3][8] - 可灵AI已率先跑通商业闭环,月活跃用户突破1200万,2025年预计收入达1.4亿美元,在快手内部被提升至与主站、商业化、电商并列的一级业务部门 [2][10][11] - 即梦AI被张一鸣称为“AI时代的抖音”,选择长期主义生态布局,2025年3月其月活用户数达到893万,优先追求用户扩张和生态培育 [3][14] Sora2:技术爆款与用户留存困境 - Sora2面临严重的用户留存问题,风险投资机构a16z数据显示,其1天、7天、30天、60天用户留存率分别为10%、2%、1%、0%,与TikTok 50%的首日留存率和32%的30天留存率形成鲜明对比 [8] - 产品定位模糊是核心问题,Sora2试图融合工具与社交,但既未提供稳定可控的生成效果,也缺乏成熟的社交互动性与推荐算法,绝大多数用户仅将其视为一次性玩具 [10][16] - 技术生成效果不稳定,行业分析指出其生成的视频中真正可用于实际发布的内容命中率只有5%到10%,人物肢体扭曲、物理逻辑崩坏等问题常见 [16] 可灵AI:务实闭环与高效商业化 - 可灵AI确立了以专业创作者(P端)为核心的明确商业模式,P端付费订阅会员贡献了接近70%的营业收入 [10] - 商业化效率极高,其ARPU(每用户平均收入)达到竞品PixVerse的6.4倍,尽管下载量仅为PixVerse的15.4%,但总收入几乎与其持平 [17] - 公司通过“动作控制”等爆款功能成功从专业市场破圈至大众市场,并与小米、亚马逊云等数千家企业客户建立合作,在电商、游戏等行业部分客户的AI素材渗透率已达60% [2][26] 即梦AI:生态构建与长期主义 - 即梦AI的战略重点是降低创作门槛和培育AI原生内容生态,而非急于商业化,公司认为在技术差距未本质拉开的现阶段,构建长期能力与生态位更为重要 [5][14][18] - 通过“AIGC短剧招募计划”大力扶持创作,为精品内容提供单部最高50%-70%的投资比例,最高投资金额可达200万元,并提供流量推广、技术解决方案等支持 [14][23] - 生态布局初见成效,其扶持的首部AI付费短剧《兴安岭诡事》在抖音上线后,三天播放量突破3000万,公司致力于打通从AI生成到内容分发的全链路,可为作品提供最高3000万-5000万甚至1亿的流量推广曝光 [14][23] 行业核心挑战与未来胜负手 - 算力成本是行业根本挑战,高质量生成视频的推理成本仍在30-50美元/分钟,加之用户因结果不可控需反复生成,产生大量算力沉没成本,导致多数公司难以规模化盈利 [25][26] - 技术可控性是决定产品能否从玩具变为工具的关键,目前各家公司仍难以彻底解决这一创作者最在意的核心命题 [26] - 未来竞争胜负手取决于算力成本平衡、商业模式验证及创作者生态培育,行业可能形成差异化分工而非一家通吃 [23][25][27]
AI视频独角兽Higgsfield:靠“伺候”社媒营销人,9个月赚了2亿美元
36氪· 2026-01-22 20:49
公司概况与市场地位 - 公司Higgsfield是一家成立仅两年的AI视频初创公司,凭借“创作者优先”的商业策略在行业竞争中脱颖而出,成为新晋独角兽 [1] - 公司近期完成8000万美元增发,A轮融资总额达1.3亿美元,估值跃升至13亿美元 [1] - 公司增长迅猛,上线9个月用户超1500万,日生成视频450万条,年收入在两个月内翻倍,达到2亿美元 [1] 用户定位与商业模式 - 公司85%的用户是社交媒体营销人员,主要用途是制作品牌内容、短视频广告和营销素材 [1] - 公司核心路径是精准找到有商业变现需求的创作者与品牌,通过全栈工具满足其需求,构建“创作入口+工作流+分发激励”的完整闭环 [1] - 公司通过设立“创作者奖金”和官方转发优质案例来构建生态,以“每周最高10万美元奖金”直接激励创作者产出内容 [14] 产品功能与核心优势 - 公司产品是一个面向创作者和营销团队的全栈式AI视频工作流工具,核心是名为Canvas的工作台,用于完成创作与协作 [4] - 平台内置“多智能体协作系统”,包括编剧、导演、摄影师智能体,分别负责叙事结构、情绪节奏和镜头运动 [4] - 平台提供超过50种预设专业运镜模式库,如滑轨推进、FPV螺旋、360度环绕、子弹时间等,用户通过描述即可一键调用 [10] - 平台独有的“HCS模块”将ARRI、Red等6台顶级电影机和11支经典镜头的色彩科学内置其中,可一键获得电影感色彩 [10] - 平台提供“SOUL Inpaint”进行像素级画面编辑,支持对象替换、背景更换、动态追踪调优等,满足广告级控制需求 [10] - 围绕“Nano Banana”生态提供了超过2000个小工具,涵盖4K图像生成、视频修复、风格迁移等,并通过移动端App Diffuse满足零门槛创作需求 [11] 技术策略与底层架构 - 公司技术模式是将多个现成AI模型组合成“实用工具+工作流”,而非开发基础模型 [12] - 平台有自研的“Soul”图像模型保证画面真实与风格一致,核心能力在于聚合并驯化如Sora 2、可灵、Minimax等外部主流模型,能在一次生成中并行调用不同模型 [12] - 该策略回避了技术竞赛死穴,将技术复杂性封装在后台,前台提供稳定、易用、可规模化复用的创作工具 [14] 商业化验证与客户反馈 - 上线5个月,公司年化收入达5000万美元,9个月ARR突破2亿美元,从1亿到2亿仅用时2个月 [16] - 一位电商用户评价用其产品在2小时内制作了50个产品视频,无需雇佣传统摄像师,这些视频被直接用于提升产品页面的吸引力和转化率 [16] 行业融资与竞争格局 - 2025年AI视频赛道融资热度持续攀升,多家核心企业披露大额融资 [17] - 爱诗科技B轮获阿里巴巴领投6000万美元,B+轮再获1亿元人民币,合计融资超7000万美元,其全球用户突破1亿,MAU达1600万,ARR达4000万美元 [17] - 生数科技完成数亿元人民币B轮融资,其Vidu视频大模型在评测中超越Sora、Runway登顶双榜,视频生成成本仅为同行十分之一,8个月内实现2000万美元ARR,累计生成视频超4亿条 [17] - 轻量化工具Pollo AI种子轮获1400万美元融资,上线7个月MAU达600万,已实现盈亏平衡 [18] - 纯视频大模型SandAI完成不低于1亿元人民币融资 [18] - 多模态创作平台LiblibAI完成1.3亿美元B轮融资,整合图像、视频、3D生成能力,孵化2000万AI创作者 [19] - 专业级AI视频公司Video Rebirth完成5000万美元融资 [19] - 海外公司Runway计划募资5-10亿美元,目标估值直指100亿美元,此前已于2025年4月完成3.08亿美元D轮融资,估值约35.5亿美元 [19] - Luma AI于2025年11月官宣完成9亿美元C轮融资,估值攀升至40亿美元 [21] - Pika Labs在2025年年底完成8000万美元A+轮融资 [22] - Stability AI于2025年10月完成首轮获4500万美元融资,迪士尼参与战略投资 [22] - 以色列企业Lightricks于2025年7月完成6000万美元战略融资,专项用于拓展AI电影工作室及生成式视频模型研发 [22] 行业趋势与未来展望 - AI生成视频正站在真正的爆发前夜,电影、广告、短视频行业对画面叙事的需求是刚性的 [3] - 单一的文生视频模型会逐渐融入统一的多模态“大一统”模型,竞争将从单点工具转向构建集生成、分发、变现于一体的平台化生态 [23] - 未来,针对电商、教育、医疗等特定场景的专业化微调模型将更具竞争力 [23]
聊聊硅谷AI视频技术与社交运营最新趋势
南方都市报· 2026-01-16 17:13
文章核心观点 - AI视频行业正从品牌曝光转向深度的用户价值挖掘与数据驱动的精细化运营 通过用户教育、社区运营、分层服务及产品快速迭代等方式 显著提升了用户转化、活跃度及生命周期价值 同时 行业技术向生成长叙事、高物理真实度视频发展 服务软件订阅与应用程序编程接口收费成为主流商业模式[1][4] 行业运营策略与成效 - **用户教育与内容营销**:头部公司通过制作详细的教程内容进行用户教育 例如HeyGen的YouTube教程矩阵 热门教程播放量破50万 直接让试用转化率提升23% Creatify通过简化AI参数为三步并配合投资回报率数据对比 使中小企业付费意愿上涨40%[1] - **社区与分层运营**:社区运营是用户留存关键 Synthesia在TikTok发起话题 用户生成内容播放量超8000万 通过举办视频大赛形成创作闭环 使用户日活提升65% 37%的营销素材来自社区 Discord分层运营更精准 HeyGen为不同级别用户提供差异化服务 其付费转化率达到行业均值的2.8倍[1][2] - **产品迭代与反馈**:社交平台成为重要的产品迭代反馈渠道 Creatify在Instagram进行功能投票 用户选出的“一键多平台适配”功能使制作效率提升50% 满意度达92% Synthesia在X平台实时收集反馈 将高频问题响应与迭代周期从30天缩短至14天[3] - **数据驱动与精准营销**:公司利用数据分析指导营销策略 Synthesia发现教育客户占28%后 在Pinterest推出教育模板库 使线索量暴涨120% HeyGen通过Facebook Pixel追踪电商用户关注转化率 制作相关白皮书下载1.5万次 带动行业付费客户增长45%[4] 技术发展与工具应用 - **内容生成技术**:技术发展聚焦于内容生成、智能处理与3D交互 Runway Gen-2能通过文本生成4K视频 连贯性提升60% Pika Labs 1.0解决了帧间跳变问题 支持30秒长镜头 OpenAI的Sora能生成60秒复杂场景视频 物理效果接近真人拍摄[4] - **实用工具效率**:实用工具显著提升视频制作效率 HeyGen的翻译功能支持20多种语言 唇形同步率达95% Descript能像编辑文档一样剪辑视频 效率提升3倍 D-ID的虚拟人直播已应用于电商24小时带货场景[4] 商业模式与行业趋势 - **商业模式**:服务软件订阅和应用程序编程接口收费成为行业主流商业模式[4] - **行业趋势**:技术发展朝向生成长叙事、高物理真实度的视频发展 同时 因版权和虚假信息监管趋严 不少工具已增加水印追溯功能[4] - **运营成效**:通过闭环运营 头部公司的获客成本比行业平均水平低35% 客户生命周期价值提升60%[4]
锦秋被投企业OiiOii创始人闹闹:亲历微信与字节后,如何抓住下一波机会?|Jinqiu Spotlight
锦秋集· 2026-01-07 19:03
文章核心观点 - 2026年将是AI视频应用爆发的关键年份,预计将催生大量新的独角兽公司 [6] - AI视频生成领域的创业公司,特别是采用Agent架构的产品,不仅不会被Sora等大模型“端到端”吃掉,反而会迎来最好的发展时代,与大模型形成互补共生的繁荣生态 [9][11][57] - OiiOii作为AI动画视频生成Agent,其核心价值在于通过“厨师调味”般的深度工作,将底层模型能力转化为面向特定人群和场景的成品,满足从专业创作者到普通用户的广泛需求 [16][57][59] 快问快答 (公司基本情况) - 创始人闹闹毕业于中山大学,MBTI为INTJ,星座是狮子座 [19][20] - 公司核心业务是用AI制作动画 [22] - 公司处于Pre-A轮融资尾声,产品内测发布约一个月,目前需要邀请码 [23][26] - 公司成立约4个月,尚无收入和利润,团队全职规模为18-19人 [25][27] - 创始人创业前拥有丰富的产品经理经验,曾任职于腾讯微信事业群(QQ邮箱)、字节跳动(剪映、抖音特效)以及B站动画业务 [28][29] AI视频的Agent时刻:为什么是现在? - 创始人在2022年DALL-E 2发布时便萌生用AI做动画的想法,但真正的切入时机在2024年上半年,源于观察到多模态模型开始激烈竞争,势头类似语言模型爆发期 [40][43] - Agent架构被确定为最佳产品形态,原因有三:1) 可灵活调用多种模型;2) 动画制作本身是流式、多角色协作的流水线,与Agent工作方式高度契合;3) Agent交互提供高自由度,避免传统GUI工具的功能臃肿 [44][45] - 产品初期采用“首尾帧”生成路线以保证单镜头稳定性,并创新设计Task Agent为不同分镜自动匹配最优模型 [46][47] - Sora 2发布后,其出色的分镜和镜头语言能力促使公司果断放弃原有路线,全面转向接入Sora,首个测试视频(小螃蟹和小猩猩打篮球)一句prompt直出,效果令人兴奋 [47][48][52] 为什么不怕Sora?大模型与Agent的共生关系 - 核心观点:视频模型不可能“大一统”,因各家训练数据、标注标准不同,输出结果各有特色,这为Agent的“组合式创新”留下了巨大空间 [53][166] - 提出“超市与餐馆”理论:大模型如同提供原材料的大型超市,而Agent则是川菜馆、粤菜馆等特色餐馆,为用户提供符合特定口味和场景的成品,两者共存共荣 [16][54][57] - Agent公司约60%-70%的工作是“后厨调味”,即通过建立垂直知识库、优化prompt、调整模型参数等细微工作,将生硬的模型输出转化为符合目标用户需求的佳肴,这是其核心护城河 [16][57][59] - 即使未来Sora发展到4.0/5.0版本,开始提供一些“熟食”(垂直功能),Agent产品也不会消亡,反而会更加繁荣,因为垂直领域的需求深度和专业性是无法穷尽的 [11][63] 目标用户与市场定位 - 初始目标用户定位为“自媒体人”,主要包括三类:1) 围绕IP创作动画的小型工作室(可将内容更新效率从一周一集提升至一天一两集);2) ACG领域的MV创作者;3) 讲历史、科普等非动画领域的自媒体人 [71][72][73] - 内测中发现了三类意料之外的用户:1) 漫剧团队(利用其高效分镜生成能力);2) 从未做过视频但想用动画表达想法的人;3) 为维系社交关系而创作的用户(如家长为孩子、学生为老师、情侣之间制作动画视频) [18][76][77] - 公司未来将采用类似抖音做垂类的策略,针对科普、MV等不同内容类型,深入研究其结构并构建专属知识库,逐个垂直领域进行深度服务 [78][79] - AI视频Agent不会取代剪映等传统工具,而是带来增量市场,两者效率叠加为最优解,用户可在OiiOii生成内容后,再导入剪映进行轻量剪辑等后期处理 [16][87][94][95] 产品设计与技术架构 - 选择Agent架构的重要原因之一是避免传统创作工具(如PS、PR、剪映)从简单走向功能臃肿的必然循环,Agent的能力更多隐藏在后台,而非通过GUI堆叠 [82] - Agent产品具有用户与产品共建的魅力,用户能探索出开发者意想不到的用法,不断拓展产品边界 [83][84] - 为平衡工作流的“稳定性”与用户修改的“自由度”,公司在两个月内重构了四次系统架构,最终采用在严格workflow中嵌入“信号”机制的方案,允许Agent在特定环节跳出接受用户指令后再跳回,技术挑战大且仍在优化稳定性 [85][86] - 产品设计赋予每个Agent(如剧本Agent、角色设计Agent)角色感,模拟“团队服务于导演”的体验,但多Agent交互中的上下文记忆管理是架构难点 [96][97] - 产品的“秘方”在于将影视学的专业知识(如用特定色调、场景表达“孤独”情绪)打包成可调用的元素,使普通用户仅用情绪词也能生成有“感觉”的片子 [98][100] 创始人的产品方法论与行业洞察 - 在微信的工作经历培养了深刻的产品价值观和“被训练出来的直觉”,强调通过大量阅读用户反馈(每天数百上千条)来识别真伪需求,洞察人性 [108][111] - 在字节的工作经历强化了数据驱动和理性策略思维,学会了通过用户行为数据计算概率来指导产品决策(如“造风”),将产品sense与数据科学结合 [112][115][117] - 微信与字节的共同点在于都将自身基因优势发挥到极致:微信将“体验”和“感性”发挥到极致,字节则将“效率”和“数据”发挥到极致 [120][121] - 成为一名优秀产品经理的三个关键能力:1) 移情能力,能迅速切换为用户视角;2) 50%自信与50%自省结合,避免盲区;3) 对技术敏感,理解技术可实现性的边界 [131][132] - 动画行业是商业世界中少数会奖励“纯粹”与“热爱”的领域,创始人长期的动画梦想与AI技术机遇、团队能力实现了完美匹配 [9][128][129][137] 对2026年AI视频领域的预测 - 技术发展将延续质量提升、可编辑性增强的趋势,实时性和互动性也可能提高,但更高的编辑自由度和互动性可能使产品更小众,因为大众已习惯被动接收信息 [158][159][160] - 一些在现有媒介基础上的“小改动”(如Sora 2带来的更自然切镜)可能比巨大的技术革新更能吸引广泛受众 [161] - 视频模型厂商将朝两个方向发展:一是强化自身擅长领域,二是补足短板,同时会继续追求通用性,实时性和可编辑性将是重点增强方向 [168][169] - 视频模型难以大一统,不同模型有先天差异(数据与标注)和后天差异(公司战略),且即使模型相同,调用手法和输入内容的不同也会导致输出结果迥异 [164][165][166]
AI视频进入「连续叙事」时代:「一致性」成商业化发展瓶颈
新浪科技· 2025-12-16 09:07
行业核心观点 - AI视频生成行业竞争焦点已从单镜头“生成能力”转向多集“可持续创作能力”,主体一致性、资产可复用性与工作流连贯性成为关键商业门槛[1] - 工具平台的角色正从模型能力展示窗口转变为内容生产基础设施的构建者[1] 行业发展趋势与挑战 - 行业面临的核心挑战是“主体不一致”问题,即角色在多集中难以保持外貌、服装、表情等特征不变,这制约了AI短剧等连续性内容的商业化[1][4] - 市场意识到真正的挑战不在于单帧画面的逼真度,而在于十集、二十集剧情推进中的角色与场景一致性[1] - 技术演示中的流畅片段难以直接转化为可消费的连续内容,观众无法接受主角“换脸”或关键道具消失[4] - 版权归属、内容安全、IP保护等问题仍是行业共性难题[8] 公司产品与战略 - 商汤科技于2025年7月推出“创编一体”AI视频智能体Seko,并于后续发布Seko2.0,焦点从“单集生成”转向“多聚集创作”[4] - Seko平台定位为短剧、漫剧、广告片、教育课件等内容创作者提供端到端的生成与编辑能力[4] - 平台支持“自研模型+第三方模型”融合调度,通过统一的Agent链路保障跨模型的一致性[5] - 公司通过模型结构蒸馏、算子优化及国产芯片适配,已实现推理成本下降约50%[8] - 公司未将Seko定位为封闭的内容平台,而是坚持“先把工具做好”,目标是帮助创作者更好创作、管理、发行和赚钱[8] 市场应用与商业化 - 长内容的核心价值在于实现可衡量的投资回报,其基础是人物主体一致性、故事情绪延展和场景世界观连贯[2] - 若一致性等要素断裂,观众会因违和感脱离剧情,不愿为此类内容买单[2] - Seko平台已吸引超20万创作者,包括上百个短剧工作室,部分作品已成功上线主流平台[5] - 平台用户增长迅速,内测于7月,8月正式推广,9月创作者快速增长到10万,当前已超20万,且更多是高频的偏专业及半专业级别创作者[7] - AI生成短剧在配音和画面细节精修环节仍依赖外部工具,但整体制作流程高度依赖Seko的多集分镜生成与资产复用能力,形成“主干用AI、细节人工补”的混合模式[6] - 这种模式已能显著降低制作门槛与周期[6] 产品设计与用户体验 - 平台竞争正从“模型参数”转向“用户体验”与“工作流整合”,旨在让非技术背景的创作者快速将想法变成视频[7] - 平台采用“低频用户一键生成、高频用户深度可控”的双轨设计,在自动化的同时为高阶用户提供精细编辑接口,每一步都可对话修改、多次修正[7] - 设计旨在覆盖从大学生、教师到专业工作室的多元需求[7]
技术突变催生新风口!AI视频改写造富规则,关键密码少有人知
搜狐财经· 2025-12-11 21:37
行业爆发与市场表现 - AI视频成为2025年显著的造富风口,创作者与企业均实现高额收入 [1] - 创作者通过AI视频工具接广告单,半年可赚取数十万元 [4] - 头部AI视频公司的年收入从几乎忽略不计飙升至亿元级别,最高接近10亿元 [4] - 主要产品如快手可灵、字节跳动即梦已推行会员制,月费从59元到1399元不等,商业模式清晰 [6] 资本动态 - 2025年下半年AI视频企业迎来融资盛宴,爱诗科技、生数科技等公司融资额从几亿元到上亿美元不等 [7] - 海外公司如Runway和LumaAI也在筹备数十亿美元级别的融资 [7] 技术进步与产品演进 - 技术突破是行业爆发的核心,AI视频生成速度与质量在2025年实现飞跃 [8] - 生成时间从2024年的两天缩短至2025年的5到30秒,画质从780P提升至1080P以上,并支持自然语言交互与一键换风格 [10] - 厂商内卷推动工具从“玩具”变为生产力工具,生成内容真实性大幅提升,肉眼几乎难辨真假 [10] 当前产品局限与用户反馈 - 产品存在三大主要问题:缺乏连续创作功能导致流程繁琐;协作功能差,难以满足团队需求;对复杂动作如舞蹈、体操的精细控制不足,错误率高 [13] - 不同产品各有侧重:拍我AI生成速度最快(5秒出360P,1分钟出1080P),适合紧急项目;海螺AI擅长大动作场景;Vidu视频一致性强但画质一般 [15] - 用户期待能整合各家优点、支持连续创作的超级工具 [15] 行业前景与未来趋势 - 行业仍处早期,当前产品效果已能满足短视频消费,商业循环健康,未来收入预计持续增长 [17] - 预计2026年AI视频将在电商、教育、短剧等领域创造更多收入 [17] - 2026年被视为行业分水岭,可能出现平台级入口,交互式视频成为新热点 [19] - 做出电影级画质的产品被视为决胜关键,技术无法突破的企业可能被市场淘汰 [17][19]
AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!
量子位· 2025-11-18 14:00
产品核心升级 - 拍我AI(PixVerse)上线V5 Fast模型,视频生成速度提升超30%,5秒高清视频生成时间从1-2分钟缩短至1分钟以内[7][49] - 同步推出Modify精修功能,支持端到端视频编辑,实现视频生成后的在线修改,解决了AI视频“一次生成定生死”的行业痛点[7][9] - 新功能组合使AI视频创作首次具备“快+可控”的完整体验[7] 技术能力与创新 - Modify精修功能实现跨帧推理、统一风格和主体稳态,其底层架构的精修方式在业内极为稀缺,属于公司的独特能力[9][10] - 元素替换能力覆盖物品、人物、背景,能在移动背景中自动补足每帧场景一致性,实现实物级别的可控编辑[12][14][20][22] - 支持对非实体细节进行修改,包括风格、材质、光线、色调等,并能保持动作一致性,例如将实拍视频转换为美式漫画风格或将车身材质从亮面替换为哑光[23][26][30][33] - 人物编辑功能支持通过提示词直接调整年龄、服装、气质、皮肤状态等,例如使人物眼睛放大、皮肤磨皮,或将老奶奶形象年轻三十岁[35][36][38][40][42][44] - V5 Fast模型通过轻量化推理结构和缩短帧间计算依赖实现提速,高分辨率视频生成不再是瓶颈环节[49] 市场定位与行业影响 - AI视频正从创作者工具转变为商业化生产力,广泛应用于品牌活动、自媒体内容、商家素材及大众化生活记录场景[8] - 可修改性成为当前AI视频市场最真实且迫切的需求,公司产品通过Modify功能让视频创作工作流真正闭环,降低了专业门槛[8][9][10][11] - 公司完成1亿元人民币B+轮融资,两年内完成五次模型迭代和八个版本更新,在DiT架构、准实时生成等关键技术上实现突破[50] - 旗下产品拍我AI(PixVerse)全球累计服务超一亿用户,月活突破1600万,自启动商业化以来收入增长超10倍[51] 性能表现 - 拍我AI V5 Fast生成1080P的5秒视频仅需约40秒,360P和720P格式生成速度更快,仅需数秒[50] - 公司在去年12月V3.5模型突破10秒生成大关,今年1月V4模型进入5秒准实时生成时代,成为全球已具规模的视频生成平台中速度最快的之一[50]
刚刚,AI视频的天花板被掀翻!测完SkyReels后飘了:我亦有成为专业导演的潜质
机器之心· 2025-11-04 11:45
行业背景与公司定位 - AI视频生成赛道竞争激烈,国外如OpenAI推出Sora 2、谷歌更新Veo 3.1,国内如生数科技推出Vidu Q2,均在视频质量、时长(如20秒)方面有显著提升[1] - 国内厂商倾向于打造覆盖图像、音视频、数字人、Agent的全模态内容共创平台,通过模板化和流程化降低创作门槛,突破AI视频应用边界[1] - 昆仑万维采用“模型+平台”并行演进模式,新上线的一站式多模态AI视频创作平台SkyReels集中体现了这一思路,旨在加速AI视频创作普及[1] SkyReels平台核心功能 - 平台集成多模态视频生成模型SkyReels V3,并提供无限画布、数字人口播、多模板生成与Agent等多种创作模式[2] - 无限画布作为核心亮点,集成全部AI功能和全球顶尖AI模型,是图片、视频、音乐等多模态的融合载体,支持实时交互和效果呈现[8][9] - 通过画布可实现多模态融合创作,例如将静态《清明上河图》拖拽至图生视频功能,几秒内生成动态视频,并可进一步通过Super Agent对话激发灵感生成4K分辨率陶土风格版本[10][12][14][16] - Agent模块包括Super Agent(全能创意助手)和28位Expert Agents(行业专家),覆盖市场营销、电子商务、虚拟形象塑造等领域,用户仅需简单指令即可自动完成多步骤复杂任务,生成可直接交付的成果[17][19][21][22][24][26][28] - 模板库全面升级,收录近10大类、150余种专业模板,覆盖海报设计、电商服装图、商品演示视频等主流场景,可一键提升普通图片质感,支持多件服饰同时试穿和品牌广告模板[29][30][32][34][36][38][41][42] - 数字人功能实现全场景对口型生成,支持单人驱动和单镜头多人多轮对话,最长可生成4分钟连续视频,内置32种运镜组合与丰富配音资源库,极大降低多镜头拍摄与后期成本[42][43][45][46][47][48][50][52][53] - 视频编辑功能支持视频延长和风格化,提供Cut-In、Cut-Out等多种切镜方式,生成片段在叙事逻辑与视觉连贯性上高度一致[54][56] SkyReels V3模型技术优势 - 模型基于多模态上下文学习框架预训练,并通过子任务精调优化,在参考图像一致性(0.6698)、指令遵循能力(27.22)和视觉质量(0.8119)评估中达到业界闭源SOTA水平[60][61][62] - 基于音频参考的视频生成优化音画对齐,业内首次支持单镜头多人多轮对话,通过区域路由机制实现自然流畅多轮对话,并强化运镜控制,支持分钟级高质量视频生成[63][64] - 基于视频参考的视频生成统一支持视频延长、风格化与编辑多任务,在单镜头与切镜延长任务上达到业界SOTA,自研端到端风格化数据生成流程确保艺术可控性[66][67] 公司战略与商业表现 - 昆仑万维自去年8月推出SkyReels后,先后发布并开源SkyReels V1、V2及A1、A2、A3系列模型,形成集图片生成、口播讲解、故事音乐等于一身的AI视频创意矩阵,服务于媒体、电商、教育等多行业[69][73] - AI视频业务与AI智能助手、AI音乐等共同构成公司多元矩阵,成为营收增长重要引擎;2025第三季度报告显示公司前三季度营业收入58亿元,同比增长52%,AI相关业务收入大幅增长[74]
第二届瓦卡奖AI竞技日:限时主题挑战,探索AI的无限可能
南方都市报· 2025-10-20 01:59
赛事概况 - 第二届AI视觉创意大赛(瓦卡奖VACAT)于10月19日在深圳·红立方公共艺术馆举办,核心活动为“AI竞技日”,通过全天密集赛事考验参赛者在创意、技术、合作与应变等方面的综合能力[1] - 赛事采用“厂商—高校—专业”三维赛程,立体化呈现AI视频行业从工具革新到内容生态的整体演进,成为观察AI视觉创作前沿趋势的重要窗口[3] 厂商战队赛 - 全球七大AI视频厂商战队(海艺AI、MiniMax、PixVerse、可灵、Vidu等)参与限时命题对决,需在2小时内完成一条30秒的AIGC动画视频[4] - 海艺AI平台被描述为功能全面的创作工具,涵盖文生图、图生视频及音频生成[6] - Gaga AI在人物表现力、音画同步和微表情处理上具有优势[6] - 拍我AI在生成比例、速度和内置模板上具备优势,支持超长宽屏视觉作品创作[8] - 海螺AI擅长复杂动作生成和运镜,并具备高质量的声音生成功能[8] - Vidu AI的优势在于多角色生成和运动控制,其作品以黑色幽默探讨“AI作为人类对手”的命题并赢得最佳作品奖[8][12] - 悠船AI在美学风格控制上具有优势,采用独特的“P值”系统来简化画面风格确定过程[10] - 可灵AI的特长在于微表情刻画和电影级光影表现[10] - 七支战队的作品风格迥异,从卡通风格到王家卫式文艺片,从好莱坞大片到广告质感,体现了AI视频创作正走向多元化的成熟阶段[14] 高校与专业赛事 - 下午赛程分为“全国高校AI电竞锦标赛”与“专业AI电竞联赛”双赛道[16] - 高校赛道有来自92所高校的选手参与,最终8位选手进入总决赛,总决赛采用五轮主题创作赛制,每轮主题随机揭晓,创作时间从8分钟逐轮递减[18] - 金奖获得者为南京传媒学院学生,银奖获得者为南开大学学生,后者接触AI创作的初衷是认识到传统设计行业正面临AI技术带来的深刻变革[18][19] - 专业赛道团队组总决赛冠军由一支名为“我们”的线上社群团队获得,团队认为高度统一的审美理念、默契协作与放松心态是夺冠关键[21] - 参赛团队认为瓦卡奖是极具影响力的行业盛会,通过活动拓展了行业视野与人脉,并激发跨越艺术与技术边界的创作灵感[21] 获奖名单 - 全球AI视频厂商战队赛共颁发八个奖项:最佳多样性功能奖(海艺AI)、最佳动态奖(拍我AI)、最佳美学奖(悠船)、最佳人物神态奖(Gaga AI)、最佳镜头控制奖(海螺AI)、最佳画质奖(可灵AI)、最佳运动幅度奖(Vidu AI)以及含金量最高的最佳作品奖(Vidu AI)[22] - 高校AI竞技锦标赛冠军为南京传媒学院,亚军为南开大学,季军为广东外语外贸大学[23] - 2025提示挑战团队冠军赛冠军为“我们队”,亚军为“一起兜风队”,季军为“MY PB队”[23]