AI Video
搜索文档
【转|太平洋传媒-AI 视频深度】模型加速迭代,工具和 IP 价值凸显
远峰电子· 2026-03-22 19:57
文章核心观点 - 2025年以来,海内外视频生成模型在性能上加速迭代,已具备L3短片级内容制作能力,推动全球影视行业迈入AI普及期 [3][6] - 目前AI在影视行业的渗透率仅约1.4%,仍处于较低水平,随着模型和视频工具的进一步迭代,行业渗透率有望迎来爆发式增长 [4][6] - 在产业链中,AI视频工具作为模型能力转化为生产力的核心载体,价值凸显;同时,拥有海量可视频化内容库的IP公司有望充分受益于本轮AI视频浪潮,实现内容资产价值重估 [5][6] 1. 视频模型:海内外差异化竞争,已支持短片级内容创作 - **技术发展历程**:AI视频模型经历了技术架构扩散期(2014-2022年)、DiT架构普及期(2024年)和技术快速迭代期(2025年以来)三大阶段,目前处于快速迭代期 [11] - **海外模型优势**:海外模型在物理模拟、保真度等前沿能力上率先突破。例如,OpenAI Sora2单次生成时长最长达25秒,原生分辨率达准2K,物理规律合规率较前代提升超一倍;谷歌Veo3.1在视频生成质量上领跑全球 [15][17][34][35] - **国内模型特点**:国内模型聚焦可控性、多模态交互与本土场景适配,形成差异化竞争。快手可灵主体一致性超96%;字节Seedance 2.0生成15秒视频的可用率或达90%;阿里万相以中文创作需求为核心 [24][26][27] - **模型能力现状**:主流模型已支持L3短片级内容创作,部分能力可达L4长片级要求。具体表现为:原生分辨率最高达准2K,单次生成时长最长25秒;支持音画同步输出;可控性与物理模拟能力持续增强 [3][30][33][39] - **演进趋势**:模型向高清长视频演进(海外重分辨率,国内重时长);生成速度提升、成本优化(海外定价整体高于国内);输入端实现多模态混合,输出端实现音画同出;可控性及对专业创作流程的适配性增强 [30][31][32][33] 2. 影视场景:细分领域渗透率提升,降本增效驱动增长 - **整体渗透率**:全球视频制作市场规模约3163亿美元,目前全球AI视频市场规模约45亿美元,渗透率仅1.4%,提升空间巨大 [4] - **漫剧领域**:AI在内容制作环节应用比例达50%-80%,推动供给爆发式增长。2025年Q4,AI漫剧数量在漫剧榜单中占比超70%。现象级作品《斩仙台下,我震惊了诸神!》由10人团队10天以15万元成本完成,累计分账收入达140万元 [4][43][45] - **真人短剧领域**:从“AI+实拍”发展到全AI制作,AI仿真人剧快速起量。头部作品《斩仙台AI真人版》上线6天抖音播放量破亿,部分作品已跑通商业化,ROI突破1.1 [4][47][48] - **电影电视剧领域**:目前仍以AI辅助制作为主。AI动画电影已率先落地(如《团圆令》),而真人电影仍处起步阶段,与实拍电影存在差距 [4][49][54] - **降本增效作用**:AI在影视素材拍摄环节显著降本,同时通过压缩内容制作周期、丰富内容题材及形式进行增效 [4] 3. AI视频标的梳理:视频工具为核心,IP环节受益最大 - **产业格局**:形成了视频模型公司、IP及影视公司、第三方工具公司协同发展的格局 [5] - **视频工具公司**:AI视频工具是模型能力转化为实际生产力的核心载体,依赖于模型技术支撑和专业视频制作实践积累。拥有技术领先优势的AI视频工具公司更易依托自身创作能力与平台生态产出优质内容 [5] - **IP及影视公司价值**:IP公司因具备海量可视频化的内容库资源,有望充分受益于AI视频工具的成熟,实现内容资产价值重估 [5][6] - **第三方工具公司**:目前以初创公司为主,聚焦垂类应用场景 [5]
从字节Seedance-2
2026-02-13 10:17
涉及的行业与公司 * **行业**: AI视频行业、影视内容创作行业、游戏行业、社交与娱乐应用行业[1][2][3][5][6] * **公司**: 字节跳动 (发布CPS 2.0模型)[3]、腾讯、B站、芒果TV、分众传媒[4][7]、昆仑万维、欢瑞世纪、中文在线[4][7]、光线传媒、阅文集团[2][5][7] 核心观点与论据 * **CPS 2.0模型的技术突破** * 采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,是业界最全面的多模态内容参考和编辑能力之一[3] * 在复杂交互和运动场景下的可用率和生成质量显著提升,物理准确度、逼真度和可控性显著增强,更贴近工业级内容创作需求[1][2][3] * 支持混合模态输入,包括最多9张图片、3段视频、3段音频及自然语言指令[3] * 提升视频生成可控性,指令遵循及前后一致性表现稳定,可实现稳定可控的视频延长和编辑[2][3] * 支持15秒高质量多镜头音视频输出,并具备双声道音频能力[3] * **对产业链的积极影响** * 能够支持工业级影视作品的大部分制作流程,为产业链带来新机会[5] * 大幅降低影视、广告、电商、游戏等场景的内容制作成本[2][3] * 使中小型公司、普通用户或小型工作室也能利用AI工具实现优秀内容创作,激活行业动力,提供更多优质内容供给[5] * 在游戏行业,AI技术对内容制作过程具有颠覆作用,提高效率并促进创新应用,如AI剧本杀和AI陪伴类应用研发[2][5] * 文生视频能够加速IP可视化与商业化速度,重塑行业价值[5] * **AI视频的未来发展方向** * 与社交互动功能深度融合,结合音画同步生成能力,满足自媒体博主、小B端用户及普通用户的日常娱乐与创作需求[2][6] * 偏向集成平台化发展,各大模型厂商倾向于通过C端应用(如豆包APP调用CDS 2.0模型)作为流量入口,实现更大程度用户触达[2][6] * 与助手功能深度结合,实现一站式解决方案,满足各类用户的视频创作需求[2][6] * **投资机会与标的** * **核心布局**: 应以头部互联网龙头公司(如腾讯)为核心进行布局[4][7] * **平台型公司**: 承接大厂营销预算投放的平台型公司,如B站、芒果TV和分众传媒具有投资潜力[4][7] * **内容与IP公司**: 在短剧与漫剧有重点布局的公司(如昆仑万维、欢瑞世纪、中文在线)值得关注[4][7];拥有优质IP储备的公司(如光线传媒、阅文集团)其商业化价值将因AI视频技术进步而显著提升,是长期看好的标的[2][5][7] 其他重要内容 * CPS 2.0使普通用户具备专业导演级别运镜与创作能力[3] * AI视频技术对游戏行业的内容制作过程产生颠覆性影响[2]
AI视频的“1毛钱战争”与“万亿生意”
36氪· 2026-01-29 09:31
行业技术迭代与竞争格局 - AI视频技术迭代速度极快,以“周”为单位更新,海外如PixVerse实现提示词同步生成视频,Runway Gen 4.5模型能在3秒内完成专业运镜且人脸纹理清晰[1] - 国内公司迭代同样迅猛,字节旗下即梦AI核心版本两年内历经9次关键迭代,快手的可灵AI自问世以来升级30余次,市场份额变化迅速,月初领先的模型月底可能被超越[1] - AI视频被视为“万亿蓝海”,其沉浸体验有望抢夺用户注意力,随着模型能力提升和推理成本降低,应用将蔓延至漫剧、游戏及电影等领域,可能迎来大爆发[2] - AI视频是技术进步,更是个性体验、内容生产和商业效率的“三重革命”,对于字节、快手等视频平台而言是一场不得不参与的牌局[3] 主要参与者技术路线与策略对比 - 字节(即梦AI)与快手(可灵AI)选择了不同的技术路线:可灵2.6生成的画面细节更丰富、电影感强,但排队时间超过30分钟;即梦3.5Pro无需等待,1分钟内生成视频且每日免费2次[4] - 当前AI视频生成质量不稳定,物理破绽(如六根手指)常见,外媒实测Sora2生成的视频中仅5%-10%可用于发布,剩余90%为废片,既耗时又烧钱[4] - 生成成本差异显著:根据第三方榜单,可灵2.6Pro每分钟生成成本为4.2美元,谷歌Veo 3.1平均成本高达10.5美元[4] - 字节采用多模态基础大模型(Seedance)路线,一个模型支持文生图、文/图生视频等,通过嵌入扩散变换器、任务并行处理及蒸馏机制来降低计算复杂度,实现用更少推理步骤生成更顺滑视频[6] - 快手聚焦打磨单一视频模型基座,通过产品交互创新提升可控性,例如可灵1.0推出首尾帧功能,2.0允许输入参考图像/视频,O1新增“主体库”以保持特征稳定[7] - 路线选择反映公司基因与资源:字节旨在定义下一代产品、抢占新超级入口;快手则务实聚焦服务P端(专业创作者)和B端客户,对C端保持探索[10] - 资源投入差距巨大:2025年字节在算力、芯片等方面的资本投入达1500亿元,断层领先第二名阿里50%,比快手“多了一个0”[10] - 字节采取“饱和式”投入和内部赛马机制,2025年即梦获得的算力资源同比增加300%,其5款视频生成模型来自4个不同研发团队,内部优胜劣汰[12][13] 市场表现、用户与商业化现状 - 用户增长数据对比:可灵发布一年内用户总量从600万飞升至4500万;即梦截至去年9月月活用户达2037万,是可灵的13倍[14] - 成本与性能榜单显示:在第三方评测中,快手可灵模型(如Kling 2.5 Turbo)表现更佳,而字节Seedance 1.5 pro生成视频的成本更低,为1.56美元/分钟[15] - AI视频用户留存率极低,据透露Sora的30天用户留存率仅1%,60天留存率近乎0%,揭示其当前并非一门好生意[16] - 创作门槛高企,90%的生成视频“根本不能用”,需要复杂的提示词公式和后期调整,导致大众市场产品变现困难[18] - 营收表现分化:即梦AI和Minimax的海螺AI年化营收(ARR)均未破亿;Runway的ARR在去年中已突破6亿元;快手2025Q3披露可灵累计收入达7亿元,预计全年达10亿[22] - 可灵近70%营收由P端订阅会员贡献,B端客户规模超2万家,证明专业创作者付费能力和意愿更强[24] - AI视频能显著提升效率,将传统视频制作时间从平均7小时缩短至45分钟,制作成本节省一半[24] 长期战略与未来展望 - 字节对即梦的长期定位是视觉化、低门槛的超级入口,内部判断其长期价值空间可能是剪映的十倍,参照剪映2024年近百亿收入,即梦有千亿级市场想象空间[25][27] - 为培育大众市场,即梦在产品设计、流量扶持和价格上积极布局:首页采用短视频信息流推荐AI作品;在抖音生态大量投流并形成“即梦生-剪映剪-抖音发”闭环,2025Q1该路径贡献37%新用户;定价极具侵略性,单条视频生成最低仅0.1-0.19元[27][28] - 可灵单条视频生成最低成本为1.25-1.5元,比即梦贵10倍,其会员定价也显著高于即梦[29] - 快手可灵采取“低头看路”的务实策略,先确保即时收益,未来再寻转型机会[30] - 行业挑战在于模型能力尚未全能,创作者倾向于组合使用多家产品,可能导致用户被更专精或更低价的模型抢走,竞争是艰难而曲折的持久战[33] - 行业未来形态未定,无论是快手的“务实当下”还是字节的“豪赌未来”,都在等待时间验证[34]
AI视频三岔路:Sora变现遇阻,可灵务实养家,即梦生态筑梦
36氪· 2026-01-26 12:28
AI视频赛道三大发展路径 - 全球AI视频领域已形成三条清晰的发展路径,分别由OpenAI的Sora2、快手的可灵AI和字节跳动的即梦AI代表,反映了对技术本质和商业化战略的不同认知 [1][5][8] - Sora2凭借技术先发优势迅速获得市场关注,其应用在2025年末推出后,仅用5天便在全球斩获100万下载量,并登顶多国应用商店榜首 [3][8] - 可灵AI已率先跑通商业闭环,月活跃用户突破1200万,2025年预计收入达1.4亿美元,在快手内部被提升至与主站、商业化、电商并列的一级业务部门 [2][10][11] - 即梦AI被张一鸣称为“AI时代的抖音”,选择长期主义生态布局,2025年3月其月活用户数达到893万,优先追求用户扩张和生态培育 [3][14] Sora2:技术爆款与用户留存困境 - Sora2面临严重的用户留存问题,风险投资机构a16z数据显示,其1天、7天、30天、60天用户留存率分别为10%、2%、1%、0%,与TikTok 50%的首日留存率和32%的30天留存率形成鲜明对比 [8] - 产品定位模糊是核心问题,Sora2试图融合工具与社交,但既未提供稳定可控的生成效果,也缺乏成熟的社交互动性与推荐算法,绝大多数用户仅将其视为一次性玩具 [10][16] - 技术生成效果不稳定,行业分析指出其生成的视频中真正可用于实际发布的内容命中率只有5%到10%,人物肢体扭曲、物理逻辑崩坏等问题常见 [16] 可灵AI:务实闭环与高效商业化 - 可灵AI确立了以专业创作者(P端)为核心的明确商业模式,P端付费订阅会员贡献了接近70%的营业收入 [10] - 商业化效率极高,其ARPU(每用户平均收入)达到竞品PixVerse的6.4倍,尽管下载量仅为PixVerse的15.4%,但总收入几乎与其持平 [17] - 公司通过“动作控制”等爆款功能成功从专业市场破圈至大众市场,并与小米、亚马逊云等数千家企业客户建立合作,在电商、游戏等行业部分客户的AI素材渗透率已达60% [2][26] 即梦AI:生态构建与长期主义 - 即梦AI的战略重点是降低创作门槛和培育AI原生内容生态,而非急于商业化,公司认为在技术差距未本质拉开的现阶段,构建长期能力与生态位更为重要 [5][14][18] - 通过“AIGC短剧招募计划”大力扶持创作,为精品内容提供单部最高50%-70%的投资比例,最高投资金额可达200万元,并提供流量推广、技术解决方案等支持 [14][23] - 生态布局初见成效,其扶持的首部AI付费短剧《兴安岭诡事》在抖音上线后,三天播放量突破3000万,公司致力于打通从AI生成到内容分发的全链路,可为作品提供最高3000万-5000万甚至1亿的流量推广曝光 [14][23] 行业核心挑战与未来胜负手 - 算力成本是行业根本挑战,高质量生成视频的推理成本仍在30-50美元/分钟,加之用户因结果不可控需反复生成,产生大量算力沉没成本,导致多数公司难以规模化盈利 [25][26] - 技术可控性是决定产品能否从玩具变为工具的关键,目前各家公司仍难以彻底解决这一创作者最在意的核心命题 [26] - 未来竞争胜负手取决于算力成本平衡、商业模式验证及创作者生态培育,行业可能形成差异化分工而非一家通吃 [23][25][27]
AI视频独角兽Higgsfield:靠“伺候”社媒营销人,9个月赚了2亿美元
36氪· 2026-01-22 20:49
公司概况与市场地位 - 公司Higgsfield是一家成立仅两年的AI视频初创公司,凭借“创作者优先”的商业策略在行业竞争中脱颖而出,成为新晋独角兽 [1] - 公司近期完成8000万美元增发,A轮融资总额达1.3亿美元,估值跃升至13亿美元 [1] - 公司增长迅猛,上线9个月用户超1500万,日生成视频450万条,年收入在两个月内翻倍,达到2亿美元 [1] 用户定位与商业模式 - 公司85%的用户是社交媒体营销人员,主要用途是制作品牌内容、短视频广告和营销素材 [1] - 公司核心路径是精准找到有商业变现需求的创作者与品牌,通过全栈工具满足其需求,构建“创作入口+工作流+分发激励”的完整闭环 [1] - 公司通过设立“创作者奖金”和官方转发优质案例来构建生态,以“每周最高10万美元奖金”直接激励创作者产出内容 [14] 产品功能与核心优势 - 公司产品是一个面向创作者和营销团队的全栈式AI视频工作流工具,核心是名为Canvas的工作台,用于完成创作与协作 [4] - 平台内置“多智能体协作系统”,包括编剧、导演、摄影师智能体,分别负责叙事结构、情绪节奏和镜头运动 [4] - 平台提供超过50种预设专业运镜模式库,如滑轨推进、FPV螺旋、360度环绕、子弹时间等,用户通过描述即可一键调用 [10] - 平台独有的“HCS模块”将ARRI、Red等6台顶级电影机和11支经典镜头的色彩科学内置其中,可一键获得电影感色彩 [10] - 平台提供“SOUL Inpaint”进行像素级画面编辑,支持对象替换、背景更换、动态追踪调优等,满足广告级控制需求 [10] - 围绕“Nano Banana”生态提供了超过2000个小工具,涵盖4K图像生成、视频修复、风格迁移等,并通过移动端App Diffuse满足零门槛创作需求 [11] 技术策略与底层架构 - 公司技术模式是将多个现成AI模型组合成“实用工具+工作流”,而非开发基础模型 [12] - 平台有自研的“Soul”图像模型保证画面真实与风格一致,核心能力在于聚合并驯化如Sora 2、可灵、Minimax等外部主流模型,能在一次生成中并行调用不同模型 [12] - 该策略回避了技术竞赛死穴,将技术复杂性封装在后台,前台提供稳定、易用、可规模化复用的创作工具 [14] 商业化验证与客户反馈 - 上线5个月,公司年化收入达5000万美元,9个月ARR突破2亿美元,从1亿到2亿仅用时2个月 [16] - 一位电商用户评价用其产品在2小时内制作了50个产品视频,无需雇佣传统摄像师,这些视频被直接用于提升产品页面的吸引力和转化率 [16] 行业融资与竞争格局 - 2025年AI视频赛道融资热度持续攀升,多家核心企业披露大额融资 [17] - 爱诗科技B轮获阿里巴巴领投6000万美元,B+轮再获1亿元人民币,合计融资超7000万美元,其全球用户突破1亿,MAU达1600万,ARR达4000万美元 [17] - 生数科技完成数亿元人民币B轮融资,其Vidu视频大模型在评测中超越Sora、Runway登顶双榜,视频生成成本仅为同行十分之一,8个月内实现2000万美元ARR,累计生成视频超4亿条 [17] - 轻量化工具Pollo AI种子轮获1400万美元融资,上线7个月MAU达600万,已实现盈亏平衡 [18] - 纯视频大模型SandAI完成不低于1亿元人民币融资 [18] - 多模态创作平台LiblibAI完成1.3亿美元B轮融资,整合图像、视频、3D生成能力,孵化2000万AI创作者 [19] - 专业级AI视频公司Video Rebirth完成5000万美元融资 [19] - 海外公司Runway计划募资5-10亿美元,目标估值直指100亿美元,此前已于2025年4月完成3.08亿美元D轮融资,估值约35.5亿美元 [19] - Luma AI于2025年11月官宣完成9亿美元C轮融资,估值攀升至40亿美元 [21] - Pika Labs在2025年年底完成8000万美元A+轮融资 [22] - Stability AI于2025年10月完成首轮获4500万美元融资,迪士尼参与战略投资 [22] - 以色列企业Lightricks于2025年7月完成6000万美元战略融资,专项用于拓展AI电影工作室及生成式视频模型研发 [22] 行业趋势与未来展望 - AI生成视频正站在真正的爆发前夜,电影、广告、短视频行业对画面叙事的需求是刚性的 [3] - 单一的文生视频模型会逐渐融入统一的多模态“大一统”模型,竞争将从单点工具转向构建集生成、分发、变现于一体的平台化生态 [23] - 未来,针对电商、教育、医疗等特定场景的专业化微调模型将更具竞争力 [23]
聊聊硅谷AI视频技术与社交运营最新趋势
南方都市报· 2026-01-16 17:13
文章核心观点 - AI视频行业正从品牌曝光转向深度的用户价值挖掘与数据驱动的精细化运营 通过用户教育、社区运营、分层服务及产品快速迭代等方式 显著提升了用户转化、活跃度及生命周期价值 同时 行业技术向生成长叙事、高物理真实度视频发展 服务软件订阅与应用程序编程接口收费成为主流商业模式[1][4] 行业运营策略与成效 - **用户教育与内容营销**:头部公司通过制作详细的教程内容进行用户教育 例如HeyGen的YouTube教程矩阵 热门教程播放量破50万 直接让试用转化率提升23% Creatify通过简化AI参数为三步并配合投资回报率数据对比 使中小企业付费意愿上涨40%[1] - **社区与分层运营**:社区运营是用户留存关键 Synthesia在TikTok发起话题 用户生成内容播放量超8000万 通过举办视频大赛形成创作闭环 使用户日活提升65% 37%的营销素材来自社区 Discord分层运营更精准 HeyGen为不同级别用户提供差异化服务 其付费转化率达到行业均值的2.8倍[1][2] - **产品迭代与反馈**:社交平台成为重要的产品迭代反馈渠道 Creatify在Instagram进行功能投票 用户选出的“一键多平台适配”功能使制作效率提升50% 满意度达92% Synthesia在X平台实时收集反馈 将高频问题响应与迭代周期从30天缩短至14天[3] - **数据驱动与精准营销**:公司利用数据分析指导营销策略 Synthesia发现教育客户占28%后 在Pinterest推出教育模板库 使线索量暴涨120% HeyGen通过Facebook Pixel追踪电商用户关注转化率 制作相关白皮书下载1.5万次 带动行业付费客户增长45%[4] 技术发展与工具应用 - **内容生成技术**:技术发展聚焦于内容生成、智能处理与3D交互 Runway Gen-2能通过文本生成4K视频 连贯性提升60% Pika Labs 1.0解决了帧间跳变问题 支持30秒长镜头 OpenAI的Sora能生成60秒复杂场景视频 物理效果接近真人拍摄[4] - **实用工具效率**:实用工具显著提升视频制作效率 HeyGen的翻译功能支持20多种语言 唇形同步率达95% Descript能像编辑文档一样剪辑视频 效率提升3倍 D-ID的虚拟人直播已应用于电商24小时带货场景[4] 商业模式与行业趋势 - **商业模式**:服务软件订阅和应用程序编程接口收费成为行业主流商业模式[4] - **行业趋势**:技术发展朝向生成长叙事、高物理真实度的视频发展 同时 因版权和虚假信息监管趋严 不少工具已增加水印追溯功能[4] - **运营成效**:通过闭环运营 头部公司的获客成本比行业平均水平低35% 客户生命周期价值提升60%[4]
锦秋被投企业OiiOii创始人闹闹:亲历微信与字节后,如何抓住下一波机会?|Jinqiu Spotlight
锦秋集· 2026-01-07 19:03
文章核心观点 - 2026年将是AI视频应用爆发的关键年份,预计将催生大量新的独角兽公司 [6] - AI视频生成领域的创业公司,特别是采用Agent架构的产品,不仅不会被Sora等大模型“端到端”吃掉,反而会迎来最好的发展时代,与大模型形成互补共生的繁荣生态 [9][11][57] - OiiOii作为AI动画视频生成Agent,其核心价值在于通过“厨师调味”般的深度工作,将底层模型能力转化为面向特定人群和场景的成品,满足从专业创作者到普通用户的广泛需求 [16][57][59] 快问快答 (公司基本情况) - 创始人闹闹毕业于中山大学,MBTI为INTJ,星座是狮子座 [19][20] - 公司核心业务是用AI制作动画 [22] - 公司处于Pre-A轮融资尾声,产品内测发布约一个月,目前需要邀请码 [23][26] - 公司成立约4个月,尚无收入和利润,团队全职规模为18-19人 [25][27] - 创始人创业前拥有丰富的产品经理经验,曾任职于腾讯微信事业群(QQ邮箱)、字节跳动(剪映、抖音特效)以及B站动画业务 [28][29] AI视频的Agent时刻:为什么是现在? - 创始人在2022年DALL-E 2发布时便萌生用AI做动画的想法,但真正的切入时机在2024年上半年,源于观察到多模态模型开始激烈竞争,势头类似语言模型爆发期 [40][43] - Agent架构被确定为最佳产品形态,原因有三:1) 可灵活调用多种模型;2) 动画制作本身是流式、多角色协作的流水线,与Agent工作方式高度契合;3) Agent交互提供高自由度,避免传统GUI工具的功能臃肿 [44][45] - 产品初期采用“首尾帧”生成路线以保证单镜头稳定性,并创新设计Task Agent为不同分镜自动匹配最优模型 [46][47] - Sora 2发布后,其出色的分镜和镜头语言能力促使公司果断放弃原有路线,全面转向接入Sora,首个测试视频(小螃蟹和小猩猩打篮球)一句prompt直出,效果令人兴奋 [47][48][52] 为什么不怕Sora?大模型与Agent的共生关系 - 核心观点:视频模型不可能“大一统”,因各家训练数据、标注标准不同,输出结果各有特色,这为Agent的“组合式创新”留下了巨大空间 [53][166] - 提出“超市与餐馆”理论:大模型如同提供原材料的大型超市,而Agent则是川菜馆、粤菜馆等特色餐馆,为用户提供符合特定口味和场景的成品,两者共存共荣 [16][54][57] - Agent公司约60%-70%的工作是“后厨调味”,即通过建立垂直知识库、优化prompt、调整模型参数等细微工作,将生硬的模型输出转化为符合目标用户需求的佳肴,这是其核心护城河 [16][57][59] - 即使未来Sora发展到4.0/5.0版本,开始提供一些“熟食”(垂直功能),Agent产品也不会消亡,反而会更加繁荣,因为垂直领域的需求深度和专业性是无法穷尽的 [11][63] 目标用户与市场定位 - 初始目标用户定位为“自媒体人”,主要包括三类:1) 围绕IP创作动画的小型工作室(可将内容更新效率从一周一集提升至一天一两集);2) ACG领域的MV创作者;3) 讲历史、科普等非动画领域的自媒体人 [71][72][73] - 内测中发现了三类意料之外的用户:1) 漫剧团队(利用其高效分镜生成能力);2) 从未做过视频但想用动画表达想法的人;3) 为维系社交关系而创作的用户(如家长为孩子、学生为老师、情侣之间制作动画视频) [18][76][77] - 公司未来将采用类似抖音做垂类的策略,针对科普、MV等不同内容类型,深入研究其结构并构建专属知识库,逐个垂直领域进行深度服务 [78][79] - AI视频Agent不会取代剪映等传统工具,而是带来增量市场,两者效率叠加为最优解,用户可在OiiOii生成内容后,再导入剪映进行轻量剪辑等后期处理 [16][87][94][95] 产品设计与技术架构 - 选择Agent架构的重要原因之一是避免传统创作工具(如PS、PR、剪映)从简单走向功能臃肿的必然循环,Agent的能力更多隐藏在后台,而非通过GUI堆叠 [82] - Agent产品具有用户与产品共建的魅力,用户能探索出开发者意想不到的用法,不断拓展产品边界 [83][84] - 为平衡工作流的“稳定性”与用户修改的“自由度”,公司在两个月内重构了四次系统架构,最终采用在严格workflow中嵌入“信号”机制的方案,允许Agent在特定环节跳出接受用户指令后再跳回,技术挑战大且仍在优化稳定性 [85][86] - 产品设计赋予每个Agent(如剧本Agent、角色设计Agent)角色感,模拟“团队服务于导演”的体验,但多Agent交互中的上下文记忆管理是架构难点 [96][97] - 产品的“秘方”在于将影视学的专业知识(如用特定色调、场景表达“孤独”情绪)打包成可调用的元素,使普通用户仅用情绪词也能生成有“感觉”的片子 [98][100] 创始人的产品方法论与行业洞察 - 在微信的工作经历培养了深刻的产品价值观和“被训练出来的直觉”,强调通过大量阅读用户反馈(每天数百上千条)来识别真伪需求,洞察人性 [108][111] - 在字节的工作经历强化了数据驱动和理性策略思维,学会了通过用户行为数据计算概率来指导产品决策(如“造风”),将产品sense与数据科学结合 [112][115][117] - 微信与字节的共同点在于都将自身基因优势发挥到极致:微信将“体验”和“感性”发挥到极致,字节则将“效率”和“数据”发挥到极致 [120][121] - 成为一名优秀产品经理的三个关键能力:1) 移情能力,能迅速切换为用户视角;2) 50%自信与50%自省结合,避免盲区;3) 对技术敏感,理解技术可实现性的边界 [131][132] - 动画行业是商业世界中少数会奖励“纯粹”与“热爱”的领域,创始人长期的动画梦想与AI技术机遇、团队能力实现了完美匹配 [9][128][129][137] 对2026年AI视频领域的预测 - 技术发展将延续质量提升、可编辑性增强的趋势,实时性和互动性也可能提高,但更高的编辑自由度和互动性可能使产品更小众,因为大众已习惯被动接收信息 [158][159][160] - 一些在现有媒介基础上的“小改动”(如Sora 2带来的更自然切镜)可能比巨大的技术革新更能吸引广泛受众 [161] - 视频模型厂商将朝两个方向发展:一是强化自身擅长领域,二是补足短板,同时会继续追求通用性,实时性和可编辑性将是重点增强方向 [168][169] - 视频模型难以大一统,不同模型有先天差异(数据与标注)和后天差异(公司战略),且即使模型相同,调用手法和输入内容的不同也会导致输出结果迥异 [164][165][166]
AI视频进入「连续叙事」时代:「一致性」成商业化发展瓶颈
新浪科技· 2025-12-16 09:07
行业核心观点 - AI视频生成行业竞争焦点已从单镜头“生成能力”转向多集“可持续创作能力”,主体一致性、资产可复用性与工作流连贯性成为关键商业门槛[1] - 工具平台的角色正从模型能力展示窗口转变为内容生产基础设施的构建者[1] 行业发展趋势与挑战 - 行业面临的核心挑战是“主体不一致”问题,即角色在多集中难以保持外貌、服装、表情等特征不变,这制约了AI短剧等连续性内容的商业化[1][4] - 市场意识到真正的挑战不在于单帧画面的逼真度,而在于十集、二十集剧情推进中的角色与场景一致性[1] - 技术演示中的流畅片段难以直接转化为可消费的连续内容,观众无法接受主角“换脸”或关键道具消失[4] - 版权归属、内容安全、IP保护等问题仍是行业共性难题[8] 公司产品与战略 - 商汤科技于2025年7月推出“创编一体”AI视频智能体Seko,并于后续发布Seko2.0,焦点从“单集生成”转向“多聚集创作”[4] - Seko平台定位为短剧、漫剧、广告片、教育课件等内容创作者提供端到端的生成与编辑能力[4] - 平台支持“自研模型+第三方模型”融合调度,通过统一的Agent链路保障跨模型的一致性[5] - 公司通过模型结构蒸馏、算子优化及国产芯片适配,已实现推理成本下降约50%[8] - 公司未将Seko定位为封闭的内容平台,而是坚持“先把工具做好”,目标是帮助创作者更好创作、管理、发行和赚钱[8] 市场应用与商业化 - 长内容的核心价值在于实现可衡量的投资回报,其基础是人物主体一致性、故事情绪延展和场景世界观连贯[2] - 若一致性等要素断裂,观众会因违和感脱离剧情,不愿为此类内容买单[2] - Seko平台已吸引超20万创作者,包括上百个短剧工作室,部分作品已成功上线主流平台[5] - 平台用户增长迅速,内测于7月,8月正式推广,9月创作者快速增长到10万,当前已超20万,且更多是高频的偏专业及半专业级别创作者[7] - AI生成短剧在配音和画面细节精修环节仍依赖外部工具,但整体制作流程高度依赖Seko的多集分镜生成与资产复用能力,形成“主干用AI、细节人工补”的混合模式[6] - 这种模式已能显著降低制作门槛与周期[6] 产品设计与用户体验 - 平台竞争正从“模型参数”转向“用户体验”与“工作流整合”,旨在让非技术背景的创作者快速将想法变成视频[7] - 平台采用“低频用户一键生成、高频用户深度可控”的双轨设计,在自动化的同时为高阶用户提供精细编辑接口,每一步都可对话修改、多次修正[7] - 设计旨在覆盖从大学生、教师到专业工作室的多元需求[7]
技术突变催生新风口!AI视频改写造富规则,关键密码少有人知
搜狐财经· 2025-12-11 21:37
行业爆发与市场表现 - AI视频成为2025年显著的造富风口,创作者与企业均实现高额收入 [1] - 创作者通过AI视频工具接广告单,半年可赚取数十万元 [4] - 头部AI视频公司的年收入从几乎忽略不计飙升至亿元级别,最高接近10亿元 [4] - 主要产品如快手可灵、字节跳动即梦已推行会员制,月费从59元到1399元不等,商业模式清晰 [6] 资本动态 - 2025年下半年AI视频企业迎来融资盛宴,爱诗科技、生数科技等公司融资额从几亿元到上亿美元不等 [7] - 海外公司如Runway和LumaAI也在筹备数十亿美元级别的融资 [7] 技术进步与产品演进 - 技术突破是行业爆发的核心,AI视频生成速度与质量在2025年实现飞跃 [8] - 生成时间从2024年的两天缩短至2025年的5到30秒,画质从780P提升至1080P以上,并支持自然语言交互与一键换风格 [10] - 厂商内卷推动工具从“玩具”变为生产力工具,生成内容真实性大幅提升,肉眼几乎难辨真假 [10] 当前产品局限与用户反馈 - 产品存在三大主要问题:缺乏连续创作功能导致流程繁琐;协作功能差,难以满足团队需求;对复杂动作如舞蹈、体操的精细控制不足,错误率高 [13] - 不同产品各有侧重:拍我AI生成速度最快(5秒出360P,1分钟出1080P),适合紧急项目;海螺AI擅长大动作场景;Vidu视频一致性强但画质一般 [15] - 用户期待能整合各家优点、支持连续创作的超级工具 [15] 行业前景与未来趋势 - 行业仍处早期,当前产品效果已能满足短视频消费,商业循环健康,未来收入预计持续增长 [17] - 预计2026年AI视频将在电商、教育、短剧等领域创造更多收入 [17] - 2026年被视为行业分水岭,可能出现平台级入口,交互式视频成为新热点 [19] - 做出电影级画质的产品被视为决胜关键,技术无法突破的企业可能被市场淘汰 [17][19]
AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!
量子位· 2025-11-18 14:00
产品核心升级 - 拍我AI(PixVerse)上线V5 Fast模型,视频生成速度提升超30%,5秒高清视频生成时间从1-2分钟缩短至1分钟以内[7][49] - 同步推出Modify精修功能,支持端到端视频编辑,实现视频生成后的在线修改,解决了AI视频“一次生成定生死”的行业痛点[7][9] - 新功能组合使AI视频创作首次具备“快+可控”的完整体验[7] 技术能力与创新 - Modify精修功能实现跨帧推理、统一风格和主体稳态,其底层架构的精修方式在业内极为稀缺,属于公司的独特能力[9][10] - 元素替换能力覆盖物品、人物、背景,能在移动背景中自动补足每帧场景一致性,实现实物级别的可控编辑[12][14][20][22] - 支持对非实体细节进行修改,包括风格、材质、光线、色调等,并能保持动作一致性,例如将实拍视频转换为美式漫画风格或将车身材质从亮面替换为哑光[23][26][30][33] - 人物编辑功能支持通过提示词直接调整年龄、服装、气质、皮肤状态等,例如使人物眼睛放大、皮肤磨皮,或将老奶奶形象年轻三十岁[35][36][38][40][42][44] - V5 Fast模型通过轻量化推理结构和缩短帧间计算依赖实现提速,高分辨率视频生成不再是瓶颈环节[49] 市场定位与行业影响 - AI视频正从创作者工具转变为商业化生产力,广泛应用于品牌活动、自媒体内容、商家素材及大众化生活记录场景[8] - 可修改性成为当前AI视频市场最真实且迫切的需求,公司产品通过Modify功能让视频创作工作流真正闭环,降低了专业门槛[8][9][10][11] - 公司完成1亿元人民币B+轮融资,两年内完成五次模型迭代和八个版本更新,在DiT架构、准实时生成等关键技术上实现突破[50] - 旗下产品拍我AI(PixVerse)全球累计服务超一亿用户,月活突破1600万,自启动商业化以来收入增长超10倍[51] 性能表现 - 拍我AI V5 Fast生成1080P的5秒视频仅需约40秒,360P和720P格式生成速度更快,仅需数秒[50] - 公司在去年12月V3.5模型突破10秒生成大关,今年1月V4模型进入5秒准实时生成时代,成为全球已具规模的视频生成平台中速度最快的之一[50]