Workflow
AI Video
icon
搜索文档
刚刚,AI视频的天花板被掀翻!测完SkyReels后飘了:我亦有成为专业导演的潜质
机器之心· 2025-11-04 11:45
行业背景与公司定位 - AI视频生成赛道竞争激烈,国外如OpenAI推出Sora 2、谷歌更新Veo 3.1,国内如生数科技推出Vidu Q2,均在视频质量、时长(如20秒)方面有显著提升[1] - 国内厂商倾向于打造覆盖图像、音视频、数字人、Agent的全模态内容共创平台,通过模板化和流程化降低创作门槛,突破AI视频应用边界[1] - 昆仑万维采用“模型+平台”并行演进模式,新上线的一站式多模态AI视频创作平台SkyReels集中体现了这一思路,旨在加速AI视频创作普及[1] SkyReels平台核心功能 - 平台集成多模态视频生成模型SkyReels V3,并提供无限画布、数字人口播、多模板生成与Agent等多种创作模式[2] - 无限画布作为核心亮点,集成全部AI功能和全球顶尖AI模型,是图片、视频、音乐等多模态的融合载体,支持实时交互和效果呈现[8][9] - 通过画布可实现多模态融合创作,例如将静态《清明上河图》拖拽至图生视频功能,几秒内生成动态视频,并可进一步通过Super Agent对话激发灵感生成4K分辨率陶土风格版本[10][12][14][16] - Agent模块包括Super Agent(全能创意助手)和28位Expert Agents(行业专家),覆盖市场营销、电子商务、虚拟形象塑造等领域,用户仅需简单指令即可自动完成多步骤复杂任务,生成可直接交付的成果[17][19][21][22][24][26][28] - 模板库全面升级,收录近10大类、150余种专业模板,覆盖海报设计、电商服装图、商品演示视频等主流场景,可一键提升普通图片质感,支持多件服饰同时试穿和品牌广告模板[29][30][32][34][36][38][41][42] - 数字人功能实现全场景对口型生成,支持单人驱动和单镜头多人多轮对话,最长可生成4分钟连续视频,内置32种运镜组合与丰富配音资源库,极大降低多镜头拍摄与后期成本[42][43][45][46][47][48][50][52][53] - 视频编辑功能支持视频延长和风格化,提供Cut-In、Cut-Out等多种切镜方式,生成片段在叙事逻辑与视觉连贯性上高度一致[54][56] SkyReels V3模型技术优势 - 模型基于多模态上下文学习框架预训练,并通过子任务精调优化,在参考图像一致性(0.6698)、指令遵循能力(27.22)和视觉质量(0.8119)评估中达到业界闭源SOTA水平[60][61][62] - 基于音频参考的视频生成优化音画对齐,业内首次支持单镜头多人多轮对话,通过区域路由机制实现自然流畅多轮对话,并强化运镜控制,支持分钟级高质量视频生成[63][64] - 基于视频参考的视频生成统一支持视频延长、风格化与编辑多任务,在单镜头与切镜延长任务上达到业界SOTA,自研端到端风格化数据生成流程确保艺术可控性[66][67] 公司战略与商业表现 - 昆仑万维自去年8月推出SkyReels后,先后发布并开源SkyReels V1、V2及A1、A2、A3系列模型,形成集图片生成、口播讲解、故事音乐等于一身的AI视频创意矩阵,服务于媒体、电商、教育等多行业[69][73] - AI视频业务与AI智能助手、AI音乐等共同构成公司多元矩阵,成为营收增长重要引擎;2025第三季度报告显示公司前三季度营业收入58亿元,同比增长52%,AI相关业务收入大幅增长[74]
第二届瓦卡奖AI竞技日:限时主题挑战,探索AI的无限可能
南方都市报· 2025-10-20 01:59
赛事概况 - 第二届AI视觉创意大赛(瓦卡奖VACAT)于10月19日在深圳·红立方公共艺术馆举办,核心活动为“AI竞技日”,通过全天密集赛事考验参赛者在创意、技术、合作与应变等方面的综合能力[1] - 赛事采用“厂商—高校—专业”三维赛程,立体化呈现AI视频行业从工具革新到内容生态的整体演进,成为观察AI视觉创作前沿趋势的重要窗口[3] 厂商战队赛 - 全球七大AI视频厂商战队(海艺AI、MiniMax、PixVerse、可灵、Vidu等)参与限时命题对决,需在2小时内完成一条30秒的AIGC动画视频[4] - 海艺AI平台被描述为功能全面的创作工具,涵盖文生图、图生视频及音频生成[6] - Gaga AI在人物表现力、音画同步和微表情处理上具有优势[6] - 拍我AI在生成比例、速度和内置模板上具备优势,支持超长宽屏视觉作品创作[8] - 海螺AI擅长复杂动作生成和运镜,并具备高质量的声音生成功能[8] - Vidu AI的优势在于多角色生成和运动控制,其作品以黑色幽默探讨“AI作为人类对手”的命题并赢得最佳作品奖[8][12] - 悠船AI在美学风格控制上具有优势,采用独特的“P值”系统来简化画面风格确定过程[10] - 可灵AI的特长在于微表情刻画和电影级光影表现[10] - 七支战队的作品风格迥异,从卡通风格到王家卫式文艺片,从好莱坞大片到广告质感,体现了AI视频创作正走向多元化的成熟阶段[14] 高校与专业赛事 - 下午赛程分为“全国高校AI电竞锦标赛”与“专业AI电竞联赛”双赛道[16] - 高校赛道有来自92所高校的选手参与,最终8位选手进入总决赛,总决赛采用五轮主题创作赛制,每轮主题随机揭晓,创作时间从8分钟逐轮递减[18] - 金奖获得者为南京传媒学院学生,银奖获得者为南开大学学生,后者接触AI创作的初衷是认识到传统设计行业正面临AI技术带来的深刻变革[18][19] - 专业赛道团队组总决赛冠军由一支名为“我们”的线上社群团队获得,团队认为高度统一的审美理念、默契协作与放松心态是夺冠关键[21] - 参赛团队认为瓦卡奖是极具影响力的行业盛会,通过活动拓展了行业视野与人脉,并激发跨越艺术与技术边界的创作灵感[21] 获奖名单 - 全球AI视频厂商战队赛共颁发八个奖项:最佳多样性功能奖(海艺AI)、最佳动态奖(拍我AI)、最佳美学奖(悠船)、最佳人物神态奖(Gaga AI)、最佳镜头控制奖(海螺AI)、最佳画质奖(可灵AI)、最佳运动幅度奖(Vidu AI)以及含金量最高的最佳作品奖(Vidu AI)[22] - 高校AI竞技锦标赛冠军为南京传媒学院,亚军为南开大学,季军为广东外语外贸大学[23] - 2025提示挑战团队冠军赛冠军为“我们队”,亚军为“一起兜风队”,季军为“MY PB队”[23]
Sora后思考:从AI工具到AI平台,产业AGI又近了一步
36氪· 2025-10-16 18:03
AI视频行业范式转变 - 行业正从工具时代转向平台时代,竞争焦点从算法转向生态建设,核心是构建“生成-编辑-分发-变现”全链路能力[1][3] - OpenAI于9月30日发布社交应用Sora,采用垂直视频流界面,支持文本生成最多10秒带声音视频,禁止上传非AI内容[1] - Sora应用初期免费开放,普通用户享有基础算力,公司计划向开发者提供API以拓展生态链[2] 市场竞争格局 - 2024年全球AI视频生成市场规模突破50亿美元,预计到2026年将实现年均增长率超过120%的爆发式增长[8] - 在SuperCLUE文生视频榜单中,谷歌veo-3.0以55.40分排名第一,MiniMax Hailuo-02以51.67分位列第二,字节跳动Doubao-Seedance-1.0-pro以49.07分排名第三[8] - 国内厂商如MiniMax、字节、快手在评测中进入前五,火山引擎Seedance 1.0在AGI-Eval图生视频排名中夺冠[5][7] 技术商业化瓶颈 - 高质量视频生成推理成本高达30–50美元/分钟,批量生成成本高昂,难以规模化应用于影视等标准化生产体系[9] - 当前工具无法融入整体协作系统,创作者需大量时间调试提示词,效率未提升,AI视频成为灵感生成器而非生产工具[9] - 生态断层问题突出,生成内容需导出转码才能分发至社交平台,内容链路被切断,用户留存下滑[10] 中外发展路径差异 - 海外厂商如OpenAI、Runway采用“模型+API+社区”模式,以底层能力体系为核心,通过封闭算力与API开放构建技术壁垒[12][13] - 中国厂商从应用场景切入,优先让AI视频融入广告、电商、影视等生产流程,特点是以内容驱动而非模型驱动[14] - 截至2025年6月,可灵AI全球月活用户超150万,C端订阅贡献70%收入,单月流水破亿;即梦AI月活用户达2037万[15] 平台化落地机遇 - 国内内容平台集中度高,抖音、快手等已完成用户教育到商业闭环建设,为AI视频产业化提供天然“温床”[17][24] - 平台化核心是构建系统能力,包括插件模板生态、联合算力网络、版权收益机制等,以降低成本和实现互通[20] - AI视频平台将重塑内容产业底层结构,从分散创作进入统一协作,内容流通速度和品效匹配能力将指数级提升[22][23] 产业影响与未来展望 - AI视频正在改写内容工业,催生AI视觉总监、提示词工程师等新岗位,推动产业链结构升级[25] - 未来创意将通过模型放大,创作周期从周级缩短至分钟级,内容成为数据经济的生产资料[26] - 搭建完整“生成—编辑—分发—变现”链路的企业将掌握下一代内容工业的发动机和AI平台先机[27]
特效成本下降90%,它用1.54亿美元,打造合规电影级AI视频
36氪· 2025-07-22 20:07
公司融资与市场地位 - 公司完成8400万美元A+轮融资 由General Catalyst领投 CAA YC CoreWeave等参与 总融资额达1.54亿美元 成为AI视频赛道融资规模最高玩家之一[2] - 2023年完成3600万美元种子轮融资 2024年11月完成7000万美元融资 今年完成8400万美元A+轮融资[20] 技术突破与产品特性 - Marey模型突破AI长视频与高清合规门槛 支持分钟级长视频生成 私人测试版本支持30秒时长[6] - 支持1080P 24帧/秒电影级画质 基于高分辨率授权电影素材训练[6] - 首创前景/中景/背景分层编辑与3D镜头轨迹控制 支持近360度摄像机运动模拟[2][9] - 具备物理仿真能力 可模拟重量 动量等物理属性和时空关系[7] - 与ComfyUI集成 支持节点式工作流 可自定义分辨率 长度 参数 风格 批量处理视频[9] 成本优势与行业应用 - 单场景渲染成本仅1-2美元 较传统VFX制作成本下降90%以上[2] - 实际案例帮助纪录片《Menudo:永远年轻》降低40%制作成本[11] - 功能覆盖影视制作全流程 包括特效生成 B-roll素材补充 电视节目后期微调等[11] - 已收购电影工作室Asteria 在十余家大型影视工作室启动试点项目 参与HBO纪录片等项目[20] 数据合规与版权保护 - 模型仅使用自有或授权数据训练 80%素材来源于独立电影制作人 YouTube用户等授权渠道[17] - 允许创作者申请数据删除及追溯补偿 彻底规避版权争议[18] - 训练素材数量约为Sora或谷歌Veo的20% 但通过合规性构建竞争壁垒[18][20] 商业模式与用户体系 - 采用订阅制销售 月费档位包括15美元(100积分) 35美元(250积分) 150美元(100积分)[20] - 用户可选择自愿将生成视频贡献至训练数据集 以此换取会员积分奖励[20] - 采用社区驱动迭代 用户可投票选择优先开发功能[11] 行业发展趋势 - AI视频正逐步渗透好莱坞制作现场 案例包括《野兽派》AI配音 《光》AI嘴型调整 《普京》AI后期合成[5] - 传统制片厂开启自救模式 迪士尼自主研发AI工具 Netflix利用自研AI工具完成视效镜头[14][15] - 主流工具如Google Veo 3 Sora Runway普遍未公开训练数据来源细节 依赖互联网内容抓取[13]
时隔500天,PixVerse终于上线国服了,但它叫拍我AI。
数字生命卡兹克· 2025-06-06 11:23
行业背景 - AI视频行业从2023年8月前的空白状态迅速发展至2025年的"千帆竞渡"格局,500天内完成从技术萌芽到商业化爆发的跨越[3][4] - 行业初期仅有Runway Gen1提供v2v基础功能,2023年7月Runway Gen2首次实现文生/图生视频技术突破[4][6] - 当前赛道聚集Runway、PIKA、Luma、Sora等超10家竞争者,成为AI领域最热门方向[20][22] 公司发展历程 - 成立于2023年4月,2023年10月内测版上线即跻身"御三家"之列[6][8] - 技术迭代速度远超同行:2024年1月V1发布至2025年5月V4.5上线,平均3-4个月更新一代模型[18][19] - 国内版"拍我AI"延迟500天上线,主因团队资源优先倾斜海外市场[11][24] 产品竞争力 - 早期凭借4K生成质量突围,当时行业普遍仅支持720P输出[8] - 独创视频模板功能降低使用门槛,实现ToC端爆发,典型案例包括"大肌肉"特效模板[14][16] - 在以色列摄影类App登顶,沙特/土耳其等中东9国进入影像类前5,美国总榜最高第4[13][14] 市场表现 - 海外营收持续快速增长,2025年实现盈利后启动国内业务[24] - 用户增长导致早期算力紧张,创作者需现场使用公司设备生成内容[8] - 全球化布局成效显著,覆盖西欧/东欧/中东三大区域市场[13][14] 技术演进 - 2024年4月实现角色一致性突破,7月新增多段视频生成功能[18] - 2024年10月V3版本上线核心的视频模板功能[18] - 2025年2月V4版本完成重大底层模型升级[18][19] 行业影响 - 推动AI视频从专业工具向大众化应用转型,降低创作门槛[16] - 验证模板化+社交传播的商业模式可行性[14][16] - 加速行业技术迭代节奏,倒逼竞争对手缩短更新周期[18][20]
为什么AI视频工具长得越来越像?
36氪· 2025-05-07 15:50
AI视频赛道竞争格局 - 行业从对标Sora转向关注商业化落地,中国玩家可灵、即梦等成为新焦点 [1][4] - 2025年半年内超10家AI视频公司密集发布新模型,迭代周期缩短至半月级 [4][12] - 头部玩家如Runway、可灵、Vidu保持半年一次基座模型更新节奏 [11][12] 技术竞争维度 - 行业聚焦三大方向:一致性(帧间连贯性)、可用性(工作流整合)、可玩性(创意特效) [6][9][14] - 一致性优化手段包括首尾帧控制、笔刷工具、多图参考等,Runway推出Act-One面部表情迁移功能 [9] - 可用性体现在动态编辑、镜头运动控制、端到端工作流(分镜-生成-剪辑)能力 [13] 产品功能同质化与商业化 - 主流产品功能趋同,均支持主体参考、音效生成、多模态编辑等基础功能 [5][15] - 可灵2.0生成5秒视频成本10元,B端API价格2元/5秒,国内厂商B端价格优势显著 [16][20] - 行业未现价格战,闭源模型仍主导市场,开源模型存在性能短板 [21][22] 市场参与者与融资动态 - 2025年初超10家AI视频初创公司获融资,Runway获3.8亿美元D轮,HeyGen获6000万美元A轮 [23][25] - 参与者分化为AGI派(如谷歌DeepMind)、平台派(如Runway)、产品派(如Pika) [26] - 创作者多平台组合使用,Runway强于可控性,Pika擅动漫风格,Vidu稳定写实输出 [26][27] 行业挑战 - 商用落地存在成本高企问题,3分钟短片制作成本达数万元,客户预算持续压缩 [16][18] - 技术路径未收敛,开源与闭源模型性能差距缩小但效率不足问题仍存 [21]
Lovable 5 个月 ARR 4000 万美金,HeyGen 竞对 ARR 1亿美金了
投资实习所· 2025-04-18 13:30
AI编程产品Lovable - ARR在5个月内达到4000万美金,已帮助100万用户实现想法[1] - 产品定位为非技术用户,优化了用户界面和聊天回应方式使其更易理解[1] - 独有的编辑模式支持即时精准编辑,加快细节修改速度[1] - 内置购买和连接自定义域名功能,简化应用托管流程[1] 竞争对手Bolt.new - 原生集成Stripe支付功能,大幅简化支付接入流程[3] - 生产力工具整合全链条功能,降低用户使用门槛[3] OpenAI收购动态 - 拟以30亿美金收购AI编程产品Windsurf[3] - 曾两次尝试收购Cursor但被拒,Cursor目前日活超100万用户,正以100亿美金估值融资[3] - OpenAI评估20多家AI编程产品后选择Windsurf,显示其急于拓展该领域[3] AI视频行业 - Synthesia宣布ARR突破1亿美金,获得Adobe战略投资[4] - 70%的财富100强公司已成为其客户[4] - 2023年2月ARR为8500万美金,完成1.8亿美金D轮融资,估值21亿美金[7] - 定位企业级市场,专注建立真实收入和良好单位经济的业务[6][7] 行业竞争格局 - HeyGen ARR达3500万美金[7] - Captions估值5亿美金[7] - Capsule完成1200万美金A轮融资[7] - Opus Clip获2000万美金新一轮融资[7] 行业发展趋势 - AI视频领域呈现快速增长态势[7] - 企业级和C端市场均有代表性产品涌现[7] - 收入规模和单位经济成为衡量企业价值的关键指标[6]