Workflow
AI视频生成
icon
搜索文档
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
机器之心· 2025-12-15 16:10
行业背景与核心问题 - 自Sora 2发布以来,各大科技厂商迎来新一轮视频生成模型“军备竞赛”,纷纷推出迭代版本[2] - 行业面临一个本质问题:这些模型距离真正的生产力工具还有多远[2] - 当AI视频生成模型步入短剧制作等实战场景时,会撞上由效率、成本、质量构成的“不可能三角”[11] - 目前即便如Sora 2级别的产品,生成10秒视频往往需要数分钟乃至十分钟,严重制约创作效率[11] - 开源模型生成一段5秒视频通常超过十分钟,商用闭源模型生成5秒视频通常也需1至10分钟不等[12] - 一个仅5秒的视频片段就需要生成接近10万token,而一键生成通常会产生10到20个分镜,单次操作的token消耗量达到100万到200万级别[12] - 当行业试图通过降低推理步数、压缩模型参数等方式提升速度、降低成本时,往往会遭遇生成质量下降的挑战[13] 商汤科技Seko 2.0产品发布 - 商汤科技于12月15日上线全新的Seko 2.0版本,让AI短剧创作真正实现“一人剧组”[2] - 只需输入一句简单的提示词,Seko 2.0能策划剧本大纲,生成分镜和视频[4] - 该产品能生成1分半钟的3D艺术风格动画短片,以及唇形同步精准的数字人音乐MV[5][6] - Seko是行业首个创编一体、多剧集生成智能体,已经服务上百家短剧工作室,大量AI短剧成功上线[7] - 用商汤Seko创作的《婉心计》登顶抖音AI短剧榜第一[9] - 此次2.0版本的升级,背后是商汤在视频生成底层技术上的深度突破,从开源推理框架LightX2V到产品化落地,再到国产芯片的全面适配,商汤正在构建一条完整的AI视频生产链路[9] LightX2V开源框架的技术突破 - LightX2V是由商汤科技与北航联合研发的成果,是业界首个开源的实时视频生成推理框架[16] - 该项目上传的模型累计下载量已突破350万次[16] - 其核心价值在于真正做到了实时视频生成,生成5秒视频所需时间小于5秒,速度达到现在行业主流的数倍甚至十倍以上[17] - 商汤原创设计的Phased DMD步数蒸馏技术,让视频生成在4步推理下就能实现高质量的一致性和动态性[19] - 该技术产出的Wan2.1、Qwen-Image等多步模型,登上HuggingFace趋势榜前10,累计下载量超过358万次[19] - Phased DMD是一个结合了阶段式蒸馏和专家混合思想的多步蒸馏框架[19] - LightX2V团队发布了LightVAE、LightTAE系列高效视频自编码器模型集合,旨在实现高达10倍以上的性能提升[27] - LightVAE对Wan2.1 VAE剪枝75%,成功将显存占用减少了约50%(降至约4-5 GB),同时将推理速度提升了2到3倍[27] - LightTAE系列将显存占用降至极低的约0.4 GB,并实现了极快的推理速度[28] - 实际测试中,处理一段5秒81帧的视频时,官方Wan2.1 VAE解码时间约为5.46秒,显存需求超过10 GB;LightVAE解码时间缩短到约2.07秒,显存降至5.57 GB左右;LightTAE解码时间仅需约0.25秒,显存几乎可以忽略不计[28] LightX2V的工程与架构创新 - LightX2V构建了一个面向低成本、强实时的视频生成推理完整方案,覆盖了模型、调度、计算、存储和通信五个维度[31] - 通过低比特量化、稀疏注意力、特征缓存、高效Offloading和多卡通信优化等技术,形成了清晰且高效的五层体系结构[31] - 该框架的算子实现层集成了Flash Attention V3、Sage Attention V1/V2/V3、Radial Attention和Ring Attention等创新算子[32] - 这种全栈优化带来的直接效果是显存门槛降至8GB以下,入门级消费卡即可流畅运行;在RTX 5090等消费级显卡上,已经实现了1:1的实时生成效果[35] - 框架提供了多样化的接入方式,包括集成到ComfyUI Workflow、通过Gradio Web快速部署在线演示服务、支持本地服务器部署,以及提供用于稳定生产环境的静态推理接口[35] 国产化芯片适配与商业化前景 - 商汤在Seko 2.0中实现了全面适配国产化芯片的关键布局[39] - 借助LightX2V框架,Seko已成功支持多款国产AI芯片,真正实现了视频生成模型的全国产化部署能力[40] - 从实际效果来看,在国产芯片与英伟达芯片上生成的视频,质量差距并不明显[41] - 虽然国产芯片的生成速度略慢,但其性价比优势突出[41] - 未来商汤计划给创作者提供国产化和非国产化两套方案,使用国产化方案的用户将获得更优惠的价格政策[41] - 打通从算法框架到硬件芯片的全链路国产化能力,意味着中国AI产业在核心技术上迈出了实质性的一步[42]
迪士尼向OpenAI投资15亿美元 给旗下IP进行AI视频生成
搜狐财经· 2025-12-12 08:44
合作核心内容 - 华特迪士尼公司与OpenAI达成一项总额约15亿美元的战略投资与合作协议 [1] - 合作核心是OpenAI获得迪士尼旗下庞大知识产权的授权,将其AI视频生成模型Sora向迪士尼的创意内容生态开放 [1] 协议具体条款 - 根据为期三年的独家授权协议,Sora的用户将能够使用超过200个来自迪士尼、漫威、星战、皮克斯等品牌的经典角色进行短视频创作 [3] - 部分精选的AI生成内容未来有望在迪士尼流媒体平台Disney+上播出 [3] - 协议规定,OpenAI需为使用迪士尼IP支付授权费用 [3] - 迪士尼通过此次投资,获得了在未来以当前约5000亿美元估值增持OpenAI股份的权利 [3] - 迪士尼员工也将获得使用ChatGPT等OpenAI工具进行内部产品开发的权限 [3] 合作战略背景与意图 - 合作宣布前一天,迪士尼刚向谷歌发去警告信,指控其AI图像工具"Gemini"大规模生成并传播涉及迪士尼角色的侵权内容 [3] - 分析认为,迪士尼选择与OpenAI联手,意在对其主要竞争对手谷歌形成制衡 [3] 内容安全与战略价值 - 协议包含了严格的内容安全条款,禁止在创作中使用迪士尼角色涉及毒品、酒精、成人内容或与其他公司IP进行不当互动 [4] - OpenAI CEO强调了对年轻用户保护的重要性,并称赞迪士尼是"开放的合作伙伴" [4] - 迪士尼CEO表示,AI技术有助于吸引并留住年轻观众 [4] - Sora让用户在30秒短片中与角色互动的功能对迪士尼尤其有价值 [4]
北京大学:AI视频生成技术原理与行业应用 2025
搜狐财经· 2025-12-09 14:48
AI视频技术概览 - AI视频属于狭义AI范畴内基于学习的生成式AI,是AIGC的重要分支,核心任务包括视频生成、编辑与理解,典型生成方式为文生视频、图生视频、视频到视频 [1] - 技术演进从2016年前的GANs探索阶段,到2020-2024年扩散模型实现商业化突破,再到2024年Sora发布开启“AI视频元年”,行业进入分钟级高清视频量产阶段 [1] - 国内外主流工具平台包括OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika等,各平台在时长、画质、风格上各具特色 [2] 技术原理与架构 - 扩散模型因训练稳定、生成多样性强成为主流技术范式,其架构分为U-Net和DiT两类,U-Net易训练但一致性弱,DiT成本高但长视频一致性强 [3] - 关键技术组件包括:Transformer的自注意力机制保障时空一致性,VAE实现像素空间与潜空间的压缩转换,CLIP完成文本与视觉的语义对齐,时空补丁统一数据格式降低计算成本 [3] - 训练数据的规模、质量和多样性决定模型上限,主流数据集包括WebVid-10M等文本-视频对数据集,以及UCF-101等类别级数据集 [4] 技术能力发展与突破 - 主流模型已实现1080p/4K分辨率、最长2分钟时长的生成,部分模型支持原生音画同步,国产模型在中文语义理解和可控性上优势显著 [5] - 现存核心瓶颈包括时序一致性、物理逻辑合理性、细节情感表达,且算力成本制约技术普及 [5] - 已形成VBench、SuperCLUE等评估体系,VBench2.0更聚焦“内在真实性”,谷歌Veo 3、快手可灵AI等模型在榜单中表现突出 [5] 行业应用案例与价值 - 在影视娱乐领域,AI实现从前期概念设计、中期虚拟制片到后期智能剪辑的全流程介入,催生了AI短剧、AI重制长片等新业态,大幅降本增效 [6] - 在短视频与营销领域,AI视频成为应用最广泛领域,可快速生成品牌广告、UGC创意内容、虚拟主播带货视频,实现低成本规模化内容量产 [6] - 在文旅行业,AI用于制作城市宣传片、打造AI文旅推荐官、结合VR/AR实现沉浸式体验,助力文化IP传播与旅游营销 [7] - 在教育培训领域,AI用于批量生成微课视频、打造AI虚拟教师、定制个性化学习内容,解决教育资源不均问题 [8] - 在新闻媒体领域,AI虚拟主播实现24小时播报,AI生成沉浸式新闻叙事,但面临内容真实性、版权合规等伦理挑战 [9] 工具选用建议 - 建议根据场景化选型:专业影视选Runway或可灵AI,短视频运营选即梦AI或Pika,动漫动态化选海螺AI或Pixverse,国风内容选Vidu等国产工具 [10] - 使用门槛分级:国内工具零门槛直连,海外工具需科学上网和外币支付,Sora/Veo等生态绑定工具门槛最高 [11] - 核心原则是采用多工具协作工作流,以“导演思维”驾驭工具,而非依赖单一平台 [12] 市场格局与厂商动态 - 代表性厂商及产品包括:OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika Labs、生数科技Vidu、Luma AI、阿里通义万相等 [49] - 可灵AI支持生成长达2分钟、1080p、30fps的视频,其Kling 2.5 Turbo版本成本降低30%,全球用户已突破4500万 [49] - 即梦AI背靠抖音与剪映生态,打通从“AI生成”到“剪辑发布”全链路,月活5400万,2025年10月网站访问量达1000万 [49] - 通用大模型通过集成顶尖视频模型获得强大视频生成能力,例如ChatGPT集成Sora,Gemini生态集成Veo,Meta AI集成Emu Video,通义千问集成通义万相,豆包与抖音/TikTok和剪映形成闭环 [51] 发展前景与核心观点 - AI视频最终将走向“人机共创”范式,成为像互联网一样的基础设施,人类需聚焦创意与判断力,实现与AI的协同进化 [13] - AI视频正从实验性“技术炫技”阶段迅速发展为影视预演、广告创意、短视频制作和在线教育的实用工具,行业变革的临界点已清晰可见 [37] - 2024年初Sora模型凭借一分钟长度、高清画质及物理世界连贯性理解,重新定义了AI视频生成能力 [37]
从分钟级等待到20倍超速:LightX2V重写AI视频生成速度上限
机器之心· 2025-12-08 12:27
核心观点 - 开源项目LightX2V通过算法与工程的全栈优化,旨在将高质量视频生成推向消费级硬件上的1:1实时体验,其技术栈在社区中迅速流行,单月下载量超过170万次[2] 技术架构与性能 - 项目目标是在主流硬件上实现视频生成的1:1实时体验,远超现有框架[2][4] - 通过系统级优化,将生成5-10秒视频的时间从几分钟压缩到与视频时长接近的水平,实现接近1:1的实时体验[7] - 在同类开源方案中,相比SGLang Diffusion、FastVideo等框架,在延迟和吞吐上具有明显优势,尤其在8GB-24GB消费级显卡区间能跑满硬件能力[7] 核心算法创新 - **Phased DMD步数蒸馏**:将原本40-50步的视频扩散过程压缩到4步,同时保持时间一致性和运动细节,基于此技术的少步模型在Hugging Face趋势榜长期靠前,累积下载量达百万级[10][11] - **LightVAE轻量级VAE**:针对视频生成场景设计,在保持高清画质和时间一致性的前提下,有效降低编解码开销,为4步推理释放更多预算[12] - 两项核心算法协同,先在算法层面打通路径,再通过工程优化榨干硬件性能[13] 全栈性能工程优化 - 通过一系列关键技术模块,将“能跑”变成“跑得快、跑得省”,并支持从单机单卡扩展到多卡集群[14][15][16] - **显存门槛**:通过步数蒸馏、低比特量化和分级Offloading,将完整工作流的显存需求压至8GB以下,入门级消费卡即可运行[21] - **吞吐与延迟**:综合使用低比特算子、稀疏注意力与特征缓存,在常见5秒视频场景下达到接近1:1的实时生成速度[21] - **低比特算子**:采用MXFP8/MXFP6/NVFP4等技术,在不明显损伤画质的前提下压缩计算与带宽,释放硬件算力[21] - **稀疏注意力算子**:利用视频时空特征的稀疏性,减少冗余计算,提升大分辨率下的吞吐[21] - **特征缓存**:对中间特征进行缓存与复用,降低重复计算,进一步缩短延迟[21] - **三层延迟隐藏Offloading**:通过精细化的显存-内存调度,在8GB显存上完成28B级别MoE模型推理[21] - **FP8通信多卡并行**:结合FP8通信和流水线/序列并行,在多卡环境下提升吞吐,面向5090等消费级新卡实现更高帧率的强实时目标[21] 模型与硬件生态支持 - **模型生态**:已支持Wan2.1/Wan2.2、CogVideo1.5、HunyuanVideo1.5等主流视频生成模型,以及Matrix Game、MagicDrive等世界模型,并提供4步或少步数配置与加速方案[21] - **应用生态**:深度集成ComfyUI,其LightVAE等核心组件已进入社区主干工作流,用户可在图形界面中直接调用加速推理[21] - **硬件生态**:除支持NVIDIA 3060/4090/5090及A100/A800/H100/H800/H200等显卡外,还原生支持寒武纪MLU590、沐曦C500等国产AI芯片,为本地化、大规模部署提供基础[21] 使用与落地场景 - **个人开发者**:只需带独显的笔记本或台式机,即可本地启动带前端界面的视频生成工具,在ComfyUI中完成素材调试、风格迭代和项目输出[21] - **企业用户**:通过服务化部署方案,可一键搭建面向外部的API服务和Web应用,并按需扩展到多机多卡集群,支持批量视频生产和内部工具集成[21] - **普通用户**:可直接访问网页版入口x2v.light-ai.top,在浏览器中体验少步视频生成和实时预览[21] - 应用覆盖从图像转视频、文本转视频,到世界模型和自动驾驶仿真等领域,旨在通过开源方式将高质量、低成本、强实时的视频生成能力普及[19]
百万人围观的「萌娃教训小狗」视频火了,结果都是AI生成的|附教程
机器之心· 2025-12-07 12:33
AI生成视频内容的现象与流行 - 近期社交平台涌现大量萌娃与宠物狗温馨互动的短视频,内容治愈且传播力强,例如有小孩严肃“教训”小狗或与小狗拥抱对话的场景[2][3][4][5][6] - 这类视频在社交平台上获得了巨大的流量,点赞量动辄上万,播放量多则上百万,少则也有几十万[7] - 这些高传播度的视频实际上是由AI生成,视频时长多在15秒以内,符合当前主流AI视频生成模型的时长限制[7][8] AI视频生成技术的关键工具与进展 - 生成此类视频可使用Sora2、Veo3.1及快手可灵新推出的Video 2.6等模型,其效果依赖于精心设计的提示词[10] - 提供了一段具体的提示词示例,用于生成一个14个月大欧亚混血男孩与金毛幼犬互动的场景,描述包括人物外貌、动作、对话及画面风格[11] - Sora 2模型相较于前代在物理真实性、细节呈现和音画同步方面有显著提升,能生成高度匹配的对话、音效和背景音乐,细节写实度足以媲美真实家庭录像[12] - 快手可灵的Video 2.6模型也能实现音画同步,但生成的语音语调有时略显不自然[14] AI视频内容流行的内在逻辑 - 萌娃与宠物互动的内容精准击中了人性中对纯粹、美好情感的渴望,其治愈属性能够跨越文化和语言障碍[15] - 过去捕捉此类完美瞬间需要大量时间和运气,而AI技术实现了理想画面的批量生产,大幅增加了优质内容的供给[16] - 平台算法识别到用户对此类内容的高完播率和互动率后,会加大推荐力度,形成“用户观看越多,推送越频繁”的持续强化循环[17] Sora应用的市场表现与产品定位困境 - Sora 2上线初期凭借强大的AI视频生成能力一度冲上美国App Store榜首,每天下载量达20万[20] - 然而其用户留存率迅速衰减,数据显示第1天留存率降至10%,第7天为2%,第30天为1%,第60天则归零;相比之下,TikTok同期的留存率稳定在30%左右[21] - 分析指出,新社交应用普遍经历初期热度后用户流失的过程,用户会评估是否有持续使用的动力[23] - Sora面临双重身份困境:它既是强大的创作工具,又试图成为社交平台;但其平台内几乎全是AI生成内容,缺乏真实社交圈的内容,导致用户难以长期留存[27] - 一个完全由AI生成内容构成的信息流,其体验远不如真人内容与AI内容混合的平台,因为用户更希望看到真实的人和故事;最好的Sora内容往往被导出到其他平台如Instagram、TikTok[28] - 判断认为,Sora将继续作为一个强大的创意工具(类似视频创作者的Photoshop)蓬勃发展,但作为社交产品可能难以取得成功,因为工具类产品用户留存率天然不高[29]
视频生成产品 Pollo AI 获 1400 万美元融资
北京商报· 2025-12-05 14:28
公司融资与财务表现 - AI视频生成产品Pollo AI完成1400万美元融资 由高成资本领投 真格基金跟投 [1] - Pollo AI年化收入超过2000万美元 并于2025年5月实现盈亏平衡 [1] 公司运营与用户数据 - Pollo AI注册用户数超过2000万 月活跃用户超过600万 日活跃用户超过20万 [1]
晚点独家丨视频生成产品 Pollo AI 获 1400 万美元融资,一个没有大厂与海外背景的 “草根” 创始人
晚点LatePost· 2025-12-05 12:00
公司融资与业务现状 - AI视频生成产品Pollo AI完成1400万美元首轮融资,由高成资本领投,真格基金跟投[4] - 公司定位为视频内容创作平台,创始人朱陈彪(阿彪)拥有软件出海及SEO背景[4] - 公司注册用户数超过2000万,月活跃用户超过600万,日活跃用户超过20万,年化收入超过2000万美元,并于今年5月实现盈亏平衡[4] 产品发展历程与策略 - 产品最初仅提供可灵视频生成模型的内测API接口,后演变为集合几乎所有公开模型的POE平台,提供生成图片、视频与虚拟形象服务[6] - 作为没有自研模型的聚合平台,上线仅七个月月活跃用户就超过400万[6] - 创始人认为专业创作流程和独特用户心智比“AI版TikTok”的社交模式更重要,并指出SEO带来的增长效果已放缓,需寻找新增长曲线[6] - 公司早期快速增长得益于产品、营销及好的时机,SEO是原因之一,但SEO有天花板,算法规则变化可能导致流量减半或跌至谷底[7] - SEO方法论的重要迭代是将SEO融入产品,实现营销与产品的有机结合[7] - SEO策略围绕目标人群而非单一功能进行优化,为目标用户群体所需的所有信息和内容制作对应落地页[8] - 公司借鉴了万兴科技的海外营销方法论,将其视为一个包含内容、外链、红人推广、网站URL结构的完整闭环[9] 行业洞察与产品方向选择 - 创始人基于20多款出海产品经验,认为择时和选品极为重要,当新技术变革对旧商业格局撕开一道口子时,便出现新机会[11][12] - 好的选品案例包括:GPT-4o出现后做模特图/商品图,Stable Diffusion出现后做图片站/社区,AI视频API或开源模型出现后做视频应用[12][14] - 糟糕的选品案例包括:在ChatGPT出现一年后做Chatbot套壳,在Stable Diffusion出现一年后做图片站,以及一年前去做缺乏差异化的商品图、去背景、海报等工具[14][15] - 公司抓住的时间窗口是去年九月到十二月之间,当时开源视频模型及API接口刚出现,公司在可灵API内测阶段就接入了API并发布产品[16] - 决定将Pollo AI定位为POE平台是误打误撞,最初是想探索AIGC中的“C”(内容),后受Canva收购Leonardo.AI启发,形成多模型加工具加社区的形态[17] - 公司暂时没有自研模型的计划,认为无法在资金和技术上卷过字节、Google、OpenAI等大厂,能力项一直在应用层[18] 产品演进与未来规划 - 公司正处于从工具属性占主导向一站式创作流程转变的阶段,目标是解决用户在不同模型和工具间切换的割裂体验[19] - 产品化升级方向包括:从表单交互转向更主流的对话交互,引入Agent模块以使用户跳过选择模型步骤直接得到视频,以及从生成短视频片段转向生成更长的短片(如30秒)[21] - 公司希望Pollo AI最终能成为AI时代的剪映或视频版的Canva,这需要未来三到六个月的产品化并找到独特的用户心智[22] - 创始人认为独特的产品心智非常重要,并以剪映(剪辑)、Lovart(设计)为例[23] 对竞争格局与市场趋势的看法 - 针对OpenAI推出的Sora App,创始人认为其作为“AI版TikTok”的商业模式具有不可持续性,据《福布斯》报道,其在免费情况下每天token成本消耗约1500万美元,且用户留存不会很好[24] - 观察到网页端更偏创作,移动端更偏娱乐,对于视频创作,更好的交互在网页端[25] - 认为通过特效引流拉新不可持续,需要一茬茬寻找新用户,公司策略是将特效融入工作流,用特效拉新,再通过专业创作流程留住用户[25]
可灵2.6模型推出“音画同出”能力 中文语音生成效果全球领先
智通财经· 2025-12-04 09:19
公司产品发布 - 可灵公司于12月3日推出了视频生成2.6模型 [1] - 该模型提供了里程碑式的“音画同出”能力,能够在单次生成中输出包含自然语言、动作音效以及环境氛围音的完整视频 [1] - 模型升级了文生音画、图生音画两大功能,语音支持生成中文与英文,生成的视频长度最长可达10秒 [1] 技术能力与影响 - 新模型彻底改变了传统AI视频生成模型“先无声画面、后人工配音”的工作流程,重构了AI视频创作工作流,极大提升创作效率 [1] - 通过对物理世界声音与动态画面的深度语义对齐,可灵2.6模型在音画协同、音频质量和语义理解上表现亮眼 [1] - 该模型在中文语音生成效果上保持全球领先 [1]
Sora 2两月留存率接近0%,奥特曼得学抖音快手?
虎嗅APP· 2025-12-02 22:11
Sora 2产品发布与初期市场表现 - 公司视频生成应用Sora 2被视为能颠覆现有短视频格局的"核武器"[4] - 应用发布初期通过取消邀请制和全平台铺量实现爆发式增长 iOS首周安装量达100万并一度登顶App Store免费榜 Android版本上线首日在七个市场获得47万次下载 其中美国市场贡献29.6万次下载 占总量的63% 比iOS版本首日下载量高出327%[11][12] 用户留存与参与度危机 - 应用面临严重的用户流失问题 30天用户留存率仅为1% 60天用户留存率接近0%[5][13] - 作为对比 抖音30天用户留存率为48.7% 快手为46.2% 即使表现平平的社交应用30天留存率也能保持在15%到20%之间[13] - 下载量与留存率之间存在巨大落差 用户好奇心带来安装但无法转换为持续使用的黏性[14] 产品功能与技术缺陷 - 生成质量极不稳定 实际测试中可用于发布的内容命中率只有5%到10% 用户需生成10个视频才可能得到1个满意结果[16] - 缺乏精细编辑功能 用户无法直接修改视频 只能修改提示词后重新生成[17] - 渲染时间长达几分钟 叠加高失败率导致用户体验不佳[17] - 社区功能存在严重缺陷 优秀内容得不到展示 缺乏评论和收藏等基本功能 搜索相似词条功能体验糟糕[21][23][25] 商业化模式与成本困境 - 公司每天为应用运营支付1500万美元成本 月成本达4.5亿美元 年成本接近55亿美元[30] - 当前商业模式"完全不可持续" 付费增值服务定价为4美元购买10个额外视频生成额度[29] - 公司处于两难境地 维持现有免费额度成本不可持续 降低免费额度会导致用户加速流失 提高付费价格会降低市场接受度[31] 法律与合规挑战 - Cameos功能引发商标权纠纷 一家名为Cameo的公司提起诉讼 影响了功能推广[19][20] - 面临知识产权侵权问题 公司必须对生成内容进行审核 限制用户创作内容类型 但限制会影响用户体验[32] 行业启示与竞争格局 - 技术先进性不能直接转化为产品成功 下载量不等于用户留存 融资能力不等于商业模式[36] - 历史似乎在重演 Sora 1时期技术领先但被国内即梦 可灵等产品在体验上反超[33] - 整个AI视频生成赛道处于商业化探索早期阶段 各家公司都在烧钱推广但尚未找到可行商业模式[34]
Runway重夺全球第一!1247分碾压谷歌Veo3,没有千亿算力也能干翻科技巨头
新浪财经· 2025-12-02 19:45
行业地位与技术优势 - Runway Gen-4.5 在 Artificial Analysis 文本转视频排行榜中以 **1,247** 的 ELO 分数位列第一,超越了谷歌 Veo 3(1,226)、快手 Kling 2.5 Turbo(1,225)和 OpenAI Sora 2 Pro(1,206)等竞争对手 [1][2][5][23][24][28] - 该模型在视频生成的运动质量、提示词遵循度和视觉保真度方面树立了全新标杆,实现了前所未有的物理精确度,物体能以逼真的重量、动量和力量运动 [3][8][26][31] - 模型能够处理从照片级真实感、电影感到风格化动画的广泛美学风格,并在复杂场景、精细构图、物理准确性和生成富有表现力的角色方面表现出色 [8][31][32][34] 公司发展历程与市场定位 - Runway 是第一家将文生视频技术做成可供大众使用的 SaaS 产品的公司,于2023年初率先推出 Gen-1(视频生视频)和 Gen-2(文生视频)[7][30] - 公司是第一个让“AI视频生成”成为独立商业赛道的企业,其产品化进程早于谷歌 Imagen Video、Meta Make-A-Video 等实验室项目,甚至早于2024年初发布的 OpenAI Sora [7][30][31] - 创始人认为,与拥有无限资源的大厂竞争时,公司的核心优势在于对视频生成愿景的极度专注以及在有限资源下进行训练和推理效率的极度创新 [14][37] 技术理念与未来愿景 - 公司将视频模型视为“通用模拟引擎”,认为其通过学习大量观察数据能捕捉物理世界规律,超越了语言模型仅对现实进行抽象的局限 [18][41] - 模型训练被描述为一种需要“品味”和直觉的过程,涉及成千上万个参数的微调,而非依赖单一的“魔法按钮” [17][19][40][42] - 视频模型未来的应用场景被设想将远超影视制作,包括非线性娱乐体验、具身智能的合成数据训练以及个性化学习等 [23][46] 技术细节与开发基础 - Gen-4.5 在视频模型的预训练数据效率和后训练技术方面均取得显著进步,并成为用于世界建模的新基础模型 [5][28] - 整个模型的开发过程,从初期研发、预训练、后训练到推理,完全基于英伟达 GPU 完成 [9][32] - 尽管能力有飞跃,模型仍表现出物体恒存性、成功偏差和因果推理方面的常见限制 [9][10][32][33]