世俗派
搜索文档
是“Seedance 时刻”,但字节的野心可以更大些
36氪· 2026-02-13 20:29
AI视频生成技术路线之争 - 文章核心观点:AI视频生成领域存在“世俗派”(以字节跳动Seedance 2.0为代表)与“物理派”(以杨立昆、英伟达、DeepMind为代表)两条根本性技术路线之争,其分歧在于对“视频”本质的理解是“像素序列”还是“物理世界规律的投影”,这决定了各自的技术天花板、市场潜力和长期行业地位[3][4] - 世俗派(以字节跳动、快手为代表)追求电影感与叙事流畅,技术核心是数据驱动的风格模仿,优化“导演意图→像素”的转化率[4][5] - 物理派(以杨立昆的AMI Labs、英伟达Cosmos、DeepMind Genie 3为代表)认为视频应是理解物理规律的世界模型的副产品,目标是让AI理解质量、动量、因果和空间[4] 世俗派技术的特点与市场定位 - 字节跳动Seedance 2.0于2月7日上线,具备六十秒多镜头、分镜脚本控制、原生音画同步能力,被评价为“当前地表最强的视频生成模型”[1] - 该技术是一种高效的工程优化,能将原本需要专业团队数天完成的工作,缩短至几分钟内通过输入提示词和素材生成[6] - 其核心商业价值在于多模态精准控制,可同时输入九张图片、三段视频、三段音频共十二个参考文件,精确复现导演意图,满足广告和电商行业的确定性需求[19] - 该路线定位于“内容消费层”,市场包括电影、短剧、广告、电商视频等,全球短视频市场规模预计2026年达593亿美元,2035年将突破6400亿美元,复合年增长率达30.3%[17] - 字节跳动凭借抖音和TikTok合计占据全球短视频市场约40%的份额[17] 世俗派技术的局限性与成本 - 技术存在结构性局限:生成内容为一次性消费的“像素”,无法提取和复用其中的物体作为“资产”,也不能进行交互调整[7] - 其天花板被锁定在“生成一次,消费一次”的内容消费逻辑[8] - 按照即梦平台定价,69元/月的会员每月获1080积分,生成一段15秒视频消耗90积分,换算后每秒生成费用约为0.77元,一分钟约46元[13] - 制作一部九十分钟片子的总成本估算在两千多元[18] - 面临激烈竞争:快手可灵AI到2025年底已在全球拥有6000万创作者,累计生成超6亿个视频,累计合作超3万家企业用户,2026年1月MAU已突破1200万,并与Seedance 2.0在电影感生成、多镜头叙事、2K实时生成等能力上展开正面竞争[15] 物理派技术的优势与市场潜力 - 物理派技术旨在生成可复用的三维虚拟世界,该环境具备质量、碰撞、光照、因果律等物理属性,可被游戏引擎、机器人训练、自动驾驶仿真等调用[8] - 其打开的是影视、游戏、仿真、训练等多个行业构成的万亿级市场,且资产可无限复用,边际成本趋近于零[8][16] - 技术成熟后可对世俗派形成“降维打击”,能向下兼容生成电影级视频的需求,但世俗派无法向上兼容物理派的需求[13] - 案例:迪士尼《曼达洛人》使用基于Unreal Engine 5的StageCraft虚拟制片系统,其虚拟场景资产全部可复用,标志着游戏引擎技术正成为影视工业的基础设施[9][11] - 案例:英伟达Omniverse在《侏罗纪世界:统治》中实现跨软件实时物理协作,物理世界模型能生成可实时交互的虚拟片场,其环境参数还可用于工业机器人训练和自动驾驶仿真[12] 行业长期格局与字节跳动的战略选择 - 长期来看,分层架构将成为主流:底层是物理世界模型,上层叠加不同行业的表现力需求[16] - 世俗派积累的“提示词工程经验”在未来可能被降维打击,沦为物理世界模型价值链底端的“渲染层”[16] - 字节跳动面临的真正考验是从“内容分发商”转向“平台规则制定者”,这需要掌握以物理可信虚拟世界为支撑的“分发权”,而当前其“数据驱动的风格模仿”路线距离真正的物理理解尚有距离[21] - 测试案例显示,Seedance 2.0在物理理解方面仍有进步空间,例如烧红的铁球砸到冰块上,冰块未发生应有的熔化或凹陷[21] - 文章建议字节跳动在B端(广告、电商)找准“甜蜜点”获取利润,同时对物理派路线采取“占坑”而非All in的策略,并考虑向“具身智能for工厂”等更广阔领域拓展[19]