字节的「罗福莉」,撑起了Seedance的半边天
36氪·2026-03-26 12:35

字节跳动Seedance 2.0模型与核心技术 - 字节跳动发布的Seedance 2.0视频生成模型,其核心技术突破之一是双分支扩散变换器架构,实现了视频与音频的并行生成和原生协同[53][56][57] - 该模型生成时长1分钟的2K视频仅需60秒,比上一代Seedance 1.5 Pro快了30%[62] - 模型还实现了多镜头叙事能力,能够理解专业的分镜逻辑并自动规划镜头切换,生成带有蒙太奇效果的完整叙事序列[64] 预训练的关键作用与负责人 - 预训练是整个模型的“基石”,决定了模型的能力上限,其过程是“塑造模型的世界观”,而非简单的“喂数据”[8][9] - 预训练负责人曾妍在字节跳动内部晋升迅速,从校招毕业生到4-2职级(高级总监/权威架构师)仅用了5年时间,该职级年包普遍在500万元以上[12][13][14] - 在预训练阶段,团队通过引入“跨分支校准模块”处理海量多模态数据,建立了视觉、文本、音频之间的对齐关系,确保音画同步与情绪一致[59] 曾妍的技术贡献与项目历程 - 曾妍在2021年以第一作者发表X-VLM模型论文,其“多粒度对齐”思想为后来负责视频生成预训练埋下伏笔[19][26] - 2023年转入字节大模型研究部门Seed后,她作为第一作者主导了CCLM(跨语言与跨模态理解)和Lynx(GPT-4风格多模态大模型)两个重要项目[34][36][39] - 其主导的PixelDance项目(后更名为Seedance)解决了视频生成中动态性与稳定性的矛盾,通过在扩散模型中引入首末帧双图像指令等创新,从源头保证一致性[41][44][46] 行业趋势与人才路径 - 2022年底ChatGPT发布后,2023年初各大公司纷纷全力投入大模型研发,行业进入战略调整期[32] - 在AI大模型这个需要长期积累的领域,年轻技术人才可以通过对问题的深刻理解,在短时间内做出关键贡献[75] - 顶尖AI科学家的职业路径呈现多样性,例如从大厂到创业公司,或在单一公司内部深耕并快速晋升,两者均能取得显著成就[73][74]

字节的「罗福莉」,撑起了Seedance的半边天 - Reportify