字节的「罗福莉」，撑起了Seedance的半边天

字节跳动Seedance 2.0模型与核心技术 - 字节跳动发布的Seedance 2.0视频生成模型，其核心技术突破之一是双分支扩散变换器架构，实现了视频与音频的并行生成和原生协同[53][56][57] - 该模型生成时长1分钟的2K视频仅需60秒，比上一代Seedance 1.5 Pro快了30%[62] - 模型还实现了多镜头叙事能力，能够理解专业的分镜逻辑并自动规划镜头切换，生成带有蒙太奇效果的完整叙事序列[64] 预训练的关键作用与负责人 - 预训练是整个模型的“基石”，决定了模型的能力上限，其过程是“塑造模型的世界观”，而非简单的“喂数据”[8][9] - 预训练负责人曾妍在字节跳动内部晋升迅速，从校招毕业生到4-2职级（高级总监/权威架构师）仅用了5年时间，该职级年包普遍在500万元以上[12][13][14] - 在预训练阶段，团队通过引入“跨分支校准模块”处理海量多模态数据，建立了视觉、文本、音频之间的对齐关系，确保音画同步与情绪一致[59] 曾妍的技术贡献与项目历程 - 曾妍在2021年以第一作者发表X-VLM模型论文，其“多粒度对齐”思想为后来负责视频生成预训练埋下伏笔[19][26] - 2023年转入字节大模型研究部门Seed后，她作为第一作者主导了CCLM（跨语言与跨模态理解）和Lynx（GPT-4风格多模态大模型）两个重要项目[34][36][39] - 其主导的PixelDance项目（后更名为Seedance）解决了视频生成中动态性与稳定性的矛盾，通过在扩散模型中引入首末帧双图像指令等创新，从源头保证一致性[41][44][46] 行业趋势与人才路径 - 2022年底ChatGPT发布后，2023年初各大公司纷纷全力投入大模型研发，行业进入战略调整期[32] - 在AI大模型这个需要长期积累的领域，年轻技术人才可以通过对问题的深刻理解，在短时间内做出关键贡献[75] - 顶尖AI科学家的职业路径呈现多样性，例如从大厂到创业公司，或在单一公司内部深耕并快速晋升，两者均能取得显著成就[73][74]