自回归与Diffusion融合

搜索文档
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营· 2025-05-20 09:02
视频生成技术现状与挑战 - 当前视频生成技术(如Diffusion模型)已能产出惊艳视觉片段,但可能触及能力天花板,真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型:Step-Video-T2V(文生视频)和Step-Video-TI2V(图生视频),在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著,30B参数模型泛化能力提升有限,15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻",带来革命性突破[4][36] - 技术突破方向包括:自回归(AR)与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成,需借鉴NLP领域成功经验,通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈,需大规模多样化真实数据而非合成数据,数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要,阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性,30B参数模型因体积过大影响实际应用,未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展,增强动作理解等能力,2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展,未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等,确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段,需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强,成为国内行业重要参考[15]