Video Generation

搜索文档
数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了
机器之心· 2025-06-19 10:28
核心观点 - 帧感知视频扩散模型(FVDM)通过引入向量化时间步变量(VTV)解决了传统标量时间步在视频生成中的局限性,显著提升时序建模能力 [2][18][19] - Pusa项目是FVDM理论的实际应用,探索出极低成本微调大规模预训练视频模型的有效路径,训练成本降低超200倍,数据需求减少超2500倍 [3][5] - Pusa通过非破坏性微调预训练模型(如Wan-T2V 14B),仅需500美金成本即可达到优于原模型的效果,同时解锁图生视频、首尾帧、视频过渡等多项功能 [5][35] - Pusa-Mochi版本进一步降低成本至100美金,实现高效视频生成 [11] - 完整代码库、训练数据集和训练代码已全面开源,旨在推动领域共同进步 [17] 技术原理 - 传统视频扩散模型采用标量时间变量,无法捕捉帧间动态关系 [18] - FVDM引入向量化时间步变量$$\mathbf{r}(t)=\left[\tau^{(1)}(t),\tau^{(2)}(t),...,\tau^{(N)}(t)\right]^{\top}$$,允许每帧独立噪声扰动 [18][19] - 扩展前向随机微分方程(SDE)以适应向量化时间步,每帧经历独立高斯分布噪声扰动 [20] - 设计集成反向SDE封装跨帧依赖关系 [23] - 基于分数的模型近似分数函数$$s_{\theta}(\mathbf{X},\tau(t))\approx\nabla_{X}\log p_{t}\left(\mathbf{X}\right)$$ [24] 网络架构与训练 - 对Mochi1及Wan等开源视频模型进行非破坏性改造,将标量时间步输入扩展为(B, N)形状向量化时间步 [27][28] - 通过正弦位置编码将时间步转换为(B, N, D)嵌入表示,通过adaLN-Zero等机制作用于Transformer层 [28] - 独创概率性时间步采样训练策略(PTSS),以概率为每帧采样随机独立时间步或相同时间步,解耦时序动态与基础生成能力学习 [29][30] - 非破坏性改造使模型初始即具备基础能力,仅需少量独立时间步微调即可掌握时序动态控制 [33] 应用效果 - Pusa-Wan实现500美金成本下优于原模型效果,保留文生视频能力同时解锁图生视频、首尾帧、视频过渡、视频拓展等功能 [5][35] - Pusa-Mochi版本仅需100美金训练成本 [11] - VTV机制支持多样帧级控制采样算法,如输入图像作为任意帧时可不加噪或加少量噪声 [35] - 测试样例展示大白鲨游泳、奶牛吃干草、戴墨镜男子驾驶汽车等场景生成效果 [7][9] 行业影响 - FVDM理论通过VTV带来视频生成根本性变革 [2][37] - Pusa项目以惊人低成本和高效微调策略将理论付诸实践,推广至强大预训练模型 [3][37] - 开源策略推动领域共同进步,探索更多可能性 [17][37]
字节 AI 卷出新高度:豆包试水“上下文定价”,Trae 覆盖内部80%工程师,战略瞄定三主线
AI前线· 2025-06-11 16:39
字节AI技术发展主线 - 公司认为AI技术发展主线包括多模态推理与思考、视频生成技术突破、多步骤复杂任务处理能力提升[5] - 预计2025年视频生成技术将进入实际生产环节 如消费领域和电商广告短片制作[5] - 多步骤复杂任务处理能力预计在2024年Q4达到可用水平 简单任务准确率可达80%-90%[5] 豆包大模型1.6升级 - 发布三个版本模型 均支持256K超长上下文和多模态输入[3] - 在高考数学测试中取得144分 海淀模拟考试理科706分 文科712分[3] - 支持自动操作浏览器完成酒店预定 识别购物小票并整理Excel等真实世界任务[3] - 综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一[8] 模型定价策略 - 1-32K上下文长度定价:输入0.8元/百万tokens 输出8元/百万tokens[9] - 32-128K上下文长度定价:输入1.2元/百万tokens 输出16元/百万tokens[9] - 128-256K上下文长度定价:输入2.4元/百万tokens 输出24元/百万tokens[9] 视频生成模型Seedance 1.0 Pro - 具备无缝多镜头叙事 多动作运镜 稳定运动与真实美感三大特点[18] - 生成5秒1080P视频仅需3.67元 价格具有竞争力[18] - 1万元预算可生成2700条1080P视频 或9700多条780P视频[20] Trae开发工具进展 - 内部超过80%工程师使用 月活用户超100万[14] - 采用自然语言编程方式 AI生成85%代码 开发者仅需优化不到5%[16] - 支持100+MCP Servers 支持代码重构 批量修改和交互式问答等复杂任务[16] 行业技术趋势 - 强化学习算力消耗快速攀升 预计2027年投入可能接近预训练规模[25] - 企业加速改造基础设施和云计算体系以适应AI发展需求[23] - 提示词工程正向价值随模型能力提升而增大 最终将由自动化系统解决[25] 商业化应用实践 - 与网易《逆水寒》合作测试玩家创作角色故事视频生成[22] - 豆包实时语音模型全量上线方舟平台 推出支持自然对话的播客模型[22] - 自建算力占比达30% 结合公有云资源平衡成本[11]