人工智能动态点评:VideoWorld模型开源,探索模型训练新路径
2025-02-12 08:11

报告行业投资评级 - 传媒互联网行业维持“推荐”评级 [1] 报告的核心观点 - 2月10日豆包大模型团队等联合开发的视频生成实验模型“VideoWorld”开源,其纯视觉训练方式在潜在动态模型(LDM)加持下训练效果好,且更贴近生物视觉学习模式,开源策略有望推动视觉训练快速发展,为行业带来新可能,AI模型端进步有望加速在多领域应用落地 [3] - 建议关注受AI赋能且与C端用户体验密切相关的行业,如AI+游戏、AI+教育、AI+办公、AI+出版、AI+专业咨询 [3] 根据相关目录分别进行总结 VideoWorld模型特点 - 纯视觉训练模型,摆脱语言模型依赖:现有多模态模型大多依赖语言或标签数据学习,VideoWorld通过纯视觉方式学习训练,构建离线数据集让模型“观看”学习,得到可根据视觉输入推演预测未来画面的视频生成器,有望简化模型输入 - 理解 - 推理 - 输出链条 [3] - 引入潜在动态模型,提高视频学习效率:传统视觉训练方式将画面转换为离散标记学习,存在冗余标记,不利于复杂知识快速学习,VideoWorld引入LDM可将帧间视觉变化压缩为紧凑潜在编码,提高知识挖掘效率,在300M参数量且不依赖奖励函数机制下达到9x9围棋专业五段水平,在机器人任务上有泛化能力 [3] - LDM具备前规划能力,模型生成的编码具备因果关系:LDM在围棋训练中建模常见走棋模式,将数据模式压缩至潜在空间,可视化后发现潜在编码按时间步分组,使模型能长远决策,随机标记替换实验说明模型可生成因果相关编码 [3] 2024年至今国内互联网大厂AI重要进展 - 百度:2024年4月发布文心大模型4.0工具版;6月发布文心大模型4.0 Turbo和飞桨框架3.0;11月发布检索增强的文生图技术(iRAG)和无代码工具“秒哒” [4] - 阿里巴巴:2024年4月推出“通义千间”;10月发布AI生意助手2.0;11月发布并开源全新AI推理模型OwQ - 32B - Preview;2025年1月发布Qwen2.5 - Max旗舰版模型 [4] - 腾讯:2024年9月推出“腾讯云智算”,发布“腾讯混元Turbo”模型,推理效率提升一倍,推理成本降低50% [4] - 字节跳动:2024年5月发布字节跳动豆包大模型家族等;8月新的多模态大模型BuboGPT上线;12月豆包通用模型Doubao - pro全面升级;2025年1月豆包大模型1.5正式发布;2月联合开发的“VideoWorld”开源 [4]