人工智能动态点评：VideoWorld模型开源，探索模型训练新路径

报告行业投资评级 - 传媒互联网行业维持“推荐”评级 [1] 报告的核心观点 - 2月10日豆包大模型团队等联合开发的视频生成实验模型“VideoWorld”开源，其纯视觉训练方式在潜在动态模型（LDM）加持下训练效果好，且更贴近生物视觉学习模式，开源策略有望推动视觉训练快速发展，为行业带来新可能，AI模型端进步有望加速在多领域应用落地 [3] - 建议关注受AI赋能且与C端用户体验密切相关的行业，如AI+游戏、AI+教育、AI+办公、AI+出版、AI+专业咨询 [3] 根据相关目录分别进行总结 VideoWorld模型特点 - 纯视觉训练模型，摆脱语言模型依赖：现有多模态模型大多依赖语言或标签数据学习，VideoWorld通过纯视觉方式学习训练，构建离线数据集让模型“观看”学习，得到可根据视觉输入推演预测未来画面的视频生成器，有望简化模型输入 - 理解 - 推理 - 输出链条 [3] - 引入潜在动态模型，提高视频学习效率：传统视觉训练方式将画面转换为离散标记学习，存在冗余标记，不利于复杂知识快速学习，VideoWorld引入LDM可将帧间视觉变化压缩为紧凑潜在编码，提高知识挖掘效率，在300M参数量且不依赖奖励函数机制下达到9x9围棋专业五段水平，在机器人任务上有泛化能力 [3] - LDM具备前规划能力，模型生成的编码具备因果关系：LDM在围棋训练中建模常见走棋模式，将数据模式压缩至潜在空间，可视化后发现潜在编码按时间步分组，使模型能长远决策，随机标记替换实验说明模型可生成因果相关编码 [3] 2024年至今国内互联网大厂AI重要进展 - 百度：2024年4月发布文心大模型4.0工具版；6月发布文心大模型4.0 Turbo和飞桨框架3.0；11月发布检索增强的文生图技术（iRAG）和无代码工具“秒哒” [4] - 阿里巴巴：2024年4月推出“通义千间”；10月发布AI生意助手2.0；11月发布并开源全新AI推理模型OwQ - 32B - Preview；2025年1月发布Qwen2.5 - Max旗舰版模型 [4] - 腾讯：2024年9月推出“腾讯云智算”，发布“腾讯混元Turbo”模型，推理效率提升一倍，推理成本降低50% [4] - 字节跳动：2024年5月发布字节跳动豆包大模型家族等；8月新的多模态大模型BuboGPT上线；12月豆包通用模型Doubao - pro全面升级；2025年1月豆包大模型1.5正式发布；2月联合开发的“VideoWorld”开源 [4]