通信行业：VideoWorld提出，无需依赖语言模型

报告行业投资评级 - 行业评级为增持（维持） [2] 报告的核心观点 - 2025年2月10日豆包大模型团队等联合提出视频生成实验模型VideoWorld ，其首次实现无需依赖语言模型即可认知世界 [4] - VideoWorld去掉语言模型实现统一执行理解和推理任务，基于潜在动态模型提升知识学习效率和效果，可在多种环境执行机器人任务，项目代码与模型已开源 [5] - 国内外人工智能产业发展火热，建议重点关注豆包产业链个股申菱环境、润泽科技、欧陆通等 [9] 根据相关目录分别进行总结行业表现 - 近十二个月通信行业相对沪深300 ，1个月、3个月、12个月相对收益分别为5.65%、8.36%、36.48% ，绝对收益分别为8.86%、3.41%、52.41% [3] VideoWorld模型特点 - 去掉语言模型，基于潜在动态模型，可高效压缩视频帧间变化信息，提升知识学习效率和效果，不依赖强化学习搜索或奖励函数机制达到专业5段9x9围棋水平，能在多种环境执行机器人任务 [5] - 模型架构使用朴素自回归模型实例化视频生成器，包含VQ - VAE编码器 - 解码器和自回归Transformer [6][7] - 引入潜在动态模型将帧间视觉变化压缩为紧凑潜在编码，提高知识挖掘效率，在300M参数量下达到专业5段9x9围棋水平，在机器人任务上有泛化能力 [8] 模型训练与推理 - 构建包含大量视频演示数据的离线数据集让模型学习，得到可根据过往观测预测未来画面的视频生成器 [7] - 编码器将视频帧转换为离散标记，Transformer训练时用标记预测下一标记，推理时生成下一帧离散标记，解码器将标记转换回像素空间，通过映射函数将生成画面转换为任务执行动作，可在不依赖动作标签情况下学习和执行任务 [7]