报告行业投资评级 - 行业评级为增持(维持) [2] 报告的核心观点 - 2025年2月10日豆包大模型团队等联合提出视频生成实验模型VideoWorld ,其首次实现无需依赖语言模型即可认知世界 [4] - VideoWorld去掉语言模型实现统一执行理解和推理任务 ,基于潜在动态模型提升知识学习效率和效果 ,可在多种环境执行机器人任务 ,项目代码与模型已开源 [5] - 国内外人工智能产业发展火热 ,建议重点关注豆包产业链个股申菱环境、润泽科技、欧陆通等 [9] 根据相关目录分别进行总结 行业表现 - 近十二个月通信行业相对沪深300 ,1个月、3个月、12个月相对收益分别为5.65%、8.36%、36.48% ,绝对收益分别为8.86%、3.41%、52.41% [3] VideoWorld模型特点 - 去掉语言模型 ,基于潜在动态模型 ,可高效压缩视频帧间变化信息 ,提升知识学习效率和效果 ,不依赖强化学习搜索或奖励函数机制达到专业5段9x9围棋水平 ,能在多种环境执行机器人任务 [5] - 模型架构使用朴素自回归模型实例化视频生成器 ,包含VQ - VAE编码器 - 解码器和自回归Transformer [6][7] - 引入潜在动态模型将帧间视觉变化压缩为紧凑潜在编码 ,提高知识挖掘效率 ,在300M参数量下达到专业5段9x9围棋水平 ,在机器人任务上有泛化能力 [8] 模型训练与推理 - 构建包含大量视频演示数据的离线数据集让模型学习 ,得到可根据过往观测预测未来画面的视频生成器 [7] - 编码器将视频帧转换为离散标记 ,Transformer训练时用标记预测下一标记 ,推理时生成下一帧离散标记 ,解码器将标记转换回像素空间 ,通过映射函数将生成画面转换为任务执行动作 ,可在不依赖动作标签情况下学习和执行任务 [7]
通信行业:VideoWorld提出,无需依赖语言模型
江海证券·2025-02-11 17:51