专访张祥雨：多模态推理和自主学习是未来的 2 个「GPT-4」时刻

多模态大模型技术发展 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V，基于DreamLLM框架实现图文生成理解一体化 [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻：多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战：语言对视觉控制能力弱、图文对齐不精确、数据质量有限、生成模块无法反向影响理解模块 [3] 模型规模与能力关系 - 模型参数扩展到万亿级别时出现能力分化：文本生成和知识问答增强，但数学推理能力随规模增长反而下降 [3] - 大模型推理能力下降的核心原因是next token prediction框架更关注压缩率而非推理精度，导致思维跳步现象 [4][37] - Rule-based RL可通过直接优化任务目标来抑制跳步、强化稳定思维路径，显著提升大模型推理能力 [4] 计算机视觉领域挑战 - CV领域难以仅靠视觉数据实现GPT时刻，因静态图像数据中生成、理解与人类对齐三者割裂 [23] - 对比学习和MIM等方法在小模型有效但缺乏scale up特性，因依赖人工设计的不变性而非数据驱动 [15][16] - 视频数据可能成为突破口，因其蕴含更丰富的时空信息和自然对齐关系 [24] 生成理解一体化难题 - 语言模型通过next token prediction天然实现生成理解一体化，但该范式在多模态领域效果有限 [17] - 实验显示外挂生成模块对理解性能无影响，生成模块可控性差，常产生违反物理常识的输出 [29][31] - 复杂度问题是核心障碍：视觉生成需要考虑的因素远超单步推理能力上限 [52] o1范式突破 - o1范式通过引入Meta CoT实现思维链网状结构，允许模型在关键节点反悔重试 [5] - 该范式成功关键在于预训练语料中已存在多样化思维pattern，RL仅需强化而非创造 [51] - 相比传统RL，语言模型预训练大幅压缩action space，使复杂问题可解 [45] 多模态发展路径 - 短期解决方案是利用图文对齐数据，通过语言模态带动视觉智能 [24] - 长期需突破视频数据利用难题，教学视频中的教学行为可提供丰富action space [63] - 高可控生成技术突破将解开生成与推理的相互依赖死锁，目前OpenAI 4o已展现显著进展 [63][64] 模型架构演进 - 当前transformer架构处理long context存在根本缺陷，需建立分层记忆系统 [67] - multi-agent协作架构可有效解决上下文干扰问题，实现情景隔离式推理 [70] - 架构设计应服务于算法需求，如FFA算法可能彻底改变现有训练范式 [74] 自主学习方向 - 当前rule-based RL面临environment scaling瓶颈，需建立内生学习机制 [76] - 从自然语言反馈中提取多维评价信息是实现自主学习的关键技术难点 [78] - 无限长上下文建模和动态环境交互能力是自主智能体的基础要求 [79]