WebWatcher - 财报，业绩电话会，研报，新闻

WebWatcher

搜索文档

AI动态汇总：DeepSeek线上模型升级至V3.1，字节开源360亿参数Seed-OSS系列模型

中邮证券· 2025-08-26 21:00

量化模型与构建方式 1 **模型名称**：DeepSeek-V3.1混合推理架构[12] **模型构建思路**：通过单一模型支持“思考模式”与“非思考模式”两种推理方式，以适应不同复杂度的任务需求，提升计算资源分配效率[12] **模型具体构建过程**：模型基于Transformer结构进行深度改造，通过动态激活不同的注意力头来实现模式切换，并采用了思维链压缩训练技术以减少推理过程中的冗余token输出[12] 在非思考模式下，模型针对简单任务提供快速响应；在思考模式下，模型启动深度推理机制，适用于代码生成、复杂决策和多步逻辑推理等任务[12] 模型还将上下文长度从64K扩展至128K，采用了“两阶段长上下文扩展方法”，在原始V3模型检查点基础上新增了8400亿tokens的训练数据，其中32K上下文扩展阶段的训练量增加了10倍，128K扩展阶段增加了3.3倍[15] 2 **模型名称**：Seed-OSS-36B[22] **模型构建思路**：以360亿参数规模和原生512K超长上下文窗口为核心，旨在实现参数效率与性能的平衡，特别优化数学推理、代码生成和智能体任务[22] **模型具体构建过程**：采用稠密模型架构，参数分布于64层网络中，隐藏层维度为5120，词汇表扩展至155K以支持多语言与专业术语处理[22] 集成分组查询注意力（GQA）机制，通过80个查询头分组共享键值对，结合旋转位置编码（RoPE）技术原生支持512K上下文窗口[22] 训练阶段采用RMSNorm归一化与SwiGLU激活函数，使用12万亿tokens的训练数据[23] 引入“思考预算”机制，允许用户动态控制模型推理深度，开发者可设定512的整数倍token预算（如512、4K、16K），模型会实时反馈剩余计算资源并调整输出策略[24] 3 **模型名称**：WebWatcher[26] **模型构建思路**：构建一个能够同步解析图像与文本信息，并自主调用多种工具链完成多步骤任务的多模态深度研究智能体[26] **模型具体构建过程**：开发团队设计了一套完整的四阶段训练框架[27] 首先通过CRAWLQA模拟人类浏览权威网站如arXiv和Wiki来构建数据，随后进行轨迹采样以构建网页操作链，接着通过监督微调学习基础工具调用与决策逻辑，最后利用强化学习在动态环境中优化长期推理能力[27] 其关键突破在于E2HQA数据合成技术，通过由简到难的策略自动生成带验证的多步推理问答对[27] 4 **模型名称**：AutoGLM 2.0[32] **模型构建思路**：通过创新的云端架构和“云手机+云电脑”技术范式，构建一个能在手机端运行的通用智能体，实现人工智能从信息交互向行动执行的关键跨越[32] **模型具体构建过程**：其核心架构建立在“终端指令-云端执行-结果反馈”的闭环系统之上，为每位用户配备专属的云端虚拟设备（基于安卓环境的云手机和Ubuntu系统的云电脑），使任务执行与用户本地设备完全解耦[33] 由智谱最新开源模型GLM-4.5与GLM-4.5V协同驱动，GLM-4.5作为“决策大脑”负责任务规划与逻辑推理，GLM-4.5V作为“视觉执行器”通过计算机视觉识别GUI界面元素并精准映射操作动作[34] 两者通过端到端异步强化学习框架协同工作：模型在数千个并行云环境中自主试错，仅依赖最终任务完成的奖励信号优化策略[34] 5 **模型名称**：WeChat-YATT（gCore）[39] **模型构建思路**：专注于强化学习（RL）和多模态模型训练，旨在提供一套易扩展、简洁、高效且可靠的大模型训练解决方案，以应对大尺寸模型、长序列输入以及大规模数据集带来的挑战[39] **模型具体构建过程**：针对大模型分布式训练中的两大核心瓶颈提出解决方案[39] 首先是多模态场景下的可扩展性瓶颈，通过引入并行控制器（Parallel Controller）机制，由多个控制器协同管理数据任务，有效分散系统压力[39] 其次是动态采样与生成式奖励计算下的效率短板，通过部分共存策略（Partial Colocation）和异步交互机制，大幅减轻模型切换损耗和长尾任务的影响[40] 支持两种资源放置模式：全员共存（Full Colocation）与部分共存（Partial Colocation）[43] 全员共存模式采用串行调度机制，Actor Rollouts、生成式奖励模型（GenRM）与训练（Train）依次串行执行，每个角色完成后主动释放计算资源；部分共存模式则适用于Rollouts与GenRM需要高频交互、动态采样的复杂任务场景，Actor Rollouts与GenRM独立部署并通过异步方式进行高效交互[43] 6 **模型名称**：Qwen-Image-Edit[47] **模型构建思路**：基于Qwen-Image基础模型，通过创新的双重编码机制与多模态扩散Transformer架构（MMDiT），实现语义与外观双重编辑能力的深度融合[47] **模型具体构建过程**：采用双路径输入设计，将原始图像同时送入Qwen2.5-VL模型和VAE编码器[47] 前者负责提取高层语义特征，实现对场景、对象关系的理解；后者则专注于保留底层视觉细节如纹理与色彩[47] 引入链式编辑机制，用户可通过多次框选指定区域逐步调整，如修正书法作品[49] 7 **模型名称**：PROMPTQUINE框架[58] **模型构建思路**：提出一种颠覆传统大语言模型提示设计范式的新方法，通过将自然语言提示修剪成看似不连贯的“乱码”来提升模型在多样化任务中的表现[58] **模型具体构建过程**：该框架采用进化搜索算法，仅利用上下文中的token资源，自主发现有效的修剪策略[58] 将提示优化重构为引导式搜索问题，将搜索空间定义为原始提示的所有可能子序列，通过动态调整子序列长度来优化不可微的任务目标函数[59] 设计了基于遗传算法的搜索机制，其中二进制token掩码作为基因型，生成的ICL提示作为表现型，通过位翻转实现变异操作，基于精英选择指导后代生存[59] 模型的回测效果（报告中未提供相关模型的量化回测性能指标，如年化收益率、夏普比率、信息比率（IR）、最大回撤等，因此此部分省略）量化因子与构建方式（报告中未涉及量化因子的构建与测试，因此此部分省略）因子的回测效果（报告中未涉及量化因子的构建与测试，因此此部分省略）

Artificial Intelligence

大模型

智能体

Artificial Intelligence

WebWatcher

AutoGLM 2.0

Artificial Intelligence

大模型

智能体

Artificial Intelligence

WebWatcher

AutoGLM 2.0

首个开源多模态Deep Research智能体，超越多个闭源方案

量子位· 2025-08-15 14:44

开源多模态Deep Research Agent - 首个开源多模态Deep Research Agent整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具，通过全自动流程生成高质量推理轨迹 [1] - 采用冷启动微调和强化学习优化决策，使模型能自主选择合适的工具组合和推理路径 [1] - 解决跨模态、跨工具、多步骤任务需要具备深度研究能力的Agent [5] 技术方案 - WebWatcher技术方案覆盖从数据构建到训练优化的完整链路，包含三大环节：多模态高难度数据生成、高质量推理轨迹构建与后训练、高难度基准评测 [6] - 多模态高难度数据生成采用全自动多模态数据生成流程，在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本 [8] - 高质量推理轨迹构建与后训练采用Action-Observation驱动的轨迹生成方法，通过监督微调和GRPO强化学习提升决策能力 [14] 数据生成方法 - 在多源网页中进行随机游走采样，构建多领域实体图谱，问题解决路线难以预设 [10] - 生成问题时刻意隐藏关键信息并引入模糊指代词描述，迫使模型进行跨模态推理 [11] - 通过QA-to-VQA转换模块将复杂问题样本扩展为多模态版本，依赖跨模态理解能力 [12] 性能表现 - 在HLE-VL多步复杂推理基准上，WebWatcher以13.6%的Pass@1分数领先GPT-4o(9.8%)和Gemini2.5-flash(9.2%) [20] - 在MMSearch评测中Pass@1得分55.3%，相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先 [21] - 在LiveVQA场景下Pass@1成绩58.7%，领先Gemini2.5-flash(41.3%)和GPT-4o(34.0%) [22] - 在BrowseComp-VL基准上以27.0%的平均得分领先GPT-4o(13.4%)和Gemini2.5-flash(13.0%) [23]