Workflow
AI动态汇总:openAI发布GPT-4.1,智谱发布GLM-4-32B-0414系列
中邮证券·2025-04-23 15:54

根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. 模型名称:GPT-4.1 - 模型构建思路:通过API形式发布,提升编程、指令遵循和长文本理解能力,同时优化性价比[12] - 模型具体构建过程: - 代码能力:在SWE-bench Verified测试中得分54.6%,比GPT-4o提升21.4%[13] - 指令遵循:Scale's MultiChallenge基准测试得分38.3%,比GPT-4o提升10.5%[13] - 长上下文:支持100万tokens处理能力,在Video-MME基准中得分72.0%(提升6.7%)[13] - 训练优化:通过定制化工具评估指令遵循(如格式遵循、负面指令、有序指令等)[19] - 模型评价:在编程和长文本任务中表现卓越,但被质疑与GPT-4.5差异较小[12] 2. 模型名称:GLM-4-32B-0414系列 - 模型构建思路:320亿参数密集模型,支持本地部署,对标GPT系列和DeepSeek V3/R1[26] - 模型具体构建过程: - 预训练:使用15T高质量数据(含推理类合成数据)[26] - 后训练:通过拒绝采样和强化学习增强指令遵循、代码生成和函数调用能力[28] - 衍生版本: - GLM-Z1-32B-0414:通过冷启动和扩展强化学习提升数理能力[31] - GLM-Z1-Rumination-32B-0414:结合搜索工具处理复杂开放性问题[34] - 模型评价:在工程代码和复杂任务中媲美更大规模模型[29] 3. 模型名称:Seed-Thinking-v1.5 - 模型构建思路:采用MoE架构(200B总参数/20B激活参数),专注STEM和创意任务[35] - 模型具体构建过程: - 数据优化: - 可验证数据(数学/代码):三重清洗(人工筛选→模型过滤→多模型验证)[38] - 非可验证数据(创意写作):两两对比奖励法优化生成质量[38] - 训练机制:双轨奖励(硬指标对错+软偏好优劣)[40] - 模型评价:在STEM领域表现突出,泛化能力优于DeepSeek R1[35] 4. 模型名称:GPT-o3/o4-mini - 模型构建思路:融合图像推理至思维链,自主调用工具提升视觉任务性能[42] - 模型具体构建过程: - 视觉推理:通过原生图像处理(裁剪/放大/旋转)实现多模态思考[46] - 基准表现:在MMMU、MathVista等视觉任务中刷新SOTA[46] - 模型评价:编程和视觉推理能力接近“天才水准”,但需高算力支持[43] 5. 模型名称:BitNet b1.58 2B4T - 模型构建思路:20亿参数三值权重(-1/0/+1)模型,降低计算资源需求[49] - 模型具体构建过程: - 架构创新:BitLinear层(1.58位存储)+ 8位整数量化激活值[49] - 训练阶段:4万亿token预训练→监督微调→DPO优化[52] - 模型评价:内存占用仅0.4GB,性能逼近全精度模型[49] 6. 模型名称:Video-R1 - 模型构建思路:7B参数视频推理模型,基于R1范式和T-GRPO算法增强时间建模[63] - 模型具体构建过程: - 数据集:Video-R1-COT-165k(SFT冷启动)+ Video-R1-260k(RL训练)[67] - 训练方法:Qwen2.5-VL-7B基础模型 + T-GRPO强化学习[68] - 模型评价:在VSI-Bench超越GPT-4o,泛化能力显著[68] 7. 模型名称:Pangu-Ultra - 模型构建思路:135B密集模型,纯昇腾集群训练,优化深度网络稳定性[69] - 模型具体构建过程: - 架构改进:Sandwich-Norm层归一化 + TinyInit参数初始化[74] - 性能表现:在AIME 2024、MATH-500等任务中比肩DeepSeek-R1[74] - 模型评价:中文任务全面领先,数学/代码任务具竞争力[73] --- 模型的回测效果 1. GPT-4.1 - SWE-bench Verified:54.6%[13] - Scale's MultiChallenge:38.3%[13] - Video-MME:72.0%[13] 2. GLM-4-32B-Base-0414 - 工程代码/函数调用:媲美GPT-4o[29] 3. Seed-Thinking-v1.5 - AIME 2024:86.7%[35] - Codeforces:55.0%[35] 4. GPT-o3/o4-mini - Codeforces:>2700分(全球前200)[43] - AIME 2025:99.5%(配合Python解释器)[43] 5. Video-R1 - VSI-Bench:35.8%(超越GPT-4o)[68] 6. Pangu-Ultra - MATH-500:97.4%[74] - GPQA Diamond:74.2%[74] --- 技术备注 - MCP协议:简化AI工具集成,配置效率从100×100降至100+100[54] - Sandwich-Norm架构:通过Pre-Norm + 子层 + Post-Norm提升训练稳定性[74] (注:因研报未涉及量化因子内容,故未列出相关部分)