Workflow
BitNet b1.58 2B4T
icon
搜索文档
AI动态汇总:openAI发布GPT-4.1,智谱发布GLM-4-32B-0414系列
中邮证券· 2025-04-23 15:54
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:GPT-4.1** - **模型构建思路**:通过API形式发布,提升编程、指令遵循和长文本理解能力,同时优化性价比[12] - **模型具体构建过程**: - 代码能力:在SWE-bench Verified测试中得分54.6%,比GPT-4o提升21.4%[13] - 指令遵循:Scale's MultiChallenge基准测试得分38.3%,比GPT-4o提升10.5%[13] - 长上下文:支持100万tokens处理能力,在Video-MME基准中得分72.0%(提升6.7%)[13] - 训练优化:通过定制化工具评估指令遵循(如格式遵循、负面指令、有序指令等)[19] - **模型评价**:在编程和长文本任务中表现卓越,但被质疑与GPT-4.5差异较小[12] 2. **模型名称:GLM-4-32B-0414系列** - **模型构建思路**:320亿参数密集模型,支持本地部署,对标GPT系列和DeepSeek V3/R1[26] - **模型具体构建过程**: - 预训练:使用15T高质量数据(含推理类合成数据)[26] - 后训练:通过拒绝采样和强化学习增强指令遵循、代码生成和函数调用能力[28] - 衍生版本: - GLM-Z1-32B-0414:通过冷启动和扩展强化学习提升数理能力[31] - GLM-Z1-Rumination-32B-0414:结合搜索工具处理复杂开放性问题[34] - **模型评价**:在工程代码和复杂任务中媲美更大规模模型[29] 3. **模型名称:Seed-Thinking-v1.5** - **模型构建思路**:采用MoE架构(200B总参数/20B激活参数),专注STEM和创意任务[35] - **模型具体构建过程**: - 数据优化: - 可验证数据(数学/代码):三重清洗(人工筛选→模型过滤→多模型验证)[38] - 非可验证数据(创意写作):两两对比奖励法优化生成质量[38] - 训练机制:双轨奖励(硬指标对错+软偏好优劣)[40] - **模型评价**:在STEM领域表现突出,泛化能力优于DeepSeek R1[35] 4. **模型名称:GPT-o3/o4-mini** - **模型构建思路**:融合图像推理至思维链,自主调用工具提升视觉任务性能[42] - **模型具体构建过程**: - 视觉推理:通过原生图像处理(裁剪/放大/旋转)实现多模态思考[46] - 基准表现:在MMMU、MathVista等视觉任务中刷新SOTA[46] - **模型评价**:编程和视觉推理能力接近“天才水准”,但需高算力支持[43] 5. **模型名称:BitNet b1.58 2B4T** - **模型构建思路**:20亿参数三值权重(-1/0/+1)模型,降低计算资源需求[49] - **模型具体构建过程**: - 架构创新:BitLinear层(1.58位存储)+ 8位整数量化激活值[49] - 训练阶段:4万亿token预训练→监督微调→DPO优化[52] - **模型评价**:内存占用仅0.4GB,性能逼近全精度模型[49] 6. **模型名称:Video-R1** - **模型构建思路**:7B参数视频推理模型,基于R1范式和T-GRPO算法增强时间建模[63] - **模型具体构建过程**: - 数据集:Video-R1-COT-165k(SFT冷启动)+ Video-R1-260k(RL训练)[67] - 训练方法:Qwen2.5-VL-7B基础模型 + T-GRPO强化学习[68] - **模型评价**:在VSI-Bench超越GPT-4o,泛化能力显著[68] 7. **模型名称:Pangu-Ultra** - **模型构建思路**:135B密集模型,纯昇腾集群训练,优化深度网络稳定性[69] - **模型具体构建过程**: - 架构改进:Sandwich-Norm层归一化 + TinyInit参数初始化[74] - 性能表现:在AIME 2024、MATH-500等任务中比肩DeepSeek-R1[74] - **模型评价**:中文任务全面领先,数学/代码任务具竞争力[73] --- 模型的回测效果 1. **GPT-4.1** - SWE-bench Verified:54.6%[13] - Scale's MultiChallenge:38.3%[13] - Video-MME:72.0%[13] 2. **GLM-4-32B-Base-0414** - 工程代码/函数调用:媲美GPT-4o[29] 3. **Seed-Thinking-v1.5** - AIME 2024:86.7%[35] - Codeforces:55.0%[35] 4. **GPT-o3/o4-mini** - Codeforces:>2700分(全球前200)[43] - AIME 2025:99.5%(配合Python解释器)[43] 5. **Video-R1** - VSI-Bench:35.8%(超越GPT-4o)[68] 6. **Pangu-Ultra** - MATH-500:97.4%[74] - GPQA Diamond:74.2%[74] --- 技术备注 - **MCP协议**:简化AI工具集成,配置效率从100×100降至100+100[54] - **Sandwich-Norm架构**:通过Pre-Norm + 子层 + Post-Norm提升训练稳定性[74] (注:因研报未涉及量化因子内容,故未列出相关部分)
AI与机器人盘前速递丨天工Ultra获机器人半马冠军,微软发布可在CPU超高效运行AI模型BitNet
每日经济新闻· 2025-04-21 09:24
市场表现 - AI与机器人板块上周五横盘调整 科创人工智能ETF华夏(589010)下跌0.9% 芯原股份、安路科技、晶晨股份领跌 [1] - 机器人ETF(562500)价格持平 盘中交易金额4.15亿元 换手率3.57% 成份股涨跌互现 新元科技、派斯林领跌 东杰智能、中信重工领涨 [1] 行业动态 - 全球首个人形机器人半程马拉松赛在北京举行 全程21公里 20支赛队参赛 天工Ultra机器人2小时40分钟完赛夺冠 松延动力N2机器人获亚军 [1] - 人形机器人未来价格预计与入门级轿车相当 [1] - 微软推出1-bit AI模型BitNet b1.58 2B4T 参数规模20亿 可在普通CPU运行 效率超越Meta、谷歌同类模型 但依赖微软自研框架bitnet.cpp [2] 技术瓶颈 - 人形机器人续航能力不足 除行者机器人外其他完赛机器均需更换电池 [3] - 关节散热问题突出 需依赖降温喷雾维持正常运行 [3] 政策支持 - 地方政府主办机器人赛事并获央视直播 体现对人形机器人产业的高度重视 [3] 产品布局 - 机器人ETF(562500)为全市场规模最大机器人主题ETF [3] - 科创人工智能ETF华夏(589010)聚焦AI产业 具备20%涨跌幅和中小盘弹性特征 [3]