Workflow
AI动态汇总:苹果推出Xcode26Beta7,英伟达开源Jet-Nemotron高性能语言模型
中邮证券·2025-09-03 21:03

量化模型与构建方式 1 模型名称:PostNAS框架与JetBlock模块 模型构建思路:通过后神经架构搜索方法对预训练Transformer模型进行深度优化,结合新型线性注意力模块,实现高性能与高效率的语言模型架构[15][16] 模型具体构建过程: 1. 从预训练的全注意力模型出发,继承并冻结其多层感知机权重 2. 训练"一次性"超级网络自动确定全注意力层的最佳放置位置 3. 评估多种线性注意力模块,选定Gated DeltaNet为基础 4. 设计JetBlock模块,引入动态因果卷积核,其卷积核生成器根据输入内容动态调整特征提取模式,同时移除查询和键上的冗余静态卷积 5. 执行硬件感知架构搜索,将KV缓存大小固定后对关键维度进行网格搜索[16] 2 模型名称:Gemini 2.5 Flash Image 模型构建思路:采用稀疏混合专家架构与改进的扩散模型,实现高质量图像生成与编辑[23][25] 模型具体构建过程: 1. 采用稀疏混合专家架构,将模型参数划分为多个专家模块,每个输入token仅激活少量专家 2. 将文本、图像、音频等输入映射到统一的嵌入空间,通过跨模态注意力机制实现信息融合 3. 采用改进的扩散模型,在低维潜空间进行去噪 4. 内置物理引擎级渲染模块理解光影投射、物体遮挡等物理规律 5. 通过特征锚定机制提取人物面部、体态等关键特征,并在生成过程中持续锚定,确保多场景下角色外观一致[25][26] 3 模型名称:MAI-1-preview 模型构建思路:采用混合专家架构(MoE),专注于指令遵循与响应效率的平衡[36] 模型具体构建过程: 1. 使用约1.5万张NVIDIA H100 GPU进行预训练与后训练 2. 采用混合专家架构(MoE)[36] 4 模型名称:RLCF(基于检查表的强化学习反馈) 模型构建思路:通过动态生成指令特定的检查表来评估模型响应,替代传统奖励模型[48][49] 模型具体构建过程: 1. 定义检查表核心特征:每个检查项必须是可验证的是非问题,响应需满足所有检查项才合格 2. 开发两种检查表生成方法: - 直接法:通过简单提示语言模型从指令中提取检查项 - 候选法:通过分析不同质量响应样本的失败模式生成更全面的检查表 3. RLCF方法包含四个关键步骤: - 从基础策略中采样候选响应对 - 结合AI评判员和验证程序对每个检查项进行评分 - 计算加权平均得分并筛选差异显著的响应对 - 使用这些偏好对进行直接偏好优化训练[48][49] --- 量化因子与构建方式 (本报告中未涉及量化因子的相关内容) --- 模型的回测效果 1 Jet-Nemotron模型 - 提供2B和4B两种参数规模的版本[17] - 在H100 GPU上生成吞吐量最高提升53.6倍,预填充阶段速度提升6.1倍[17] - Jet-Nemotron-2B在MMLU、MMLU-Pro和BBH基准上相比Qwen3-1.7B-Base吞吐量提高47倍,缓存大小缩小至原来的四十七分之一[19] - 在数学任务中平均准确率49.6,超出Qwen3-1.7B-Base达6.3个点[19] - 在常识推理任务中平均准确率62.0,超越所有基线模型[19] - 在检索和编码任务中表现优于多数同类模型[19] - Jet-Nemotron-4B在所有编码任务中均实现更高准确率,在长上下文任务中性能媲美配备更多全注意力层的领先模型[19] 2 Gemini 2.5 Flash Image模型 - 在LMArena基准测试的文生图与图像编辑两个场景中均获得全球第一的评价[27] - 在用户综合喜好度、人物、创造力、信息图、物体和环境的生成上领先于GPT-4o图像生成、Flux.1 Kontext等模型[27] - 定价为每百万输出token 30美元,每张图像消耗约1290 token,约合0.039美元每张图像[28] 3 MAI-1-preview模型 - 在LMArena文本任务榜单中排名第13位[36] 4 RLCF模型 - 在IFEval上相对提升2.8-3.0%[51] - 在FollowBench上约束满足水平提升8.2%[51] - 在InFoBench上总体要求遵循率提升6.9%[51] - 在"内容"类约束上的平均硬满足率比基线高出6.4个百分点[51] --- 因子的回测效果 (本报告中未涉及量化因子的回测效果)