
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. 模型名称:Gemini Robotics On-Device - 模型构建思路:基于Gemini 2.0架构开发,实现多模态大模型在机器人设备上的完全本地化运行,无需依赖云端计算[12] - 模型具体构建过程: - 深度融合视觉感知、自然语言理解和动作规划三大模块 - 通过端到端的多模态神经网络训练,将文本、图像输入映射为机械控制信号 - 采用三级安全机制(实时碰撞检测、伦理约束层和硬件级动作限制)保障人机协作安全[13] - 提供Gemini Robotics SDK和MuJoCo物理模拟器工具链,支持开发者通过少量样本微调适配新任务[16] 2. 模型名称:Kwai Keye-VL - 模型构建思路:基于Qwen3-8B语言模型架构,融合SigLIP初始化的视觉编码器,实现文本、图像和视频信息的统一处理[17] - 模型具体构建过程: - 采用3D RoPE(旋转位置编码)技术捕捉视频时序变化与动态分辨率输入 - 预训练阶段使用600B规模的多模态数据集,通过四阶段优化策略构建基座能力[18] - 后训练阶段通过两阶段微调实现推理能力跃升,采用GRPO算法进行混合强化学习[18] 3. 模型名称:Gemini CLI - 模型构建思路:将Gemini 2.5 Pro模型的百亿级参数能力嵌入终端环境,通过自然语言交互重构开发者工作流[25] - 模型具体构建过程: - 基于ReAct(Reason and Act)工作循环设计,实现多模态推理与工具调用的动态协同 - 支持MCP(Model Context Protocol)扩展层,允许接入第三方服务如Imagen图像生成或Veo视频合成[27] - 采用沙盒执行与影子提交双重安全机制,所有文件修改前自动创建Git检查点[29] 4. 模型名称:Mu - 模型构建思路:专为Windows 11系统设计的小型语言模型,实现与参数量十倍的Phi-3.5-mini相当的性能表现[44] - 模型具体构建过程: - 采用编码器-解码器架构与NPU深度协同设计 - 通过双重层归一化(Pre- and Post-LN)、旋转位置嵌入(RoPE)和分组查询注意力(GQA)优化性能[47] - 训练阶段先在数千亿高质量教育token上预训练,再通过知识蒸馏从Phi模型中提取核心能力[47] 5. 模型名称:子曰3(Confucius3-Math) - 模型构建思路:专注于K12数学教育的开源推理模型,通过轻量化架构与增强学习优化实现低成本高性能[53] - 模型具体构建过程: - 采用符号运算加速器设计,解几何题时辅助线生成速度提升3倍 - 通过Policy-Specific Hardness Weighting技术动态调整训练样本权重[54] - 训练数据整合100万+师生互动记录,使解题逻辑更贴合教学大纲[54] 模型的回测效果 1. Gemini Robotics On-Device - 在未训练情境下的任务完成率达81%[13] - 器械识别准确率超过95%[16] 2. Kwai Keye-VL - 在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B[21] - 内部短视频场景测试中综合得分领先业界10%以上[21] 3. Gemini CLI - GitHub上线48小时内斩获3万星标[28] - 每分钟60次请求、每日1000次调用的免费额度[28] 4. Mu - 在Windows设置代理任务中达到500毫秒内的响应延迟,准确率接近Phi-3.5-mini的81%[47] - 解码速度提升4.7倍,首token延迟降低47%[47] 5. 子曰3 - 在GAOKAO-Bench(Math)成绩达到98.5分[53] - 推理成本压缩至每百万token仅0.15美元[53] 量化因子与构建方式 (注:研报中未明确提及量化因子的构建,此部分暂缺) 因子的回测效果 (注:研报中未明确提及量化因子的测试结果,此部分暂缺)