谷歌推出Gemini Robotics On-Device 大模型，快手开源 keye-VL 多模态模型：AI 动态汇总

根据提供的研报内容，以下是量化模型与因子的详细总结：量化模型与构建方式 1. 模型名称：Gemini Robotics On-Device - 模型构建思路：基于Gemini 2.0架构开发，实现多模态大模型在机器人设备上的完全本地化运行，无需依赖云端计算[12] - 模型具体构建过程： - 深度融合视觉感知、自然语言理解和动作规划三大模块 - 通过端到端的多模态神经网络训练，将文本、图像输入映射为机械控制信号 - 采用三级安全机制（实时碰撞检测、伦理约束层和硬件级动作限制）保障人机协作安全[13] - 提供Gemini Robotics SDK和MuJoCo物理模拟器工具链，支持开发者通过少量样本微调适配新任务[16] 2. 模型名称：Kwai Keye-VL - 模型构建思路：基于Qwen3-8B语言模型架构，融合SigLIP初始化的视觉编码器，实现文本、图像和视频信息的统一处理[17] - 模型具体构建过程： - 采用3D RoPE（旋转位置编码）技术捕捉视频时序变化与动态分辨率输入 - 预训练阶段使用600B规模的多模态数据集，通过四阶段优化策略构建基座能力[18] - 后训练阶段通过两阶段微调实现推理能力跃升，采用GRPO算法进行混合强化学习[18] 3. 模型名称：Gemini CLI - 模型构建思路：将Gemini 2.5 Pro模型的百亿级参数能力嵌入终端环境，通过自然语言交互重构开发者工作流[25] - 模型具体构建过程： - 基于ReAct（Reason and Act）工作循环设计，实现多模态推理与工具调用的动态协同 - 支持MCP（Model Context Protocol）扩展层，允许接入第三方服务如Imagen图像生成或Veo视频合成[27] - 采用沙盒执行与影子提交双重安全机制，所有文件修改前自动创建Git检查点[29] 4. 模型名称：Mu - 模型构建思路：专为Windows 11系统设计的小型语言模型，实现与参数量十倍的Phi-3.5-mini相当的性能表现[44] - 模型具体构建过程： - 采用编码器-解码器架构与NPU深度协同设计 - 通过双重层归一化（Pre- and Post-LN）、旋转位置嵌入（RoPE）和分组查询注意力（GQA）优化性能[47] - 训练阶段先在数千亿高质量教育token上预训练，再通过知识蒸馏从Phi模型中提取核心能力[47] 5. 模型名称：子曰3（Confucius3-Math） - 模型构建思路：专注于K12数学教育的开源推理模型，通过轻量化架构与增强学习优化实现低成本高性能[53] - 模型具体构建过程： - 采用符号运算加速器设计，解几何题时辅助线生成速度提升3倍 - 通过Policy-Specific Hardness Weighting技术动态调整训练样本权重[54] - 训练数据整合100万+师生互动记录，使解题逻辑更贴合教学大纲[54] 模型的回测效果 1. Gemini Robotics On-Device - 在未训练情境下的任务完成率达81%[13] - 器械识别准确率超过95%[16] 2. Kwai Keye-VL - 在VideoMME等权威基准上以67.4分超越Qwen2.5-VL-7B[21] - 内部短视频场景测试中综合得分领先业界10%以上[21] 3. Gemini CLI - GitHub上线48小时内斩获3万星标[28] - 每分钟60次请求、每日1000次调用的免费额度[28] 4. Mu - 在Windows设置代理任务中达到500毫秒内的响应延迟，准确率接近Phi-3.5-mini的81%[47] - 解码速度提升4.7倍，首token延迟降低47%[47] 5. 子曰3 - 在GAOKAO-Bench（Math）成绩达到98.5分[53] - 推理成本压缩至每百万token仅0.15美元[53] 量化因子与构建方式（注：研报中未明确提及量化因子的构建，此部分暂缺）因子的回测效果（注：研报中未明确提及量化因子的测试结果，此部分暂缺）