“复刻”幻方量化打造Deepseek 量化私募基金念空在大模型底层技术研发取得突破

大模型技术研发趋势 - 全球大模型研发公司在语义理解和多模态领域的竞争升级，中国DeepSeek R1模型和美国Anthropic的"克劳德4"系列推出新模型[2] - 量化私募基金加入大模型底层技术研发，念空科技与上海交大合作提出SASR训练框架，在GSM8K任务中1.5B模型准确率超80%，KK逻辑推理任务准确率比GPT-4o高9个百分点[2][6] - 当前大模型训练框架主要围绕监督微调(SFT)和强化学习(RL)，优化两者比重是提升模型性能的关键挑战[3] 训练框架创新与算法优化 - 念空科技SASR框架通过动态平衡SFT与RL，实现不增加数据量情况下的性能提升，在预热阶段建立基础推理能力，后续自主切换训练模式[10][11] - 新框架在GSM8K、MATH和KK数据集实验中性能优于单独SFT/RL及简单混合方法，参数量低但综合能力突出[12] - 产学研结合成为技术突破关键路径，高校提供算法理论，量化机构补充算力与工程能力[6][12] 量化投资领域的应用突破 - 新训练框架下的大模型市场预测准确率达传统量化模型的80%，且两者相关性低于50%，可能产生协同效应[6][16] - 传统AI量化模型基于统计驱动，新框架推动逻辑驱动的模型构建思路，减少过拟合与欠拟合问题[16][17] - 念空科技成立AllMind公司专注LLM底层算法，计划将训练框架扩展至金融以外的垂直领域[11][15] 行业竞争格局与挑战 - 量化私募纷纷设立AI Lab投入大模型研发，但通用大模型赛道面临高资金门槛和市场格局固化挑战[9] - 算法优化成为差异化竞争焦点，2023年ChatGPT依赖SFT，Deepseek崛起凸显RL价值，当前主流采用SFT+RL混合模式[9] - 金融领域外的垂直行业应用存在数据规模和工程能力等新挑战，需进一步优化算法适配性[15][17]