Workflow
对话念空科技王啸:量化对冲基金的大模型之路
36氪·2025-05-23 17:24

核心观点 - 量化私募念空科技与上海交大计算机学院合作发表大模型研究论文,提出"自适应混合训练方法论",成为首家闯入国际顶会NIPS的中国量化机构 [3][4][5] - 公司在DeepSeek基础上提出交替进行SFT和RL的新训练框架,实验证明在三个公开数据集上优于单独SFT、单独RL及简单混合方法 [5][23][24][25][27] - 公司通过产学研结合路径探索大模型在量化投资的应用,同时孵化AllMind进行跨领域大模型底层研究,展现从金融AI向多领域扩展的野心 [10][11][41][42] 技术创新 - 提出动态混合训练框架SASR,通过step-wise自适应算法决定每个训练阶段采用SFT或RL,相比静态混合方法在GSM8K、MATH等数据集上准确率提升显著 [25][27][28] - 实验数据显示SASR框架在1.5B/0.5B参数量下取得0.484平均准确率,优于静态混合的0.326和单独SFT的0.414 [28] - 技术突破点在于发现交替训练可避免过拟合和模型崩溃,类比人类学习中刷题与考试经验交替进行更有效 [24][25] 产学研结合 - 与上海交大合作实现优势互补:高校提供理论研究与人才资源,公司提供算力、工程经验及金融场景 [8][29][34] - 2017年组建3人AI团队起步,2019年将90%实盘模型转为Transformer算法,2021年管理规模达百亿 [17][18] - 当前AI团队规模达数十人,70%-80%为自主培养,通过6个月实习可熟练使用内部一体化研究框架 [37][38][39] 战略布局 - 成立AllMind独立公司专注大模型底层研究,与主营量化业务的念空形成分工:前者侧重基础算法与跨领域应用,后者聚焦金融数据拟合 [40][41] - 基于通义千问3进行垂直领域微调,计划开发面向普通投资者的普惠金融应用 [35][43] - 战略逻辑是通过理解大模型底层原理提升金融预测能力,同时将训练框架迁移至医药、新材料等领域 [11][33][42] 行业洞察 - 金融数据具有量少、信噪比低、不稳定的特点,与互联网数据差异显著,传统机器学习易过拟合 [7][58][59] - 量化模型不需100%准确率,IC值15%-20%即可盈利,关键是在过拟合与欠拟合间找到平衡 [54][61][62] - 大模型可突破传统拟合局限,通过跨模态理解带来超额信息,但需针对金融特点调整训练方法 [19][32][49]